背景
ComfyUI 学习笔记,案例5 : cosmos。“Cosmos”一词源自希腊语“κόσμος”(kosmos),其基本含义是“秩序”、“和谐”或“有条理的安排”,与“chaos”(混乱)形成对立。这一概念最早由古希腊哲学家和数学家毕达哥拉斯提出,用来描述宇宙作为一个有序的整体体系。
为什么案例名称叫这个呢?在 ComfyUI 的案例中,“Cosmos” 指的是 NVIDIA 推出的开源 AI 视频生成模型(如 Cosmos 7B/14B),主要用于文本到视频(T2V)和图像到视频(I2V)任务。以下是关键点:
- 核心功能:文本/图像生成视频:支持通过文本描述或输入图像生成动态视频。
物理世界模拟:作为世界基础模型(World Model),可模拟真实物理规律(如光影、运动轨迹),适用于机器人训练、自动驾驶合成数据生成等。 - 与 ComfyUI 的集成:内置支持:更新 ComfyUI 后可直接使用 Cosmos 模型(需下载并放置到指定目录)。
- 优化工具:专用采样器(如 res_multistep)提升生成质量。
自动显存卸载(Weight Offloading)降低硬件门槛。
工作流示例:官方提供 T2V/I2V 工作流链接。 - 技术特点,长提示支持:对复杂场景描述敏感,适合故事性强的序列生成。开源生态:模型可通过 Hugging Face 下载。
案例清单
这个案例包里面有两个例子:
- image_to_video_cosmos_7B.json 图生视频
- text_to_video_cosmos_7B.json 文生视频
感觉图生视频比较容易,拖到 Comfy UI 桌面版操作区域,分析模型。
模型下载
- oldt5_xxl_fp8_e4m3fn_scaled
- Cosmos-1_0-Diffusion-7B-Text2World.safetensors
- cosmos_cv8x8x8_1.0.safetensors
模型里面使用了 oldt5_xxl_fp8_e4m3fn_scaled ,有一个前缀 old 没有,去掉前缀后的模型 下载地址,下载到本机模型目录。
其他两个在官方镜像里面搜索有结果,但是都是 gated model。需要官方授权的,限于网络因素,下不来。
启示录
试图去咸鱼上求直接可用的模型文件,买了一份但是没有 cosmos 模型。
这个官方案例是根据图生成了一个动态的视频,一只狐狸在冰雪池边,旁边雾气缭绕形成了动态的视频。在 B 站上看了一个介绍这个 Demo 的视频,我本机实验的时候卡在模型和节点上了。
逐渐被 Comfy UI 的模型和节点安装操作劝退中!这个案例就看个热闹吧……