随着 CogVideoX-5B 的推出,人工智能领域发生了巨大变化。这款由清华大学和智普人工智能的研究人员开发的人工智能模型可能会改变视频制作方式和数字内容格局。CogVideoX-5B 是什么?为什么它如此受欢迎?
CogVideoX-5B 与众不同,因为它易于使用且功能强大。该模型可以从简单的文本制作长达六秒的高质量视频。这具有重大意义。该模型是开源的,因此世界各地的开发人员都可以使用它。这让每个人都能更轻松地制作视频。
CogVideoX-5B をお试し中。https://t.co/e3bNKp3adp
一只毛茸茸的白色小猫,脖子上系着一条粉色丝带,在阳光照射的窗户旁的垫子上玩耍,柔软的皮毛在阳光下闪闪发光。场景从稍远的地方开始,随着小猫拍打小球,镜头逐渐拉近…… pic.twitter.com/1x1y3mqFA6
— 布留川英一 / Hidekazu Furukawa (@npaka123) 2024 年 8 月 28 日
是什么让它在 CogVideoX-5B 内部发挥作用?
CogVideoX-5B 型号具有 50 亿个参数。该模型可以制作视频 720×480分辨率 和 每秒 8 帧。这个模型不是最好的,但仍然很好,尤其是 因为它是开源的。
CogVideoX-5B 的成功归功于多项技术创新。该模型使用 3D 变分自动编码器 (VAE) 来压缩视频数据,使其更容易生成 高品质输出。它还使用了具有自适应 LayerNorm 的“专家变换器”,这使得模型能够以更细微的差别解释文本,从而产生更准确、更连贯的视频。
决定将 CogVideoX-5B 开源是 AI 的一大举措。清华大学和智普 AI 的研究人员已经公开了他们的代码和模型权重,让其他人更容易使用先进的视频生成技术。这意味着开发人员现在可以尝试 AI 生成的视频内容。这种开源方法可能会为许多行业带来新的工具和应用。
由 CogVideoX-5B 创建! pic.twitter.com/Y22zcg8fBA
— F-AI(@faiAI0) 2024 年 8 月 28 日
CogVideoX-5B:它的比较和制造商
CogVideoX-5B 并不是第一个文本转视频模型,但它被证明是最具影响力的模型之一。它的表现优于 VideoCrafter-2.0 和 OpenSora 等竞争对手。这要归功于开发人员使用的新技术。清华大学和智普 AI 的研究人员创建了一种可以改变数字内容的制作和消费方式的工具。
如何开始使用 CogVideoX-5B
您可以免费使用和试验 CogVideoX-5B 模型。以下是入门的简单指南:
- 访问 GitHub 存储库:CogVideoX-5B 代码和模型权重位于 GitHub 上。将它们下载到您的计算机。
- 设置环境:确保您拥有运行模型的正确工具。这可能包括特定版本的 Python 和 PyTorch 等库。
- 运行模型:输入文本提示并使用存储库中的说明生成视频。
- 实验与创新:了解基础知识后,尝试不同的文本提示来查看模型可以做什么。
CogVideoX-5B (txt2vid) 已添加到免费的 Blender 插件 Pallaidium: #b3d pic.twitter.com/ynBupL2TKT
— tintwotin (@tintwotin) 2024 年 8 月 27 日
如何在线试用 CogVideoX-5B
如果你不想下载 CogVideoX-5B,你可以通过 Hugging Face 在线试用。以下是演示版的使用指南:
- 访问演示页面:前往 CogVideoX-5B Hugging Face Space。
- 输入您的文本提示:在“提示”框中,描述您要生成的视频。为获得最佳效果,请将其控制在 200 个字以内。
- 增强你的提示(可选):点击“增强提示”可完善您的输入并覆盖原提示。
- 设置推理种子(可选):要控制视频生成的随机性,请在“推理种子”框中输入一个正数。如果您喜欢随机种子,请将值保留为
-1
。
- 启用附加功能(可选):
- 超分辨率:选择此框可将视频从 720×480 升级到 1440×960。
- 帧插值:启用此功能可通过增加每秒帧数(从 8 FPS 到 16 FPS)来改善视频输出。
- 生成视频:完成后,点击“生成视频”。模型将根据您的提示制作一段简短的视频。
- 观看视频:生成后,在页面上预览视频。调整输入并重试以获得所需的结果。
CogVideoX-5B 及类似产品
CogVideoX-5B 是另一种改变数字内容创作可能性的 AI 模型。其他值得注意的模型包括 Runway 的视频生成工具、Luma AI、VideoCrafter2 和 Pika Labs。每种模型都有自己的优势,但新的 AI 是开源的,这使得它更易于使用,并让更多人为其开发做出贡献。
该公司在 AI 生成视频方面迈出了重要一步。其开源方法让每个人都能更轻松地使用它,并有助于它不断改进。随着越来越多的人开始使用它,视频创作将变得更加多样化、动态化和易于访问。
特色图片来源:CogVideoX
Source: CogVideoX-5B 将如何彻底颠覆视频创作