豆包开源视频生成模型 VideoWorld:首创免语言模型依赖认知世界

不同于 Sora 、DALL-E 、Midjourney 等主流多模态模型,VideoWorld 在业界首次实现无需依赖语言模型,即可认知世界。

豆包大模型团队联合北京交通大学、中国科学技术大学共同开发的视频生成实验模型“VideoWorld”今日开源。不同于 Sora 、DALL-E 、Midjourney 等主流多模态模型,VideoWorld 在业界首次实现无需依赖语言模型,即可认知世界。

豆包开源视频生成模型 VideoWorld:首创免语言模型依赖认知世界

据介绍,现有模型大多依赖语言或标签数据学习知识,很少涉及纯视觉信号的学习。然而,语言并不能捕捉真实世界中的所有知识。例如折纸、打领结等复杂任务,难以通过语言清晰表达。而 VideoWorld 去掉语言模型,实现了统一执行理解和推理任务。

同时,它基于一种潜在动态模型,可高效压缩视频帧间的变化信息,显著提升知识学习效率和效果。在不依赖任何强化学习搜索或奖励函数机制前提下,VideoWorld 达到了专业 5 段 9x9 围棋水平,并能够在多种环境中,执行机器人任务。

AI在线附有关地址如下:

  • 论文链接:https://arxiv.org/abs/2501.09781

  • 代码链接:https://github.com/bytedance/VideoWorld

  • 项目主页:https://maverickren.github.io/VideoWorld.github.io

相关资讯

字节联合港大发布新视频模型Goku:可直接生成虚拟数字人视频

近日,香港大学与字节跳动合作研发的基于流动的视频生成模型 Goku 正式发布。 该模型利用先进的生成算法,可以根据文本提示生成高质量的视频内容,极大地丰富了数字艺术的表现形式。 为了展示 Goku 模型的强大功能,研究团队制作了一系列精彩的视频示例,这些示例不仅展示了模型的技术能力,也展现了其在创意表现上的无限潜力。

阿里通义万相宣布即将开源视频生成模型WanX 2.1

近日,阿里巴巴宣布视频生成模型WanX2.1将全面开源,同时公布了最新视频效果。 2025年1月,阿里巴巴旗下通义万相团队推出Wanx2.1多模态大模型,凭借其在视频生成领域的突破性进展,荣登VBench评测榜单首位,重新定义了AI驱动的视觉创作标准。 WanX 团队[昨晚宣布即将开源其最新的 WANX2.1视频生成模型。

叫板Sora?潞晨科技开源视频大模型Open-Sora 2.0,降本提速

听说过壕无人性的 OpenAI Sora 吧?动辄几百万美元的训练成本,简直就是视频生成界的“劳斯莱斯”。 现在,潞晨科技宣布开源视频生成模型 Open-Sora2.0!仅仅花费了区区20万美元(相当于224张 GPU 的投入),就成功训练出了一个拥有 110亿参数的商业级视频生成大模型。 性能直追“OpenAI Sora ”别看 Open-Sora2.0成本不高,实力可一点都不含糊。