豆包开源视频生成模型 VideoWorld：首创免语言模型依赖认知世界

2025-02-10 02:42

不同于 Sora 、DALL-E 、Midjourney 等主流多模态模型，VideoWorld 在业界首次实现无需依赖语言模型，即可认知世界。

豆包大模型团队联合北京交通大学、中国科学技术大学共同开发的视频生成实验模型“VideoWorld”今日开源。不同于 Sora 、DALL-E 、Midjourney 等主流多模态模型，VideoWorld 在业界首次实现无需依赖语言模型，即可认知世界。

据介绍，现有模型大多依赖语言或标签数据学习知识，很少涉及纯视觉信号的学习。然而，语言并不能捕捉真实世界中的所有知识。例如折纸、打领结等复杂任务，难以通过语言清晰表达。而 VideoWorld 去掉语言模型，实现了统一执行理解和推理任务。

同时，它基于一种潜在动态模型，可高效压缩视频帧间的变化信息，显著提升知识学习效率和效果。在不依赖任何强化学习搜索或奖励函数机制前提下，VideoWorld 达到了专业 5 段 9x9 围棋水平，并能够在多种环境中，执行机器人任务。

AI在线附有关地址如下：

论文链接：https://arxiv.org/abs/2501.09781
代码链接：https://github.com/bytedance/VideoWorld
项目主页：https://maverickren.github.io/VideoWorld.github.io

字节联合港大发布新视频模型Goku：可直接生成虚拟数字人视频

近日，香港大学与字节跳动合作研发的基于流动的视频生成模型 Goku 正式发布。该模型利用先进的生成算法，可以根据文本提示生成高质量的视频内容，极大地丰富了数字艺术的表现形式。为了展示 Goku 模型的强大功能，研究团队制作了一系列精彩的视频示例，这些示例不仅展示了模型的技术能力，也展现了其在创意表现上的无限潜力。

2/10/2025 5:49:00 PM

AI在线

阿里通义万相宣布即将开源视频生成模型WanX 2.1

近日，阿里巴巴宣布视频生成模型WanX2.1将全面开源，同时公布了最新视频效果。 2025年1月，阿里巴巴旗下通义万相团队推出Wanx2.1多模态大模型，凭借其在视频生成领域的突破性进展，荣登VBench评测榜单首位，重新定义了AI驱动的视觉创作标准。 WanX 团队[昨晚宣布即将开源其最新的 WANX2.1视频生成模型。

2/21/2025 9:39:00 AM

AI在线

叫板Sora？潞晨科技开源视频大模型Open-Sora 2.0，降本提速

听说过壕无人性的 OpenAI Sora 吧?动辄几百万美元的训练成本，简直就是视频生成界的“劳斯莱斯”。现在，潞晨科技宣布开源视频生成模型 Open-Sora2.0!仅仅花费了区区20万美元（相当于224张 GPU 的投入），就成功训练出了一个拥有 110亿参数的商业级视频生成大模型。性能直追“OpenAI Sora ”别看 Open-Sora2.0成本不高，实力可一点都不含糊。

3/13/2025 2:11:00 PM

AI在线

资讯热榜

Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求 Ollama 支持全线的 Qwen 3 模型即梦3.0海外版发布，电影级视觉与精准英文排版引领AI创作新高度纳米AI发布MCP万能工具箱，简化AI工具集成与调用 Qwen3正式发布，优化编码与代理能力，强化MCP支持引领AI新潮流 AI视频资讯早读！7个产品更新+8个案例精选 DeepWiki：AI驱动的GitHub代码库百科全书正式亮相 OpenAI发布gpt-image-1 API，4o图像生成能力正式开放

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据模型机器人谷歌大模型 Midjourney 智能开源用户学习 GPT 微软 Meta 图像 AI创作技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质芯片代码生成式英伟达腾讯神经网络研究计算 Anthropic 3D Sora AI for Science AI设计机器学习开发者 GPU AI视频华为场景预测人形机器人百度苹果伟达 Transformer 深度学习 xAI 模态字节跳动 Claude 大语言模型搜索具身智能驾驶神器推荐文本 Copilot LLaMA 算力安全视觉视频生成干货合集训练应用大型语言模型科技亚马逊智能体 DeepMind 特斯拉

顶部

豆包开源视频生成模型 VideoWorld：首创免语言模型依赖认知世界

相关资讯

字节联合港大发布新视频模型Goku：可直接生成虚拟数字人视频

阿里通义万相宣布即将开源视频生成模型WanX 2.1

叫板Sora？潞晨科技开源视频大模型Open-Sora 2.0，降本提速