豆包：视频生成模型 “VideoWorld” 已开源实现纯视觉学习

2025-02-10 02:22

据豆包大模型团队官方公众号消息，在北京交通大学和中国科学技术大学的联合研究下，由豆包大模型团队提出的 “VideoWorld” 视频生成实验模型近日正式开源。这个模型的最大亮点在于，它不再依赖传统的语言模型，而是仅凭视觉信息就能认知和理解世界。这一突破性的研究灵感来源于李飞飞教授在 TED 演讲中提到的 “幼儿可以不依靠语言理解真实世界” 的理念。

据豆包大模型团队官方公众号消息，在北京交通大学和中国科学技术大学的联合研究下，由豆包大模型团队提出的 “VideoWorld” 视频生成实验模型近日正式开源。

这个模型的最大亮点在于，它不再依赖传统的语言模型，而是仅凭视觉信息就能认知和理解世界。这一突破性的研究灵感来源于李飞飞教授在 TED 演讲中提到的 “幼儿可以不依靠语言理解真实世界” 的理念。

“VideoWorld” 通过分析和处理大量视频数据，实现了复杂的推理、规划和决策能力。研究团队的实验显示，模型在仅有300M 参数的情况下，便取得了显著的效果。与现有依赖语言或标签数据的模型不同，VideoWorld 能够独立进行知识学习，尤其在折纸、打领结等复杂任务中，能够提供更加直观的学习方式。

为了验证该模型的有效性，研究团队搭建了围棋对战和机器人模拟操控两种实验环境。围棋作为一项高度策略性游戏，可以有效评估模型的规则学习和推理能力，而机器人任务则考察模型在控制和规划方面的表现。在训练阶段，模型通过观看大量视频演示数据，逐步建立起对未来画面的预测能力。

为了提高视频学习的效率，团队引入了一种潜在动态模型（LDM），旨在压缩视频帧之间的视觉变化，从而提取出关键信息。这一方法不仅减少了冗余信息，还增强了模型对复杂知识的学习效率。通过这一创新，VideoWorld 在围棋和机器人任务中展示了出色的能力，甚至达到了专业五段围棋的水平。

论文链接:https://arxiv.org/abs/2501.09781

代码链接:https://github.com/bytedance/VideoWorld

项目主页:https://maverickren.github.io/VideoWorld.github.io

划重点:
🌟 “VideoWorld” 模型仅凭视觉信息即可实现知识学习，不依赖语言模型。
🤖 模型在围棋和机器人模拟任务中展现出卓越的推理和规划能力。
🔓 该项目代码与模型已开源，欢迎各界人士参与体验与交流。

百万 tokens 降至 0.8 元后，消息称字节跳动豆包大模型毛利率达 50%

据界面新闻今日援引多个知情人士消息称，字节跳动旗下的豆包大模型在去年大幅降价后，毛利率仍然为正。

1/22/2025 6:13:02 PM

清源

百万tokens仅需8毛，不蒸馏造出世界一流大模型，豆包全新1.5Pro不走捷径

马上就要进入蛇年了，国内的 AI 厂商们却完全没有闲下来的意思，正在春节前扎堆发布各自的新一代大模型。本周一，豆包刚刚上线了全新的实时语音功能，可说是在中文语音对话方面做到了断崖式领先，为终端用户带来了智商与情商双高的实时语音助手和聊天伙伴。第二天，月之暗面与 DeepSeek 都各自推出了可比肩满血版 o1 的推理模型，吸引了中外无数眼球。

1/23/2025 12:01:00 PM

机器之心