豆包:视频生成模型 “VideoWorld” 已开源 实现纯视觉学习

据豆包大模型团队官方公众号消息,在北京交通大学和中国科学技术大学的联合研究下,由豆包大模型团队提出的 “VideoWorld” 视频生成实验模型近日正式开源。 这个模型的最大亮点在于,它不再依赖传统的语言模型,而是仅凭视觉信息就能认知和理解世界。 这一突破性的研究灵感来源于李飞飞教授在 TED 演讲中提到的 “幼儿可以不依靠语言理解真实世界” 的理念。

据豆包大模型团队官方公众号消息,在北京交通大学和中国科学技术大学的联合研究下,由豆包大模型团队提出的 “VideoWorld” 视频生成实验模型近日正式开源。

fe388a9d-3646-4938-852b-eb54f76ca4b8.png

这个模型的最大亮点在于,它不再依赖传统的语言模型,而是仅凭视觉信息就能认知和理解世界。这一突破性的研究灵感来源于李飞飞教授在 TED 演讲中提到的 “幼儿可以不依靠语言理解真实世界” 的理念。

“VideoWorld” 通过分析和处理大量视频数据,实现了复杂的推理、规划和决策能力。研究团队的实验显示,模型在仅有300M 参数的情况下,便取得了显著的效果。与现有依赖语言或标签数据的模型不同,VideoWorld 能够独立进行知识学习,尤其在折纸、打领结等复杂任务中,能够提供更加直观的学习方式。

为了验证该模型的有效性,研究团队搭建了围棋对战和机器人模拟操控两种实验环境。围棋作为一项高度策略性游戏,可以有效评估模型的规则学习和推理能力,而机器人任务则考察模型在控制和规划方面的表现。在训练阶段,模型通过观看大量视频演示数据,逐步建立起对未来画面的预测能力。

为了提高视频学习的效率,团队引入了一种潜在动态模型(LDM),旨在压缩视频帧之间的视觉变化,从而提取出关键信息。这一方法不仅减少了冗余信息,还增强了模型对复杂知识的学习效率。通过这一创新,VideoWorld 在围棋和机器人任务中展示了出色的能力,甚至达到了专业五段围棋的水平。

论文链接:https://arxiv.org/abs/2501.09781

代码链接:https://github.com/bytedance/VideoWorld

项目主页:https://maverickren.github.io/VideoWorld.github.io

划重点:

🌟 “VideoWorld” 模型仅凭视觉信息即可实现知识学习,不依赖语言模型。  

🤖 模型在围棋和机器人模拟任务中展现出卓越的推理和规划能力。  

🔓 该项目代码与模型已开源,欢迎各界人士参与体验与交流。

相关资讯

百万 tokens 降至 0.8 元后,消息称字节跳动豆包大模型毛利率达 50%

据界面新闻今日援引多个知情人士消息称,字节跳动旗下的豆包大模型在去年大幅降价后,毛利率仍然为正。

百万tokens仅需8毛,不蒸馏造出世界一流大模型,豆包全新1.5Pro不走捷径

马上就要进入蛇年了,国内的 AI 厂商们却完全没有闲下来的意思,正在春节前扎堆发布各自的新一代大模型。 本周一,豆包刚刚上线了全新的实时语音功能,可说是在中文语音对话方面做到了断崖式领先,为终端用户带来了智商与情商双高的实时语音助手和聊天伙伴。 第二天,月之暗面与 DeepSeek 都各自推出了可比肩满血版 o1 的推理模型,吸引了中外无数眼球。

Video Depth Anything来了!字节开源首款10分钟级长视频深度估计模型,性能SOTA

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。