视觉信息

豆包:视频生成模型 “VideoWorld” 已开源 实现纯视觉学习

据豆包大模型团队官方公众号消息,在北京交通大学和中国科学技术大学的联合研究下,由豆包大模型团队提出的 “VideoWorld” 视频生成实验模型近日正式开源。 这个模型的最大亮点在于,它不再依赖传统的语言模型,而是仅凭视觉信息就能认知和理解世界。 这一突破性的研究灵感来源于李飞飞教授在 TED 演讲中提到的 “幼儿可以不依靠语言理解真实世界” 的理念。
  • 1