RingAttention - AI在线

100万token，一次能分析1小时YouTube视频，「大世界模型」火了

这项研究为语言模型更好地理解物理世界铺平了道路。最近几天，我们接连被谷歌的多模态模型 Gemini 1.5 以及 OpenAI 的视频生成模型 Sora 所震撼到，前者可以处理的上下文窗口达百万级别，而后者生成的视频能够理解运动中的物理世界，被很多人称为「世界模型」。然而，这些刷屏无数的模型真的能很好的理解世界吗？我们就拿 Sora 来说，该模型在给大家带来惊叹的同时，却不能很好的模拟复杂场景的物理原理，如一位健身的男子倒着跑跑步机。不仅 Sora，现如今大模型虽然发展迅速，然而其自身也存在缺点，比如在现实世界中不