Yann LeCun:生成模型不适合处理视频,AI得在笼统空间中进行展望

AI 了解视频不能依靠在像素空间中展望。在互联网文本数据即将枯竭之际,很多 AI 研究者将目光转向了视频。但如何让 AI 了解视频数据成了新的难题。在 2024 天下经济论坛的一次会谈中,图灵奖得主、Meta 首席 AI 科学家 Yann LeCun 被问到了这个问题。他认为,虽然这个问题还没有明确的答案,但适合用来处理视频的模型并不是我们现在大范围应用的生成模型。而且新的模型应该学会在笼统的表征空间中展望,而不是在像素空间中。一起参与讨论的还有斯坦福大学教授、Coursera 联合创始人 Daphne Kolle

AI 了解视频不能依靠在像素空间中展望。

在互联网文本数据即将枯竭之际,很多 AI 研究者将目光转向了视频。但如何让 AI 了解视频数据成了新的难题。

在 2024 天下经济论坛的一次会谈中,图灵奖得主、Meta 首席 AI 科学家 Yann LeCun 被问到了这个问题。他认为,虽然这个问题还没有明确的答案,但适合用来处理视频的模型并不是我们现在大范围应用的生成模型。而且新的模型应该学会在笼统的表征空间中展望,而不是在像素空间中。

一起参与讨论的还有斯坦福大学教授、Coursera 联合创始人 Daphne Koller。她的研究领域主要是人工智能及其在生物医学科学中的应用。她指出了了解因果关系对于构建未来AI体系的重要性。Yann LeCun:生成模型不适合处理视频,AI得在笼统空间中进行展望

以下是视频的文字版本:   

主持人:我在天下经济论坛中参与过一些讨论。他们说,我们的数据快用完了,真的吗?网络上没有那么多了?

Daphne Koller:是真的。

主持人:但是自动驾驶汽车能够提供更多数据。Yann,你觉得呢?

Yann LeCun:我完全同意 Daphne 的观点。当然,如果我们致力于 LLM,或者说是自回归 LLM,我们可以看到它们的发展正趋向极致。毫无疑问,数据资源正变得越来越少,我们基本上已经使用了互联网上所有的公共数据。小型 LLM 使用十万亿 token 进行训练。以每个词大约 2 字节计算,我们用于训练的数据总量大约是 2*10¹³ 字节,用普通人的阅读速度来说,读完这些数据须要 15 万到 20 万年。

想象一下,一个儿童通过眼睛看到了多少东西。比如一个四岁的儿童,我们来试着量化一下 Ta 生活中所看到的信息量:每秒视神经传输大约 20 兆字节的数据,在儿童的头四年的生活中,醒着的时间有 16000 小时,每小时 3600 秒,计算可以得出有一千兆字节的信息量。由此可以看出,一个四岁的儿童所看到的信息总量,是最大的大模型所消化的数据量的 50 倍。

四岁的儿童比我们拥有的最大的 LLM 要聪明得多。Ta 积累的知识量看似更少,但这是因为形式不同。实际上,对于这个儿童来说,Ta 对天下如何运作有着很丰富的认知,而我们今天还不能用 LLM 做到这一点。我们还须要发明一些新的科学方法和技术,来让未来的 AI 体系像儿童一样,能够利用这些看到的信息。这将须要一些科学和技术上的突破,能够会在一年、三年、五年、十年后发生,很难说出准确的时间,因为这是个挑战。

主持人:确认一下我是否了解了你的意思。可获得的文本数据量会增长,但并不是无限的。而我们能输入到这些呆板中的视觉数据量却是巨大的,远远超过文本数据。

Yann LeCun:我刚才提到的 16000 小时的视觉内容,相当于 YouTube 上 30 分钟的上传量。这意味着,我们拥有的数据远远超过我们能处理的量。问题在于,我们如何让呆板从视频中学习呢?我们并不知道。

主持人:那么如果下一步是要处理视频输入,须要什么样的新架构呢?显然大型语言模型并不是好的选择,它的构建方式并不适合处理视频,那我们现在须要构建什么?

Yann LeCun:大型语言模型或者一般的 NLP 体系,通常是用这类方法训练的。拿一段文本,然后故意删掉一些地方,接着用一个巨大的神经网络来重建文本,也就是展望那些被删掉的词,也就是通过删掉一些词来「破坏」文本。像 ChatGPT 和 Lama 这样的模型都是这样训练的。你只需删掉最后一个词就能训练它们。从技术上讲实际上更复杂,不过大体就是这么个意思,训练这个体系来重建输入中缺失的信息。

一个显而易见的想法就出现了,为什么我们不用图片来试试呢?拿一张图片,通过移除一小部分来损坏图像,然后训练大型神经网络来恢复它。但这并不奏效,或者说效果并不好。这方面已经有很多实验,但都不太成功。对于视频也是一样。

我已经研究视频展望九年了。我一直在实验展望,就是向体系展示一段视频,然后训练它展望接下来会发生什么。如果体系能做到这点,它能够就能了解天下的一些基本规律,就像文本体系试图展望下一个词一样。它得能了解句子的含义,但这也做不到。

主持人:你的意思是,你拍了一段视频,你让视频里的人拿着笔把手举高,然后放开,我就能展望笔会掉下来。但现在呆板并不能做到这一点?

Yann LeCun:主要的问题在于,你的笔有一些特殊的摆放方式。当你把它丢下去的时候,它会沿着特定的轨迹下落。我们大多数人无法准确展望轨迹是什么,但可以展望物体会掉下来。婴儿大概要花九个月的时间,才能了解没有支撑的物体会掉下来。这类直觉上的物理知识,婴儿九个月就能学会,那我们怎样让呆板也做到这一点呢?

主持人:等一下,我想问个能够有点傻的问题。如果想要这些技术有效果,并持续革新,那就须要它们能够了解视频,毕竟数据都在视频里。但我们自己都不完全了解视频,这个矛盾该如何解决呢?

Yann LeCun:其实目前还没有真正的解决办法。但目前最有希望的,至少是能用于图像识别的东西,说出来能够会让大家惊讶,并不是生成式的

所以最有效的模型不是生成图像的,不是重建,也不是直接展望。它做的是在一个笼统的表征空间中进行展望,就像我无法准确展望你手中的笔会如何掉落一样。但我可以展望它将会掉落。在某种笼统的层面上,一支笔具体在哪里以及它的确切摆放方式和其他具体细节,我都可以做出展望。

所以,我们须要在笼统表征空间中展望,而不是具体的像素空间。这就是为什么像素空间的展望都失败了,因为它太复杂了。

Daphne Koller:但是这不仅仅是关于视频的问题。我认为婴儿学到的另一件事是因果的概念。他们通过对天下的干预,并观察发生的事情来学习的。而我们的 LLM 还没有做到这一点。它们完全是展望性引擎,只是在建立关联,没有真正了解因果关系。而了解因果关系,对于人类与物质天下的交互极为重要,尤其是在我们实验将数字信息与实体天下联系起来的时候。这是当前模型中缺失的一项很重要的能力。这类能力在实际应用的模型中缺失,在计算机进行常识推理的能力中也是缺失的。当我们实验将其应用于其他领域,无论是制造业、生物学还是任何与物理天下互动的领域时,这类能力也都是缺失的。

Yann LeCun:在具身体系中,它实际上是有效的。有些体系是建立在对天下的模型上的。比如,这里有一个表示在时间点 t 的天下状态的模型,这里是我能够会采取的行动。想一想,在时间点 t+1 天下的状态会是什么?这就是所谓的天下模型。如果你有了这类天下模型,你就可以规划一系列行动来达到一个特定目标。

目前,我们还没有任何基于这一原理的 AI 体系,除了非常简单的呆板人体系。它们的学习速度并不快。因此,一旦我们能够扩展这类模型的规模,我们就能拥有能了解天下、了解物理天下的体系。它们可以规划,可以推理,可以了解因果关系。因为它们知道一个行动能够产生什么效果。它将以目标为导向。我们可以利用这类规划给它们设定目标,这就是人工智能体系的未来架构。在我看来,一旦我们搞清楚怎么实现这一切,就不会有人还愿意用目前的方式。

原视频地址:https://www.weforum.org/events/world-economic-forum-annual-meeting-2024/sessions/the-expanding-universe-of-generative-models/

给TA打赏
共{{data.count}}人
人已打赏
理论

被OpenAI、Mistral AI带火的MoE是怎么回事?一文贯通大师混合架构部署

2024-1-22 11:10:00

理论

药物-靶标亲和力预计,上科大团队开发了一种Transformer编码器和指纹图谱相连系的要领

2024-1-24 18:53:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索