Meta AI的COCONUT:无需语言即可思考的 AI 方法

译者 | 涂承烨审校 | 重楼当研究人员首次发现大型语言模型(LLMS)可以通过思维链提示一步一步地“思考”时,这是一个突破性的时刻! 我们终于可以窥视这些黑盒子的推理过程了。 但如果我告诉你,让人工智能模型用自然语言思考可能会阻碍它们的发展呢?

译者 | 涂承烨

审校 | 重楼

当研究人员首次发现大型语言模型(LLMS)可以通过思维链提示一步一步地“思考”时,这是一个突破性的时刻!我们终于可以窥视这些黑盒子的推理过程了。但如果我告诉你,让人工智能模型用自然语言思考可能会阻碍它们的发展呢?

Meta AI的COCONUT:无需语言即可思考的 AI 方法

Meta和加州大学圣地亚哥分校的研究人员通过他们的新COCONUT(连续思维链)方法发现了这一点。

想象一下,试图解决一个复杂的数学问题,同时被迫大声讲述每一步。很烦人,对吧?现在,让我们先了解语言模型面临的核心挑战。

当我们让人工智能模型通过自然语言推理时:

  • 它们生成的大多数标记只是语言粘合剂,像“因此”、“下一步”和“结果”这样的单词,它们没有增加任何推理价值
  • 关键决策点因需要承诺特定单词而受到瓶颈
  • 该模型在保持语法连贯性上花费了大量的计算精力,而不是实际解决问题

研究人员在他们的神经科学研究中发现了一些有趣的事情:当人类处理复杂的推理任务时,我们大脑的语言中心通常会保持令人惊讶的安静。然而,我们一直在构建相反的人工智能系统,迫使它们将每一个推理步骤转化为文字。

想想你是如何解决一个谜题。你的大脑可能同时探索多种可能性,保持模糊的假设,只有在分享解决方案时才将其思想总结为语言。但传统的思维链方法迫使人工智能模型对每一个中间步骤进行表达,从而造成了“语言瓶颈”。

这种见解引出了一个问题:如果我们能让人工智能模型用它们的原生“语言”进行推理,即它们隐藏状态下的连续、高维空间,而不是强迫它们把所有内容都翻译成符号,会怎么样?

了解COCONUT的创新

想象一下大声说出你的想法和你大脑中发生的实际心理过程之间的区别。这种差距(即言语化思维和神经活动之间的差距)正是Meta的研究人员利用COCONUT所挖掘的。

COCONUT的真正突破在于它如何让人工智能模型以两种不同的方式思考,就像人类一样。想想当你解决一个复杂的谜题时,你不会在脑海中讲述每一个可能的动作,对吧?相反,你会这么做:

  • 吸收问题:你吸收信息(比如阅读谜题规则)
  • 静静地思考:你的大脑在不把它们变成文字的情况下探索多种可能性
  • 分享解决方案:只有这样,你才能向他人解释你的想法

COCONUT为AI模型提供了同样的自然灵活性。它没有像传统方法那样强迫他们大声“说出”每一个想法,而是让他们在自然的神经空间中思考,研究人员称之为“潜在空间”。

该模型在两种模式之间平滑切换:

  • 当它需要理解问题或给出答案时,它会使用常规语言
  • 但对于需实际思考的过程时,它使用纯神经模式,不受词语的限制

训练过程

COCONUT最迷人的方面之一是它的训练课程。它的特别之处在于它反映了自然的学习过程。想想我们是如何教授复杂技能的,就像你不会马上把一个人扔进深渊,而是在他们通过了每一个关卡后,逐渐增加复杂性。

研究人员对COCONUT采用了同样的方法:

阶段1:基础

首先,该模型像其他人工智能一样学习,即通过传统的思维链推理。这给了它一个坚实的基础理解。

阶段2:过渡阶段

这就是有趣的地方。渐渐地,那些写下来的推理步骤被连续的思考所取代,慢慢地移除辅助轮,让模型发展自己的内部思维模式。

阶段3:平衡

最后,该模型学会了在“潜在空间”的深度思考和用清晰的语言传达其见解之间无缝切换。

在训练过程中,该模型开发出了人们没有明确的编程逻辑的能力,比如同时考虑多个推理路径。这种新兴行为尤其令人兴奋,因为它表明我们可能更接近更自然的人工智能推理形式。正是这些意想不到的发展往往导致最大的突破。

还记得之前提到的那些神经科学研究吗?他们发现,人类大脑经常在没有高度参与的语言中心的情况下处理复杂的推理任务。COCONUT似乎正在发展类似的模式,即在其原生神经空间中进行深入思考,只有在需要交流时才转换为语言。

用数字讲述现象

研究中还有一些重要发现:

  • 数学单词问题(GSM8k):在这里,COCONUT达到了34.1%的准确率。虽然这低于传统的思维链(42.9%),但明显优于基准方法。
  • 逻辑推理(ProntoQA):COCONUT达到99.8%的准确率,超过了传统思维链的98.8%。但令人惊讶的是,它只使用了9个标记,而CoT使用了92.5个标记。
  • 复杂计划(ProsQA):最令人印象深刻的结果来自这个高级推理测试。COCONUT的准确率达到97%,而传统方法的准确率仅为77.5%。同样,它以惊人的效率做到了这一点,即14.2个标记对49.4个标记。

让这些结果充满希望的不仅仅是原始数据,而是它们揭示了不同类型的思维。虽然COCONUT在数学推理方面可能仍处于起步阶段,但它在需要复杂逻辑规划和推理的任务上表现出色。

COCONUT代表了对人工智能系统如何进行推理的根本性反思,它使我们更接近更自然、更高效、更强大的人工智能形式。从基于语言的推理到持续思考的旅程,是朝着更有能力、更高效的人工智能系统迈出的一步。

译者介绍

涂承烨,51CTO社区编辑,省政府采购专家、省综合性评标专家、公 E 采招标采购专家,获得信息系统项目管理师、信息系统监理师、PMP,CSPM-2等认证,拥有15年以上的开发、项目管理、咨询设计等经验。对项目管理、前后端开发、微服务、架构设计、物联网、大数据、咨询设计等较为关注。

原文标题:Meta’s COCONUT: The AI Method That Thinks Without Language,作者:Alex McFarland

相关资讯

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]。随着人工智能的发展,语言模型和生成模型获得了大量的成功并且在设计模型的过程中,模型的参数量也越来越大。对于细粒度理解任务,模型参数量也同样在增加。然而目前现有的数据集存在规模和精度的矛盾

田渊栋团队论文火了!连续思维链优于CoT,打开LLM推理新范式

一个非常简单的更改,就能提高 LLM 推理能力。 在认知科学领域,关于语言是用于思考还是用于交流的辩论一直持续。 随着 LLM 和 CoT 的兴起,语言已经成为机器推理的默认媒介 —— 但它真的是最佳方法吗?

为了创造商业价值,需要充分利用企业的数据和人工智能

尽管人们生活在一个日益数据驱动的世界,但大多数公司并没有采用数据驱动的商业模式。 推动Alphabet、Meta和亚马逊等企业成功的网络效应良性循环,并不适用于销售传统产品和服务的组织。 然而,从日常业务流程生成的专有数据中获取更多信息的工具正在变得广泛可用,并且可以帮助企业开发竞争优势。