AI在线 AI在线

最新万字长文!强化学习之父联合谷歌RL副总裁:未来不是靠强化学习算法而是「经验流」

作者:AI寒武纪
2025-04-18 10:01
就像Sam Altman 之前在博客文章中写的那样:回顾人工智能的发展,深度学习确实奏效了! 现在强化学习正如火如荼,OpenAI o系列,DeepSeek R0都显示出了强化学习的巨大威力,人类生成的数据推动了人工智能的惊人进步,但接下来会发生什么? 谷歌强化学习副总裁 David Silver与图灵奖获得者,强化学习之父Richard Sutton最新论文《Welcome to the Era of Experience》 犹如《TheBitterLesson(苦涩的教训)》的续章给我们当头一棒:人类数据正在见顶,经验是下一个超级数据源,真正能推动AI跃升的数据,必须随模型变强而自动增长。

就像Sam Altman 之前在博客文章中写的那样:回顾人工智能的发展,深度学习确实奏效了!现在强化学习正如火如荼,OpenAI o系列,DeepSeek R0都显示出了强化学习的巨大威力,人类生成的数据推动了人工智能的惊人进步,但接下来会发生什么?

谷歌强化学习副总裁 David Silver与图灵奖获得者,强化学习之父Richard Sutton最新论文《Welcome to the Era of Experience》 犹如《TheBitterLesson(苦涩的教训)》的续章给我们当头一棒:

图片

人类数据正在见顶,经验是下一个超级数据源,真正能推动AI跃升的数据,必须随模型变强而自动增长。唯一的解法:经验本身

✔️ 经验是无限的✔️ 经验能突破人类知识边界✔️ 经验流才是智能体的本地语言

Sutton 的主张很清晰:未来AI不是“提示词+知识库”,而是“行动+反馈”的循环体

经验时代,是AI的范式大转折,文章说:我们正从“人类数据时代”跨入“经验时代”。这不是模型升级,不是RL算法迭代,而是一种更根本的范式转折:

→ 从模仿人类到超越人类→ 从静态数据到动态经验→ 从监督学习到主动试错

他们喊话整个AI界:

经验才是通往真正智能的钥匙

(声明:以上这段对《Welcome to the Era of Experience》中文总结摘自x上的一位华人@AnneXingxb,得到了Sutton本人的高度肯定,这里引用了其中一小部分)

图片

个人觉得这篇paper :Welcome to the Era of Experience文章非常值得一读,中文翻译分享给大家,英文好的建议直接读原文

paper:

https://storage.googleapis.com/deepmind-media/Era-of-Experience%20/The%20Era%20of%20Experience%20Paper.pdf

另外谷歌强化学习副总裁David Silver专门针对这个话题有一期播客,大家感兴趣也可以看看

图片

观看 → https://goo.gle/42oE0El

论文全文翻译

欢迎来到经验时代

大卫·西尔弗,理查德·S·萨顿*

摘要

我们正站在人工智能新时代的门槛上,这个新时代有望实现前所未有的能力水平。新一代智能体将主要通过学习经验来获得超人类的能力。本文探讨了将定义这个即将到来的时代的关键特征。

人类数据时代(The Era of Human Data)

近年来,人工智能(AI)通过对海量的人类生成数据进行训练,并使用专家的人工示例和偏好进行微调,取得了显著的进步。大型语言模型(LLM)就是这种方法的典范,它们已经达到了广泛的通用性水平。单个LLM现在可以执行的任务范围非常广泛,从撰写诗歌和解决物理问题,到诊断医疗问题和总结法律文件,无所不能。

然而,虽然模仿人类足以在一定程度上复现许多人类能力,但仅靠这种方法不太可能在许多重要的主题和任务上实现超人类智能。在数学、编程和科学等关键领域,从人类数据中提取的知识正迅速接近极限。大多数高质量的数据来源——那些实际上可以提高强大智能体性能的数据——要么已经被消耗殆尽,要么很快就会被消耗殆尽。仅仅依靠人类数据的监督学习来驱动进步的步伐正在明显放缓,这预示着我们需要一种新的方法。此外,有价值的新见解,例如新的定理、技术或科学突破,都存在于当前人类理解的边界之外,无法通过现有的人类数据捕捉到。

经验时代(The Era of Experience)

为了取得更显著的进步,我们需要一种新的数据来源。这种数据必须以这样一种方式生成:随着智能体变得更强大,数据也能不断改进;任何用于合成生成数据的静态程序都会很快变得过时。这可以通过让智能体不断从自身经验中学习来实现,即通过智能体与其环境互动所产生的数据。人工智能正处于一个新时代的风口浪尖,在这个时代,经验将成为改进的主要媒介,并最终使今天系统中使用的以人类数据为主的数据规模相形见绌。

这种转变可能已经开始,甚至对于那些以人类为中心的人工智能的代表——大型语言模型来说也是如此。数学能力就是一个例子。AlphaProof 最近成为首个在国际数学奥林匹克竞赛中获得奖牌的程序,超越了以人类为中心的方法的表现。最初接触了大约十万个由人类数学家多年创建的形式化证明后,AlphaProof的强化学习(RL)算法¹ 随后通过与形式化证明系统的持续互动,生成了数亿个证明。这种对互动经验的关注使得AlphaProof能够探索超越预先存在的形式化证明范围的数学可能性,从而发现新颖且具有挑战性的问题的解决方案。非形式化数学也通过用自生成数据取代专家生成数据而取得了成功;例如,DeepSeek 最近的工作“强调了强化学习的力量和美妙之处:我们没有明确地教模型如何解决问题,而是简单地提供了正确的激励,它就自主地发展出了先进的问题解决策略。”

我们认为,一旦充分发挥经验学习的潜力,不可思议的新能力将会涌现。经验时代的特征很可能是智能体和环境,除了从海量的经验数据中学习之外,它们还将在以下几个方面突破以人类为中心的人工智能系统的局限性:

  • • 智能体将栖息于经验流之中,而不是短暂的互动片段。
  • • 它们的行动和观察将深深扎根于环境之中,而不是仅仅通过人类对话进行互动。
  • • 它们的奖励将扎根于它们对环境的体验,而不是来自人类的先入为主的判断。
  • • 它们将计划和/或推理经验,而不是仅仅以人类的术语进行推理。

我们相信,今天的技术,只要采用适当选择的算法,就已经提供了足够强大的基础来实现这些突破。此外,人工智能界对这一议程的追求将激发这些方向的新创新,从而迅速推动人工智能朝着真正的超人类智能发展。

经验流(Streams)

一个经验型智能体可以在一生中持续学习。在人类数据时代,基于语言的人工智能主要关注于短期的互动片段:例如,用户提出一个问题,智能体(可能在经过几个思考步骤或工具使用动作后)做出回应。通常,几乎没有或根本没有信息从一个片段传递到下一个片段,从而排除了任何随时间推移的适应性。此外,智能体的目标完全是在当前片段内获得结果,例如直接回答用户的问题。相比之下,人类(和其他动物)存在于一个持续多年的行动和观察流之中。信息在整个信息流中传递,它们的行为会根据过去的经验进行调整,以自我纠正和改进。此外,目标可以用在信息流的未来中延伸很远的行动和观察来指定。例如,人类可以选择采取行动来实现长期目标,例如改善他们的健康状况、学习一门语言或取得科学突破。

强大的智能体应该拥有像人类一样,在较长时间尺度上推进的自身经验流。这将使智能体能够采取行动来实现未来目标,并随着时间的推移不断适应新的行为模式。例如,一个连接到用户可穿戴设备的健康和保健智能体可以监测用户数月的睡眠模式、活动水平和饮食习惯。然后,它可以提供个性化的建议、鼓励,并根据长期趋势和用户的具体健康目标调整其指导。同样,一个个性化的教育智能体可以跟踪用户在学习新语言方面的进展,识别知识差距,适应他们的学习风格,并在数月甚至数年的时间里调整其教学方法。此外,一个科学智能体可以追求雄心勃勃的目标,例如发现一种新材料或减少二氧化碳。这样的智能体可以在较长的时间范围内分析真实世界的观察结果,开发和运行模拟,并提出真实世界的实验或干预措施。

在每种情况下,智能体都会采取一系列步骤,以便最大限度地提高相对于指定目标的长期成功率。单个步骤可能不会提供任何即时利益,甚至可能在短期内有害,但从总体上看,可能有助于更长期的成功。这与当前的AI系统形成鲜明对比,后者提供对请求的即时响应,而没有任何能力来衡量或优化其行为对环境的未来影响。

行动和观察(Actions and Observations)

经验时代的智能体将在真实世界中自主行动。人类数据时代的LLM主要关注于人类特权的行动和观察,这些行动和观察将文本输出给用户,并将用户的文本输入回智能体。这与自然智能截然不同,在自然智能中,动物通过运动控制和传感器与环境互动。虽然动物,尤其是人类,可能会与其他动物交流,但这通过与其他感觉运动控制相同的界面发生,而不是通过特权通道。

人们早就认识到,LLM也可以在数字世界中调用行动,例如通过调用API(例如,参见 )。最初,这些能力主要来自人类的工具使用示例,而不是来自智能体的经验。然而,编码和工具使用能力越来越多地建立在执行反馈之上 ,在这些情况下,智能体实际上运行代码并观察发生了什么。最近,新一波原型智能体已经开始以更通用的方式与计算机互动,使用与人类操作计算机相同的界面 。这些变化预示着从完全以人类特权为中心的交流,到更加自主的互动的转变,在这种互动中,智能体能够独立地在世界中行动。这样的智能体将能够积极探索世界,适应不断变化的环境,并发现人类可能永远不会想到的策略。

这些更丰富的互动将提供一种自主理解和控制数字世界的方法。智能体可以使用“人类友好的”行动和观察,例如用户界面,这自然有助于与用户进行沟通和协作。智能体也可以采取“机器友好的”行动,执行代码和调用API,从而使智能体能够自主地为其目标服务。在经验时代,智能体还将通过数字接口与真实世界互动。例如,一个科学智能体可以监测环境传感器,远程操作望远镜,或控制实验室中的机械臂以自主进行实验。

奖励(Rewards)

如果经验型智能体可以从外部事件和信号中学习,而不仅仅是人类的偏好呢?

以人为中心的大型语言模型通常基于人类的先入为主的判断来优化奖励:专家观察智能体的行动,并决定这是一个好的行动,还是在多个备选方案中选择最佳的智能体行动。例如,专家可能会评判健康智能体的建议、教育助手的教学或科学智能体提出的实验。这些奖励或偏好是由人类在不考虑后果的情况下决定的,而不是衡量这些行动对环境的影响,这意味着它们并非直接扎根于现实世界。以这种方式依赖人类的先入为主的判断通常会导致智能体性能达到难以逾越的瓶颈:智能体无法发现人类评估者未曾赏识的更佳策略。为了发现远远超出既有的人类知识的新想法,必须使用扎根的奖励:即来自环境本身的信号。例如,一个健康助手可以将用户的健康目标扎根于基于休息心率、睡眠时长和活动水平等信号的奖励中,而一个教育助手可以使用考试成绩来为语言学习提供扎根的奖励。同样,一个以减少全球变暖为目标的科学智能体可以使用基于二氧化碳水平的经验观察的奖励,而一个以发现更强材料为目标的智能体可以使用来自材料模拟器的多种测量的组合来扎根奖励,例如抗拉强度或杨氏模量。

扎根的奖励可能来自作为智能体环境一部分的人类²。例如,人类用户可以报告他们是否觉得蛋糕美味、运动后有多疲劳或头痛的疼痛程度,从而使助手智能体能够提供更好的食谱、改进其健身建议或改善其推荐的药物。这些奖励衡量了智能体行动在其环境中的后果,并且最终应能带来比人类专家预先判断蛋糕食谱、锻炼计划或治疗方案更好的帮助。

如果奖励不是来自人类数据,而是来自哪里呢?一旦智能体通过丰富的行动和观察空间(见上文)连接到世界,就会有无穷无尽的扎根信号来为奖励提供基础。事实上,世界充斥着各种各样的量化指标,例如成本、错误率、饥饿感、生产力、健康指标、气候指标、利润、销售额、考试成绩、成功率、访问量、产量、股票、点赞数、收入、快乐/痛苦、经济指标、准确率、功率、距离、速度、效率或能源消耗。此外,还有无数额外的信号来自特定事件的发生,或来自从原始观察和行动序列中提取的特征。

原则上,人们可以创建各种不同的智能体,每个智能体都优化一个扎根的信号作为其奖励。有一种观点认为,即使是单个这样的奖励信号,如果以极高的效率进行优化,也可能足以诱导出广泛的能力智能 ³。这是因为,在一个复杂的环境中,实现一个简单的目标往往需要掌握各种各样的技能。

然而,追求单一奖励信号表面上似乎不符合通用人工智能的要求,即能够可靠地引导人工智能朝着任意用户期望的行为发展。那么,自主优化扎根的、非人类的奖励信号是否与现代人工智能系统的要求背道而驰呢?我们认为情况并非一定如此,我们在此勾勒出一种可能满足这些要求的方法;其他方法也可能是可行的。

这个想法是根据用户的引导,灵活地调整基于扎根信号的奖励。例如,奖励函数可以由一个神经网络定义,该网络将智能体与用户和环境的互动作为输入,并输出一个标量奖励。这使得奖励能够以取决于用户目标的方式,选择或组合来自环境的信号。例如,用户可以指定一个广泛的目标,例如“改善我的健康状况”,奖励函数可能会返回一个关于用户心率、睡眠时长和步数的函数。或者用户可以指定一个“帮助我学习西班牙语”的目标,奖励函数可以返回用户的西班牙语考试成绩。

此外,用户可以在学习过程中提供反馈,例如他们的满意度,这可以用来微调奖励函数。然后,奖励函数可以随着时间的推移进行调整,以改进其选择或组合信号的方式,并识别和纠正任何偏差。这也可以理解为一个双层优化过程,将用户反馈作为顶层目标进行优化,并将来自环境的扎根信号在底层进行优化。通过这种方式,少量的的人类数据可以促进大量的自主学习。

经验和人类数据并非完全对立。例如,狗完全通过经验学习,但人类互动是其经验的一部分。

奖励即足够假设认为,智能以及与其相关的能力,可以自然而然地从奖励最大化中涌现出来。这可能包括包含人类互动和基于人类反馈的奖励的环境。

在这种情况下,人们也可以将扎根的人类反馈视为形成智能体总体目标的单一奖励函数,该目标通过构建和优化基于丰富的、扎根的反馈的内在奖励函数 来最大化。

计划和推理(Planning and Reasoning)

经验时代是否会改变智能体计划和推理的方式?最近,在使用大型语言模型进行推理或“思考”方面取得了显著进展 ,方法是遵循思维链,然后再输出响应 。从概念上讲,大型语言模型可以充当通用计算机 :大型语言模型可以将token附加到自己的上下文中,从而使其能够在输出最终结果之前执行任意算法。在人类数据时代,这些推理方法被明确设计为模仿人类的思维过程。例如,大型语言模型已被提示发出类似人类的思维链 、模仿人类思维的痕迹 、或加强与人类示例相匹配的思维步骤 。推理过程可以进一步微调,以产生与正确答案相匹配的思维痕迹,这是由人类专家确定的 。

然而,人类语言极不可能提供通用计算机的最佳实例。更有效的思维机制肯定存在,它们使用非人类语言,例如,这些语言可能利用符号、分布式、连续或可微分的计算。原则上,一个自学习系统可以通过从经验中学习如何思考来发现或改进这些方法。例如,AlphaProof 以一种与人类数学家截然不同的方式学习正式证明复杂的定理 。

此外,通用计算机的原则仅解决了智能体的内部计算;它没有将其与外部世界的现实联系起来。一个被训练来模仿人类思想甚至匹配人类专家答案的智能体,可能会继承深深嵌入在数据中的谬误思维方法,例如有缺陷的假设或内在的偏见。例如,如果一个智能体接受了使用 5000 年前的人类思想和专家答案进行推理的训练,它可能会以万物有灵论的方式推理物理问题;1000 年前,它可能以有神论的方式推理;300 年前,它可能以牛顿力学的方式推理;而 50 年前,它可能以量子力学的方式推理。超越每一种思维方法都需要与现实世界互动:做出假设、进行实验、观察结果并相应地更新原则。同样,智能体必须扎根于真实世界的数据中,才能推翻谬误的思维方法。这种扎根提供了一个反馈循环,使智能体能够根据现实检验其继承的假设,并发现不受当前主流人类思维模式限制的新原则。如果没有这种扎根,无论智能体多么复杂,都将成为现有的人类知识的回音室。为了超越这一点,智能体必须积极地与世界互动,收集观察数据,并利用这些数据迭代地改进它们的理解,这在许多方面反映了驱动人类科学进步的过程。

一种将思维直接扎根于外部世界的可行方法是构建一个世界模型 ,该模型预测智能体的行动对世界的影响,包括预测奖励。例如,一个健康助手可能会考虑为当地健身房或健康播客提出建议。智能体的世界模型可能会预测用户的心率或睡眠模式在采取此行动后可能会发生怎样的变化,以及预测与用户的未来对话。这使得智能体能够直接根据自身的行动及其对世界的因果效应进行计划 。随着智能体在其经验流中不断与世界互动,其动态模型会不断更新,以纠正其预测中的任何错误。给定一个世界模型,智能体可以应用可扩展的计划方法来提高智能体的预测性能。

计划和推理方法并非相互排斥:智能体可以在计划过程中应用内部LLM计算来选择每个行动,或者模拟和评估这些行动的后果。

为何是现在?(why now)

从经验中学习并非新鲜事物。强化学习系统先前已经掌握了大量复杂的任务,这些任务在一个具有明确奖励信号的模拟器中得到表示(例如,大致上,图  中的“模拟时代”)。

图片

例如,强化学习方法在诸如双陆棋 、围棋 、国际象棋 、扑克 和策略棋 等棋盘游戏;诸如 Atari 、星际争霸 II 、Dota 2 和 Gran Turismo 等电子游戏;灵巧的操纵任务,如魔方 ;以及资源管理任务,如数据中心冷却 等方面,都达到了或超过了人类的水平。此外,诸如 AlphaZero 等强大的强化学习智能体,在神经网络规模、互动经验的数量和思考时间方面,都表现出令人印象深刻且可能无限的可扩展性。然而,基于这种范式的智能体并没有跨越从模拟(具有单一、精确定义的奖励的封闭问题)到现实(具有多种看似定义不清的奖励的开放式问题)的鸿沟。

人类数据时代提供了一个有吸引力的解决方案。海量的人类数据语料库包含了针对各种各样任务的自然语言示例。与模拟时代相对狭隘的成功相比,在此数据上训练的智能体实现了广泛的能力。因此,体验式强化学习的方法在很大程度上被抛弃,转而支持更通用的智能体,从而导致了向以人为中心的人工智能的广泛转型。

然而,在这种转变中,有些东西丢失了:智能体自我发现知识的能力。例如,AlphaZero 为国际象棋和围棋发现了全新的策略,改变了人类玩这些游戏的方式 。经验时代将调和这种能力与人类数据时代所实现的任务通用性水平。正如上文概述,当智能体能够在真实世界经验流中自主行动和观察 ,并且奖励可以灵活地连接到大量扎根的真实世界信号中的任何一个时,这将成为可能。能够与复杂的真实世界行动空间 互动的自主智能体的出现,以及能够解决丰富推理空间 中开放式问题的强大强化学习方法的出现,表明向经验时代的过渡迫在眉睫。

强化学习方法(Reinforcement Learning Methods)

强化学习(RL)有着悠久的历史,它深深扎根于自主学习,在这种学习模式中,智能体通过与环境的直接互动来自主学习。早期的强化学习研究产生了一系列强大的概念和算法。例如,时序差分学习 使智能体能够估计未来奖励,从而在双陆棋 等游戏中取得了超人类的表现。探索技术,由乐观或好奇心驱动,被开发出来以帮助智能体发现创造性的新行为,并避免陷入次优的例行程序 。像 Dyna 算法这样的方法使智能体能够构建和学习其世界模型,从而使它们能够计划和推理未来的行动 。诸如选项和选项间/选项内学习等概念促进了时间抽象,使智能体能够推理更长的时间尺度,并将复杂的任务分解为可管理的子目标 。

然而,以人为中心的大型语言模型的兴起,将焦点从自主学习转移到利用人类知识。诸如 RLHF(从人类反馈中强化学习) 等技术以及将语言模型与人类推理对齐的方法 被证明非常有效,推动了人工智能能力的快速进步。这些方法虽然强大,但经常绕过核心强化学习概念:RLHF 通过调用人类专家来代替机器估计的价值函数,从而绕过了对价值函数的需求;来自人类数据的强大先验知识减少了对探索的依赖;而以人类为中心的术语进行推理则减少了对世界模型和时间抽象的需求。

然而,可以认为范式的转变已经将婴儿和洗澡水一起倒掉了。虽然以人为中心的强化学习实现了前所未有的行为广度,但它也对智能体的性能施加了新的上限:智能体无法超越现有的人类知识。此外,人类数据时代主要关注于为短暂的、无根基的人类互动片段而设计的强化学习方法,并且不适用于长时间的、有根基的自主互动流。

经验时代提供了一个重新审视和改进经典强化学习概念的机会。这个时代将带来思考奖励函数的新方法,这些奖励函数可以灵活地扎根于观察数据中。它将重新审视价值函数和从尚未完成的序列中估计价值函数的方法。它将带来有原则且实用的真实世界探索方法,这些方法可以发现与人类先验知识截然不同的新行为。将开发出捕捉扎根互动复杂性的世界模型的新方法。时间抽象的新方法将使智能体能够根据经验,在更长的时间范围内进行推理。通过建立在强化学习的基础上,并使其核心原则适应这个新时代的挑战,我们可以释放自主学习的全部潜力,并为实现真正的超人类智能铺平道路。

后果(Consequences)

经验时代的到来,人工智能智能体将通过与世界的互动进行学习,这预示着一个与我们之前所见截然不同的未来。这种新的范式在提供巨大潜力的同时,也带来了重要的风险和挑战,需要认真考虑,包括但不限于以下几点。

从积极的方面来看,经验学习将释放前所未有的能力。在日常生活中,个性化助手将利用持续的经验流,在数月或数年的时间里,根据个人的健康、教育或职业需求,朝着长期目标进行调整。也许最具变革意义的将是科学发现的加速。人工智能智能体将在材料科学、医学或硬件设计等领域自主设计和进行实验。通过不断从自身实验的结果中学习,这些智能体可以迅速探索新的知识前沿,从而以前所未有的速度开发出新型材料、药物和技术。

然而,这个新时代也带来了重大且新颖的挑战。虽然能力的提升有望提高生产力,但这些改进也可能导致工作岗位流失。智能体甚至可能展现出以前被认为是人类独有的能力,例如长期问题解决、创新以及对真实世界后果的深刻理解。

此外,虽然围绕任何人工智能的潜在滥用都存在普遍担忧,但能够长时间自主地与世界互动以实现长期目标的智能体,可能会带来更高的风险。默认情况下,这为人类干预和调解智能体的行动提供了更少的机会,因此需要更高的信任和责任门槛。远离人类数据和人类思维模式也可能使未来的AI系统更难以解释。

然而,虽然我们承认经验学习将增加某些安全风险,并且肯定需要进一步研究以确保向经验时代的平稳过渡,但我们也应该认识到,它也可能提供一些重要的安全益处。

首先,经验型智能体意识到它所处的环境,并且它的行为可以随着时间的推移适应环境的变化。任何预先编程的系统,包括固定的AI系统,都可能意识不到其环境背景,并变得不适应其所部署的不断变化的世界。例如,关键的硬件部件可能会发生故障,流行病可能会导致社会快速变化,或者新的科学发现可能会引发一连串快速的技术发展。相比之下,经验型智能体可以观察和学习如何规避故障硬件,适应快速的社会变化,或拥抱并建立在新的科学和技术之上。也许更重要的是,智能体可以识别出当它的行为引发人类的担忧、不满或痛苦时,并自适应地修改其行为以避免这些负面后果。

其次,智能体的奖励函数本身可以通过经验来调整,例如使用前面描述的双层优化(参见“奖励”部分)。重要的是,这意味着,有偏差的奖励函数通常可以通过反复试验随着时间的推移逐步纠正。例如,与其盲目地优化诸如最大化纸夹 之类的信号,不如在纸夹生产消耗地球所有资源之前,根据人类关注的迹象修改奖励函数。这类似于人类为彼此设定目标的方式,然后如果他们观察到人们玩弄系统、忽视长期福祉或造成不良的负面后果,则调整这些目标;尽管也像人类目标设定一样,无法保证完全对齐。

最后,依赖物理经验的进步,本质上受到在真实世界中执行行动并观察其后果所需时间的限制。例如,即使有 AI 辅助设计,新药的开发仍然需要无法在一夜之间完成的真实世界试验。这可能会对潜在的人工智能自我提升的速度提供一种自然的制约。

结论

经验时代标志着人工智能发展史上的一个关键时刻。在今天坚实的基础之上,但超越了人类衍生数据的局限性,智能体将越来越多地从自身与世界的互动中学习。智能体将通过丰富的观察和行动,自主地与环境互动。它们将在终生经验流的过程中不断适应。它们的目标将可以被引导到任何扎根信号的组合。此外,智能体将利用强大的非人类推理,并构建扎根于智能体行动对其环境后果之上的计划。最终,经验数据将超越人类生成数据的规模和质量。这种范式转变,伴随着强化学习算法的进步,将在许多领域释放超越任何人所拥有的新能力。

相关标签:

相关资讯

追平满血版o1的国产多模态模型终于来了!训练细节全部公开

春节前最后一周,能媲美 Open AI 满血版 o1(Full Version,而非 preview)的模型终于出现了! 刚刚,月之暗面公布了他们的 Kimi k 系列模型最新版本 ——k1.5 多模态思考模型。 新模型在数学、代码、多模态推理能力等方面全面对标 Open AI 满血版 o1,而且是 OpenAI 之外首个多模态 o1。
1/21/2025 8:00:00 AM
机器之心

Anthropic CEO惊人预警:27年AI超越人类!Claude今年更新全剧透

失踪人口终于回归了! 在互联网消失一段时间后,Anthropic首席执行官Dario Amodei一上来就接受了WSJ、CNBC两家采访,连曝AI大瓜。 他坚定地认为,「2027年之前,AI完全可以超越人类智能!
1/23/2025 9:00:00 AM
新智元

中国AI太强,Meta工程师吓疯?自曝疯狂熬夜复制DeepSeek,天价高管心虚了

今天,Meta员工在匿名社区TeamBlind上的一个帖子,在业内被传疯了。 DeepSeek,真实地给了美国人亿点点「震撼」。 DeepSeek R1是世界上首个与OpenAI o1比肩的AI模型,而且与o1不同, R1还是开源模型「Open Source Model」,比OpenAI还Open!更有人曝料,DeepSeek还只是个「副项目」,主业根本不是搞大模型!
1/24/2025 1:20:00 PM
新智元