有了GPT-4之后,机器人把转笔、盘核桃都学会了

GPT-4 和加强进修强强联合,机器人的未来将是什么样子?在进修方面,GPT-4 是一个厉害的学生。在消化了大量人类数据后,它掌握了各门知识,甚至在聊天中能给数学家陶哲轩带来启发。与此同时,它也成为了一名优秀的老师,而且不光是教书本知识,还能教机器人转笔。这个机器人名叫 Eureka,是来自英伟达、宾夕法尼亚大学、加州理工学院和得克萨斯大学奥斯汀分校的一项研究。这项研究结合了大型语言模型和加强进修的研究成果:用 GPT-4 来完善处分函数,用加强进修来训练机器人控制器。借助 GPT-4 写代码的能力,Eureka

GPT-4 和加强进修强强联合,机器人的未来将是什么样子?

在进修方面,GPT-4 是一个厉害的学生。在消化了大量人类数据后,它掌握了各门知识,甚至在聊天中能给数学家陶哲轩带来启发。

与此同时,它也成为了一名优秀的老师,而且不光是教书本知识,还能教机器人转笔。

有了GPT-4之后,机器人把转笔、盘核桃都学会了

这个机器人名叫 Eureka,是来自英伟达、宾夕法尼亚大学、加州理工学院和得克萨斯大学奥斯汀分校的一项研究。这项研究结合了大型语言模型和加强进修的研究成果:用 GPT-4 来完善处分函数,用加强进修来训练机器人控制器。

借助 GPT-4 写代码的能力,Eureka 拥有了出色的处分函数设想能力,它自主生成的处分在 83% 的工作中优于人类专家的处分。这种能力可以让机器人完成很多之前不容易完成的工作,比如转笔、打开抽屉和柜子、抛球接球和盘球、操作剪刀等。不过,这一切暂时都是在虚拟情况中完成的。

有了GPT-4之后,机器人把转笔、盘核桃都学会了

有了GPT-4之后,机器人把转笔、盘核桃都学会了

有了GPT-4之后,机器人把转笔、盘核桃都学会了

此外,Eureka 还实行了一种新型的 in-context RLHF,它能够将人类操作员的自然语言反应纳入其中,以引导和对齐处分函数。它可以为机器人工程师供应强大的辅助功能,帮助工程师设想复杂的运动行为。英伟达高级 AI 科学家 Jim Fan 也是该论文的作者之一,他将这项研究比喻为「物理模拟器 API 空间中的旅行者号(美国研制并建造的外层星系空间探测器)」。

有了GPT-4之后,机器人把转笔、盘核桃都学会了

值得一提的是,这项研究是完全开源的,开源地址如下:

有了GPT-4之后,机器人把转笔、盘核桃都学会了

论文链接:https://arxiv.org/pdf/2310.12931.pdf

项目链接:https://eureka-research.github.io/

代码链接:https://github.com/eureka-research/Eureka

论文概览

大型语言模型(LLM)在机器人工作的高级语义规划方面表现出色(比如谷歌的 SayCan、RT-2 机器人),但它们是否可以用于进修复杂的低级操作工作,如转笔,仍然是一个悬而未决的问题。现有的尝试需要大量的领域专业知识来构建工作提示或只进修简单的技能,远远达不到人类水平的灵活性。

有了GPT-4之后,机器人把转笔、盘核桃都学会了

                               谷歌的 RT-2 机器人。

另一方面,加强进修(RL)在灵活性以及其他许多方面取得了令人印象深刻的成果(比如 OpenAI 会玩魔方的机械手),但需要人类设想师仔细构建处分函数,准确地编纂并供应所需行为的进修信号。由于许多现实世界的加强进修工作只供应难以用于进修的稀疏处分,因此在实践中需要处分塑造(reward shaping),以供应渐进的进修信号。尽管处分函数非常重要,但众所周知,它很难设想。最近的一项调查发现,92% 的加强进修受访研究人员和从业者表示,他们在设想处分时进行了人工试错,89% 的人表示他们设想的处分是次优的,会导致非预期行为。

鉴于处分设想如此重要,我们不禁要问,是否有可能利用最先进的编码 LLM(如 GPT-4)来开发一种通用的处分编程算法?这些 LLM 在代码编写、零样本生成以及 in-context learning 等方面表现出色,曾经大大提升了编程智能体的性能。理想情况下,这种处分设想算法应具有人类水平的处分生成能力,可扩展到广泛的工作范围,在没有人类监督的情况下自动完成乏味的试错过程,同时与人类监督兼容,以确保安全性和一致性。

这篇论文提出了一种由 LLM 驱动的处分设想算法 EUREKA(全称是 Evolution-driven Universal REward Kit for Agent)。该算法达成了以下成就:  

1、在 29 种不同的开源 RL 情况中,处分设想的性能达到了人类水平,这些情况包括 10 种不同的机器人形态(四足机器人、四旋翼机器人、双足机器人、机械手以及几种灵巧手,见图 1。在没有任何特定工作提示或处分模板的情况下,EUREKA 自主生成的处分在 83% 的工作中优于人类专家的处分,并实行了 52% 的平均归一化改进。

有了GPT-4之后,机器人把转笔、盘核桃都学会了

2、解决了以前无法通过人工处分工程实行的灵巧操作工作。以转笔问题为例,在这种情况下,一只有五根手指的手需要按照预先设定的扭转配置快速扭转钢笔,并尽可能多地扭转几个周期。通过将 EUREKA 与课程进修相结合,研究者首次在模拟拟人「Shadow Hand」上演示了快速转笔的操作(见图 1 底部)。

3、为基于人类反应的加强进修(RLHF)供应了一种新的无梯度上下文进修方法,可以基于各种形式的人类输入生成更高效、与人类对齐程度更高的处分函数。论文表明,EUREKA 可以从现有的人类处分函数中获益并加以改进。同样,研究者还展示了 EUREKA 利用人类文本反应来辅助设想处分函数的能力,这有助于捕捉到人类的细微偏好。

与之前使用 LLM 辅助处分设想的 L2R 工作不同,EUREKA 完全没有特定工作提示、处分模板以及少量示例。在实验中,EUREKA 的表现明显优于 L2R,这得益于它能够生成和完善自由形式、表达能力强的处分程序。

EUREKA 的通用性得益于三个关键的算法设想选择:将情况作为上下文、退化搜寻和处分深思(reward reflection)。

首先,通过将情况源代码作为上下文,EUREKA 可以从主干编码 LLM(GPT-4)中零样本生成可执行的处分函数。然后,EUREKA 通过执行退化搜寻,迭代地提出处分候选批次,并在 LLM 上下文窗口中精炼最有希望的处分,从而大大提高了处分的质量。这种 in-context 的改进通过处分深思来实行,处分深思是基于计谋训练统计数据的处分质量文本总结,可实行自动和有针对性的处分编辑。

图 3 为 EUREKA 零样本处分示例,以及优化过程中积累的各项改进。为了确保 EUREKA 能够将其处分搜寻扩展到最大潜力,EUREKA 在 IsaacGym 上使用 GPU 加速的分布式加强进修来评估中间处分,这在计谋进修速度上供应了高达三个数量级的提升,使 EUREKA 成为一个广泛的算法,随着计算量的增加而自然扩展。

有了GPT-4之后,机器人把转笔、盘核桃都学会了

如图 2 所示。研究者致力于开源所有提示、情况和生成的处分函数,以促进基于 LLM 的处分设想的进一步研究。

有了GPT-4之后,机器人把转笔、盘核桃都学会了

方法介绍

EUREKA 可以自主的编写处分算法,具体是如何实行的,我们接着往下看。

EUREKA 由三个算法组件组成:1)将情况作为上下文,从而支持零样本生成可执行处分;2)退化搜寻,迭代地提出和完善处分候选;3)处分深思,支持细粒度的处分改进。

情况作为上下文

本文建议直接供应原始情况代码作为上下文。仅通过最少的指令,EUREKA 就可以在不同的情况中零样本地生成处分。EUREKA 输出示例如图 3 所示。EUREKA 在供应的情况代码中熟练地组合了现有的观察变量 (例如,指尖位置),并产生了一个有效的处分代码 —— 所有这些都没有任何特定于情况的提示工程或处分模板。

然而,在第一次尝试时,生成的处分可能并不总是可执行的,即使它是可执行的,也可能是次优的。这就出现了一个疑问,即如何有效地克服单样本处分生成的次优性?

有了GPT-4之后,机器人把转笔、盘核桃都学会了

退化搜寻

接着,论文介绍了退化搜寻是如何解决上述提到的次优解决方案等问题的。他们是这样完善的,即在每次迭代中,EUREKA 对 LLM 的几个独立输出进行采样(算法 1 中的第 5 行)。由于每次迭代(generations)都是独立同分布的,这样一来随着样本数量的增加,迭代中所有处分函数出现错误的概率呈指数下降。

有了GPT-4之后,机器人把转笔、盘核桃都学会了

有了GPT-4之后,机器人把转笔、盘核桃都学会了

处分深思

为了供应更复杂、更有针对性的处分分析,本文建议构建自动反应来总结文本中的计谋训练动态。具体来说,考虑到 EUREKA 处分函数需要处分程序中的各个组件(例如图 3 中的处分组件),因而本文在整个训练过程中跟踪中间计谋检查点处所有处分组件的标量值。

构建这种处分深思过程虽然很简单,但由于处分优化算法存在依赖性,因而这种构建方式就显得很重要。也就是说,处分函数是否有效受到 RL 算法的特定选择的影响,并且即使在给定超参数差异的相同优化器下,相同的处分也可能表现得非常不同。通过详细说明 RL 算法如何优化各个处分组件,处分深思使 EUREKA 能够产生更有针对性的处分编辑并合成处分函数,从而更好地与固定 RL 算法协同。

有了GPT-4之后,机器人把转笔、盘核桃都学会了

实验

实验部分对 Eureka 进行了全面的评估,包括生成处分函数的能力、解决新工作的能力以及对人类各种输入的整合能力。

实验情况包括 10 个不同的机器人以及 29 个工作,其中,这 29 个工作由 IsaacGym 模拟器实行。实验采用了 IsaacGym (Isaac) 的 9 个原始情况,涵盖从四足、双足、四旋翼、机械手到机器人的灵巧手的各种机器人形态。除此以外,本文还通过纳入 Dexterity 基准测试中的 20 项工作来确保评估的深度。

有了GPT-4之后,机器人把转笔、盘核桃都学会了

Eureka 可以产生超人类水平的处分函数。在 29 项工作中,Eureka 给出的处分函数在 83% 的工作上比专家编写的处分表现得更好,平均提高了 52%。特别是,Eureka 在高维 Dexterity 基准测试情况中实行了更大的收益。

有了GPT-4之后,机器人把转笔、盘核桃都学会了

Eureka 能够退化处分搜寻,使处分随着时间的推移而不断改善。Eureka 通过结合大规模的处分搜寻和详细的处分深思反应,逐步产生更好的处分,最终超过人类的水平。

有了GPT-4之后,机器人把转笔、盘核桃都学会了

Eureka 还能产生新颖的处分。本文通过计算所有 Isaac 工作上的 Eureka 处分和人类处分之间的相关性来评估 Eureka 处分的新颖性。如图所示,Eureka 主要生成弱相关的处分函数,其表现优于人类的处分函数。此外,本文还观察到工作越难,Eureka 处分的相关性就越小。在某些情况下,Eureka 处分甚至与人类处分呈负相关,但表现却明显优于人类处分。

有了GPT-4之后,机器人把转笔、盘核桃都学会了

想要实行机器人的灵巧手能够不停的转笔,需要操作程序有尽可能多的循环。本文通过以下方式解决此工作:(1) 指导 Eureka 生成处分函数,用来将笔重新定向到随机目标配置,然后 (2) 使用 Eureka 处分微调此预训练计谋以达到所需的笔序列 – 扭转配置。如图所示,Eureka 微调很快就适应了计谋,成功地连续扭转了许多周期。相比之下,预训练或从头开始进修的计谋都无法完成单个周期的扭转。

有了GPT-4之后,机器人把转笔、盘核桃都学会了

本文还研究了从人类处分函数初始化开始是否对 Eureka 有利。如图所示,无论人类处分的质量如何,Eureka 都会从人类处分中改进并受益。

有了GPT-4之后,机器人把转笔、盘核桃都学会了

Eureka 还实行了 RLHF,其可以结合人类的反应来修改处分,从而逐步指导智能体完成更安全、更符合人类的行为。示例展示了 Eureka 如何通过一些人类反应来教人形机器人直立奔跑,这些反应取代了之前的自动处分深思。

有了GPT-4之后,机器人把转笔、盘核桃都学会了                               人形机器人通过 Eureka 进修跑步步态。

了解更多内容,请参考原论文。

给TA打赏
共{{data.count}}人
人已打赏
工程

​参数少近一半,功能逼近谷歌Minerva,又一个数学大模型开源了

2023-10-23 11:39:00

工程

220亿晶体管,IBM机器学习专用处理器NorthPole,能效25倍提升

2023-10-23 14:52:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索