能动脑的,绝不用动手的。
未来也许只需动动念头,就能让机器人帮你做好家务。斯坦福大学的吴佳俊和李飞飞团队近日提出的 NOIR 零碎能让用户通过非侵入式脑电图装置控制机器人完成日常任意。
NOIR 能将你的脑电图旗号解码为机器人技艺库。它现在已能完成例如烹饪寿喜烧、熨衣服、磨奶酪、玩井字游戏,甚至抚摸机器狗等任意。这个模块化的零碎具备强大的进修能力,可以应对日常生活中复杂多变的任意。
大脑与机器人接口(BRI)堪称是人类艺术、科学和工程的集大成之作。我们已经在不胜枚举的科幻作品和创意艺术中见到它,比如《黑客帝国》和《阿凡达》;但真正兑现 BRI 却非易事,需要突破性的科学研究,创造出能与人类完美协同运作的机器人零碎。
对于这样的零碎,一大关键组件是机器与人类通信的能力。在人机协调和机器人进修过程中,人类传达计划的方式包括动作、按按钮、注视、面部表情、语言等等。而通过神经旗号直接与机器人通信则是最激动人心却也最具挑战性的前景。
近日,斯坦福大学吴佳俊和李飞飞领导的一个多学科联合团队提出了一种通用型的智能 BRI 零碎 NOIR(Neural Signal Operated Intelligent Robots / 神经旗号操控的智能机器人)。
论文地址:https://openreview.net/pdf?id=eyykI3UIHa
项目网站:https://noir-corl.github.io/
该零碎鉴于非侵入式的脑电图(EEG)技术。据介绍,该零碎依据的主要原理是分层式共享自治(hierarchical shared autonomy),即人类定义高层级指标,而机器人通过执行低层级运动指令来兑现指标。该零碎纳入了神经科学、机器人学和机器进修领域的新进展,取得了优于之前方法的进步。该团队总结了所做出的贡献。
首先,NOIR 是通用型的,可用于多样化的任意,也易于不同社区运用。研究表明,NOIR 可以完成多达 20 种日常活动;相较之下,之前的 BRI 零碎通常是针对一项或少数几项任意设计的,或者就仅仅是模拟零碎。此外,只需少量培训,普通人群也能运用 NOIR 零碎。
其次,NOIR 中的 I 表示这个机器人零碎是智能的(intelligent),具备自适应能力。该机器人配备了一个多样化的技艺库,让其无需密集的人类监督也能执行低层级动作。运用参数化的技艺原语,比如 Pick (obj-A) 或 MoveTo (x,y),机器人可以很自然地取得、解读和执行人类的行为指标。
此外,NOIR 零碎还有能力在协调过程中进修人类想达成的指标。研究表明,通过利用基础模型的最新进展,该零碎甚至能适应很有限的数据。这能显著提升零碎的效率。
NOIR 的关键技术贡献包括一个模块化的解码神经旗号以获知人类计划的工作过程。要知道,从神经旗号解码出人类计划指标是极具挑战性的。为此,该团队的做法是将人类计划分解为三大组分:要操控的物体(What)、与该物体交互的方式(How)、交互的位置(Where)。他们的研究表明可以从不同类型的神经数据中解码出这些旗号。这些分解后的旗号可以自然地对应于参数化的机器人技艺,并且可以有效地传达给机器人。
在 20 项涉及桌面或移动操作的家庭活动(包括制作寿喜烧、熨烫衣物、玩井字棋、摸机器狗狗等)中,三名人类受试者成功地运用了 NOIR 零碎,即通过他们的大脑旗号完成了这些任意!
实行表明,通过以人类为师进行少样本机器人进修,可以显著提升 NOIR 零碎的效率。这种运用人脑旗号协调来构建智能机器人零碎的方法潜力巨大,可用于为人们(尤其是残障人士)开发至关重要的辅助技术,提升他们的生活品质。
NOIR 零碎
这项研究力图解决的挑战包括:1. 如何构建适用于各种任意的通用 BRI 零碎?2. 如何解码来自人脑的相关通信旗号?3. 如何提升机器人的智能和适应能力,从而兑现更高效的协调?图 2 给出了该零碎的概况。
在这个零碎中,人类作为规划智能体,做的是感知、规划以及向机器人传达行为指标;而机器人则要运用预定义的原语技艺兑现这些指标。
为了兑现打造通用 BRI 零碎的总体指标,需要将这两种设计协同集成到一起。为此,该团队提出了一种全新的大脑旗号解码工作过程,并为机器人配备了一套参数化的原始技艺库。最后,该团队运用少样本模仿进修技术让机器人具备了更高效的进修能力。
大脑:模块化的解码工作过程
如图 3 所示,人类计划会被分解成三个组分:要操控的物体(What)、与该物体交互的方式(How)、交互的位置(Where)。
要从脑电图旗号解码出具体的用户计划,难度可不小,但可以通过稳态视觉诱发电位(SSVEP)和运动意象(motor imagery)来完成。简单来说,这个过程包括:
采用具有稳态视觉诱发电位(SSVEP)的物体
通过运动意象(MI)选择技艺和参数
通过肌肉收紧来选择确认或中断
机器人:参数化的原语技艺
参数化的原语技艺可以针对不同的任意进行组合和复用,从而兑现复杂多样的操作。此外,对人类而言,这些技艺非常直观。人类和智能体都无需了解这些技艺的控制机制,因此人们可以通过任何方法兑现这些技艺,只要它们是稳健的且能适应多样化的任意。
该团队在实行中运用了两台机器人:一台是用于桌面操作任意的 Franka Emika Panda 机械臂,另一台是用于移动操作任意的 PAL Tiago 机器人。下表给出了这两台机器人的原语技艺。
运用机器人进修兑现高效的 BRI
上述的模块化解码工作过程和原语技艺库为 NOIR 奠定了基础。但是,这种零碎的效率还能进一步提升。机器人应当能在协调过程中进修用户的东西、技艺和参数选择偏好,从而在未来能预测用户希望达成的指标,兑现更好的自动化,也让解码更简单容易。由于每一次执行时,东西的位置、姿态、排列和实例可能会有所不同,因此就需要进修和泛化能力。另外,进修算法应当具有较高的样本效率,因为收集人类数据的成本很高。
该团队为此采用了两种方法:鉴于检索的少样本东西和技艺采用、单样本技艺参数进修。
鉴于检索的少样本东西和技艺采用。该方法可以进修所观察状态的隐含表征。给定一个观察到的新状态,它会在隐藏空间中找到最相似的状态以及对应的动作。图 4 给出了该方法的概况。
在任意执行期间,由图象和人类选择的「东西 – 技艺」对构成的数据点会被记录下来。这些图象首先会被一个预训练的 R3M 模型编码,以提取出对机器人操控任意有用的特征,然后再让它们通过一些可训练的全连接层。这些层的训练运用了带三元组损失的对比进修,这会鼓励带有同样「东西 – 技艺」标签的图象在隐藏空间中处于更相近的位置。所进修到的图象嵌入和「东西 – 技艺」标签会被存储到内存中。
在测试期间,模型会检索隐藏空间中最近的数据点,然后将与该数据点关联的「东西 – 技艺」对建议给人类。
单样本技艺参数进修。参数采用需要人类大量参与,因为这个过程需要通过运动意象(MI)进行精准的光标操作。为了减少人类的工作量,该团队提出了一种进修算法,可以根据给定的用作光标控制起始点的「东西 – 技艺」对来预测参数。假设用户已经成功定位了拿起一个杯子把手的精确关键点,那么未来还需要再次指定这个参数吗?最近 DINOv2 等基础模型取得了不少进展,已经可以找到相应的语义关键点,从而无需再次指定参数。
相比于之前的工作,这里提出的新算法是单样本的并且预测的是具体的 2D 点,而非语义片段。如图 4 所示,给定一张训练图象(360 × 240)和参数选择 (x, y),模型预测不同的测试图象中语义上对应的点。该团队具体运用的是预训练的 DINOv2 模型来获取语义特征。
实行和结果
任意。实行采用的任意来自 BEHAVIOR 和 Activities of Daily Living 基准,这两个基准能在一定程度上体现人类的日常需求。图 1 展示了实行任意,其中包含 16 个桌面任意和 4 个移动操作任意。
下面展示了制作三明治和护理新冠病人的实行过程示例。
实行过程。实行过程中,用户待在一个隔离房间中,保持静止,在屏幕上观看机器人,单纯依靠大脑旗号与机器人沟通。
零碎性能。表 1 总结了两个指标下的零碎性能:成功之前的尝试次数和成功时完成任意的时间。
尽管这些任意跨度长,难度大,但 NOIR 还是得到了非常鼓舞人心的结果:平均而言,只需尝试 1.83 次就能完成任意。
解码准确度。解码大脑旗号的准确度是 NOIR 零碎成功的一大关键。表 2 总结了不同阶段的解码准确度。可以看到,鉴于 SSVEP 的 CCA(典型相关分析)能达到 81.2% 的高准确度,也就是说东西采用大体上是准确的。
东西和技艺采用结果。那么,新提出的机器人进修算法能否提升 NOIR 的效率呢?研究者首先对东西和技艺采用进修进行了评估。为此,他们为 MakePasta 任意收集了一个离线数据集,其中每一对「东西 – 技艺」都有 15 个训练样本。给定一张图象,当同时预测出了正确的东西和技艺时,就认为该预测是正确的。结果见表 3。
运用 ResNet 的简单图象分类模型能兑现 0.31 的平均准确度,而鉴于预训练 ResNet 骨干网络运用新方法时却能达到显著更高的 0.73,这凸显出了对比进修和鉴于检索的进修的重要性。
单样本参数进修的结果。研究者鉴于预先收集的数据集将新算法与多个基准进行了比较。表 4 给出了预测结果的 MSE 值。
他们还在 SetTable 任意上展现了参数进修算法在实际任意执行中的有效性。图 5 给出了控制光标移动方面所节省的人类工作量。