这个机器人名叫Cassie,曾经创下百米跑世界纪录。最近,加州大学伯克利分校的研究者给它开发了一种新的深度强化进修算法,让它掌握了急转弯等妙技,还能对抗各种干扰。
【关注机器之心视频号,第一时间看到有趣的 AI 内容】
关于双足机器人疏通的研究已经进行了几十年,但仍然没有一个不妨对各种疏通妙技进行稳健负责的通用框架。挑战来自于双足机器人欠驱动动态的复杂性以及与每种疏通妙技相关的分歧规划。
研究者们希望解决的关键问题在于:如何为高维人体大小的双足机器人开发一种解决方案?如何负责多样化、敏捷和稳健的腿部疏通妙技,比如行走、跑步和腾跃?
最近的一项研究或许提供了不错的方案。
在这项工作中,来自伯克利等机构的研究者哄骗强化进修(RL)为现实世界中的高维非线性双足机器人创建负责器,以应对上述挑战。这些负责器可以哄骗机器人的本体感觉信息来适应随时间变化的不确定动态,同时不妨适应新的环境和设置,哄骗双足机器人的敏捷性,在突发情况下表现出稳健的行为。此外,本文框架还提供了再现各种双足疏通妙技的通用配方。
论文标题:Reinforcement Learning for Versatile, Dynamic, and Robust Bipedal Locomotion Control
论文链接:https://arxiv.org/pdf/2401.16889.pdf
论文细节
对于负责器来说,扭矩负责人体大小的双足机器人的高维性和非线性乍似乎是障碍,然而这些特性的优势在于可以通过机器人的高维动力学完成复杂的敏捷操作。
这一负责器赋予机器人的妙技如图 1 所示,包括稳健的站立、行走、奔跑和腾跃。这些妙技还可用于执行各种分歧的义务,包括以分歧速率和高度行走、以分歧速率和方向奔跑以及跳向各种目标,同时在实际部署过程中保持稳健性。为此,研究者哄骗无模型 RL 让机器人通过对系统全阶动态的试错来进修。除了真实世界的尝试,还深入分析了使用 RL 进行腿部疏通负责的好处,并详细研究了如何有效地构建进修过程以哄骗这些优势,如适应性和稳健性。
用于通用双足疏通负责的 RL 系统如图 2 所示:
第四节首先介绍了在疏通负责中哄骗机器人 I/O 历史记录的重要性,这一节从负责和 RL 两个角度展示了机器人的长期 I/O 历史可以在实时负责过程中完成系统识别和状态估计。
第五节介绍了研究的核心:一种哄骗双足机器人长期和短期 I/O 双历史记录的新型负责架构。具体来说,这种负责架构不仅能哄骗机器人的长期历史记录,还能哄骗机器人的短期历史记录。
负责框架如下图:
在这种双历史记录结构中,长期历史记录带来了适应性(在第八节中得到验证),短期历史记录则通过完成更好的实时负责对长期历史记录的哄骗进行了补充(在第七节中得到验证)。
第六节介绍了如何将由深度神经网络表示的负责方略通过无模型 RL 进行优化。鉴于研究者旨在开发一种不妨哄骗高动态疏通妙技完成各种义务的负责器,因此这一节中的训练以多阶段模拟训练为特征。这种训练方略提供了一个结构化的课程,首先是单一义务训练,即机器人专注于一个固定的义务,然后是义务随机化,使机器人接受的训练义务多样化,最后是动态随机化,改变机器人的动态参数。
方略如下图所示:
这种训练方略不妨提供一种多功能负责方略,可以执行多种义务,并完成机器人硬件的零样本迁移。此外,义务随机化还能通过在分歧的进修义务中进行泛化来增强所产生方略的稳健性。
研究表明,这种稳健性可以使机器人对干扰做出顺从的行为,这与动态随机化带来的干扰是「正交」的。这一点将在第九节中得到验证。
哄骗这一框架,研究者获得了针对双足机器人 Cassie 的行走、跑步和腾跃妙技的多功能方略。第十章评估了这些负责方略在现实世界中的有效性。
尝试
研究者对机器人进行了广泛的尝试,包括在现实世界中行走、跑步和腾跃等多项能力的尝试。所用方略在经过模拟训练后都不妨有效地负责现实世界中的机器人,而无需进一步调整。
行走尝试
如图 14a 所示,行走方略展示了对机器人遵循分歧指令的有效负责,在整个尝试过程中,追踪误差相当低(追踪误差由 MAE 的值来评估)。
此外,机器人方略在较长时间内始终表现良好,即使在 325 天和 492 天后仍具有保持追踪可变吩咐的能力,分别如图 14c 和图 14b 所示。尽管在此期间机器人的动力学发生了显著的累积变化,但图 14a 中的同一负责器继续有效地管理分歧的行走义务,并且追踪误差的退化最小。
如图 15 所示,该研究所用的方略显示出对机器人可靠的负责,使机器人不妨准确地追踪顺时针或逆时针的分歧转弯吩咐。
快速行走尝试。除了中等行走速率之外,尝试还展示了所用方略负责机器人向前和向后执行快速行走动作的能力,如图 16 所示。机器人可以从静止状态过渡到快速完成向前行走速率,平均速率达到 1.14 m/s(追踪指令中要求 1.4 m/s),机器人还能按照指令快速返回站立姿态,如图 16a 所示,数据记录在图 16c 中。
在不平坦的地形上(未经训练),机器人也可以在楼梯或下坡上有效地向后行走,如下图所示。
抗扰动。在脉冲扰动的情况下,比如研究者在机器人步行时从各个方向向机器人引入了短时间内的外部扰动。就像图 18a 中记录的那样,在原地行走时向机器人施加相当大的横向扰动力,横向速率峰值为 0.5 m/s。尽管有扰动,机器人仍能迅速从横向偏差中恢复过来。如图 18a 所示,机器人熟练地沿相反的横向方向移动,有效地补偿扰动并恢复其稳定的原地行走步态。
在持续扰动尝试期间,人类对机器人底座施加扰动力量,并沿随机方向拖动机器人,同时吩咐机器人原地行走。如图 19a 所展示的,当机器人正常行走时,持续的横向拖力施加到 Cassie 的底座上。结果显示机器人在不失去平衡的情况下,通过遵循这些外力的方向来表现出对这些外力的顺应性。这也表明了本文提出的基于强化进修的方略在负责双足机器人以完成安全人机交互等潜在应用方面的优势。
跑步尝试
当机器人使用双足跑步方略,在 2 分 34 秒内完成了 400 米冲刺,在 27.06 秒内完成了 100 米冲刺,跑步倾斜度高达 10° 等等。
400 米长跑:该研究首先评估了在标准室外跑道上完成 400 米长跑的一般跑步方略,如图 20 所示。在整个尝试过程中,机器人被吩咐以 3.5 m/s 的速速同时响应由操作员发出的分歧转弯吩咐。机器人不妨从站立姿态平滑地过渡到跑步步态(图 20a 1)。机器人设法加速到平均估计运行速率 2.15 m/s,达到峰值估计速率 3.54 m/s,如图 20b 所示。该方略使机器人成功地在整个 400 米跑步过程中始终保持所需的速率,同时准确地遵守分歧的转弯吩咐。
在所提出的跑步方略的负责下,Cassie 在 2 分 34 秒内成功完成了 400 米冲刺,随后不妨过渡到站立姿态。
该研究进一步进行了急转弯尝试,其中机器人被给予偏航吩咐的阶跃变化,从 0 度直接到 90 度,如图 21c 中记录的。机器人可以响应这样的步进吩咐,并在 2 秒 5 步内完成 90 度急转弯。
100 米长跑:如图 22 所示,通过部署所提出的跑步方略,机器人在大约 28 秒内完成了 100 米长跑,完成了 27.06 秒的最快跑步时间。
腾跃尝试
通过尝试证明,研究者发现很难训练机器人在腾跃到高架平台的同时同时转弯,但所提出的腾跃方略完成了机器人多种分歧的双足腾跃,包括可以腾跃 1.4 米以及跳到 0.44 米高架平台上。
腾跃和转弯:如图 25a 所示,使用单次腾跃方略,机器人不妨执行各种给定的目标腾跃,例如旋转 60° 时原地腾跃、向后腾跃到后面 0.3 米处着陆等。
腾跃到高架平台:如图 25b 所示,机器人不妨精确腾跃到分歧位置的目标上,例如前方 1 米或前方 1.4 米,它还能跳到分歧高度的位置,包括跳到 0.44 米高的地方(考虑到机器人本身只有 1.1 米高)。
了解更多内容,请参考原论文。