作者 | 赖文昕
编辑 | 陈彩娴
与位于宇宙中心硅谷湾区的伯克利、斯坦福不同,被视为锈带区复兴唯一希望的卡内基梅隆大学(以下简称“CMU”)坐落在上世纪的工业重镇匹兹堡。
计算机科学学院的机器人研究所(以下简称“RI”)成立于1979年,是世界上第一个致力于机器人研究的大学级研究所。
这座机器人摇篮在 45 年间诞生了无数耀眼成就,但在如今技术更迭到由 AI 方向领衔、以仿真与强化学习算法方为“技术先进”之际,以传统机器人学见长的 CMU 能否跟上具身智能的热潮?
答案毋庸置疑:有人加入了最前沿热门的企业,或在OpenAI研究机器人基础模型,或到特斯拉参与人形机器人Optimus 的研发;有人选择了创业,宾通智能、星猿哲、木牛、雅可比,涵盖工厂、物流、商超场景;有人走进了高校,在北大、中大、USCD 等大学继续具身智能的研究。
回到纽维尔·西蒙楼,一切才刚刚开始。
坚守「传统」Robotics
人形机器人控制算法的演进分为三个阶段:一是经典模型控制,如 LIPM+ZMP,以 ASIMO 为代表;二是高级模型控制,即如 MPC+WBC 的动态模型和最优控制算法,以 Atalas 为代表;三是仿真和强化学习的结合。前两者均基于模型(Model-Based),第三代则转为基于学习(Learning-Based)。
一般而言,“技术先进”指技术出现得更晚、更年轻。在这个概念上,由 CS、AI 人才主导的第三代算法可以说最为先进,基于模型的方法也逐渐被称为“传统机器人学”。但同时也有很多人认为,在现实的应用中,世界上只有一种先进的技术,那就是行得通的技术。
2017年正值学习萌芽之际,机器人顶会ICRA中约40%的论文都与之相关,对于是否转向,侯一凡与导师Matthew T. Mason有过一番对话:
Mason问他是否考虑转向,侯一凡深思好久后回答,目前对机器人学习(Robot Learning)兴趣不大,自己关注的重点在解决操作,而非用学习解决操作——他不在乎方法或流派,只关注效果,哪种方法对解决问题最有效,就会尝试——当时学习的成本及效果上限都远不及基于模型。
回到2015年,侯一凡从清华自动化系毕业,来到CMU成为了刚卸任RI所长、机器人操作(Manipulation)先驱Matthew T. Mason的学生。
二人的互选缘于12年进组的周佳骥:计划读博的侯一凡看到师兄周佳骥在知乎回答了不少CMU与机器人的问题,便主动私信探讨课题,就此结为好友。侯一凡觉得周佳骥做的研究很有意思,来到CMU后在周的介绍下和Mason见面也相谈甚欢,就进组开工了。
曾为清华火神队队长的侯一凡,2014年曾带队参加RoboCup,拿到了人形组AdultSize第三名,擅长运动控制和步态规划。在CMU深入探索机器人系统后,他逐渐领悟到,要让机器人变得实用,最大的瓶颈在于手部的操作能力,而非腿部的移动,便改变了研究重点。
侯一凡
操作和移动在理论知识上有许多共通之处,尤其是在运动规划和轨迹优化方面,因此侯一凡起初打算将移动的思路应用于操作上。
在第一个手内操作(In-hand Manipulation)的项目中,他试图将模型做得尽可能精确,花了半年时间研究摩擦力模型,以深入理解操作中的摩擦力。
然而,两者在实际应用上差异显著。对人类来说简单的动作,想要精确建模却异常困难。严格来说,摩擦力并没有完美的模型,许多操作的模型也是如此。过分追求模型的精确性,往往导致模型过于复杂,限制了分析和控制规划方法的应用,反而效果不佳。
渐渐地,侯一凡形成了对操作的清晰思路:若需建模,应选择简单模型,并以此设计出鲁棒的控制和规划方法。模型简单则可利用强大的方法获得鲁棒的解决方案,再利用这些解决方案的鲁棒性去应对实际环境中的不确定性和复杂性,而非试图将所有复杂性和不确定性精确描述出来——这种偏向工程的思维,实际上非常有效。
受Mason的影响,侯一凡对操作的取舍也很明确。灵巧手多年来未广泛应用并非因为技术难以实现,而是因为难以找到成本效益高的应用方法。传统上,机器人主要用于工业,一旦确定了具体应用,通常能找到比灵巧手更适用的系统。
因此在研究手内操作时,侯一凡决定简化手指的自由度,采用基本的两指结构,微调硬件以便于在各种姿态下进行操作。他广泛使用了“外部灵巧度”概念,即机器人通过与环境互动来弥补手部自由度的不足,如二指夹爪也能通过与地面的接触来竖立一本书。
接着,侯一凡转向了更具通用性的3D物品重定向问题,专注于规划。但很快,他发现控制才是瓶颈——即使提供了精确的轨迹,当时的算法也很难执行动作,尤其是在多接触点操作中。
操作通过接触传递力,每个接触都有其模式(Contact Mode),如粘着、滑动或脱离。即使是粘着接触,也分为点到面、边到面或边到边等多种类型,这些离散状态与运动的连续性形成鲜明对比。
在操作中,接触模式的任何变化都可能导致环境约束和物体动力学的突变。如果控制器不能迅速适应这些变化,操作就会失败。尽管一些机器人具有柔性控制,但往往只保证一般安全性,缺乏精细操作任务对机器人柔性的具体要求,难以在多接触任务中有效应对不确定性。
简而言之,如果能稳健地执行接触模式,就能显著提高操控控制的稳定性。
因此,侯一凡的博士研究分为三个步骤:首先,提出了量化接触模式鲁棒性的方法,通过精确计算接触点位置和姿态来评估系统在不同控制下的稳定性;其次,基于这种鲁棒性评估,优化柔性控制策略以增强操作的抗干扰性;最后,在量化鲁棒性并优化底层控制后,将控制度量纳入高级机器人规划中,寻找一条从始至终都极为鲁棒的轨迹。
侯一凡发表的论文让机器人能够规划并稳定执行一系列接触模式变化复杂的动作,而非简单的抓取pick and place,这些动作能够在模型并不准确的情况下做到稳定多次重复,而以往这些动作即使完成一次都很困难。同行也传来了积极反馈,称这套方法不仅算法简单,而且效果显著。
彼时,在CMU同样选择传统robotics的还有刚完成RoboMaster 2018总决赛的前大疆技术总监杨硕。
早在2016年底,一直想读博但工作繁忙的杨硕就申请过不需提交托福和GRE成绩的伯克利,并在次年初收到秋季入学的录取通知。因想先完成好手头的事,杨硕又推迟到2018年再入学。
2017年,杨硕在大疆深入研究了深度神经网络和强化学习,既为了探索新领域的知识,也为了筹备2018年的RoboMaster AI挑战赛。
在研究深度强化学习(DRL)时,杨硕常感到一种难以名状的挫败:算法难以稳定收敛,结果波动大,对参数极为敏感,稍有调整就可能导致截然不同的输出,且调整缺乏理论支持。
尤其让杨硕不适的是,DRL忽视了机器人学的核心——能量转换和系统建模。在机器人领域,电能和磁能转化为动能、力的传递产生运动,是一个复杂但可预测的系统。然而,在DRL中,这些原理被边缘化,调整参数或神经网络结构时,依据的竟并非牛顿运动定律。
杨硕
3月,杨硕受邀到CMU RI介绍大疆的无人机技术和RoboMaster,然后又去伯克利参加了给博士生组织的校园开放日。
两地的探访经历让杨硕意识到,自己在工业界的经验和编程技能,更适合以产学合作和大型项目执行能力强著称的CMU。而且,匹兹堡作为美国传统工业重镇,总让杨硕想起自己的家乡太原——两者都曾因煤炭和钢铁而繁荣,也都在国家发展新阶段中面临挑战。
种种因素影响下,杨硕在2018年来到了CMU,成为了Howie Choset的学生,研究主线是足式机器人的长距离定位,应用在四足和人形机器人上。
读博的头两年里,杨硕机器人做得很好,却一直未能发论文:他先是在六足机器人Daisy上面做状态估计,优化了卡尔曼滤波器以更准确地估算机器人在空间中的行进距离;接着做了个两自由度的猴子机器人,并利用iLQR算法快速验证了不同构型机器人的性能,辅助进行了机器人参数的选择。
“花了两年时间让六足机器人上楼梯,但做出楼梯上得好的机器人不是一个科学问题,解释清楚为什么能上楼梯才是。”杨硕意识到,自己是重新解决了一遍已被人解决过的问题,再用较强的工程能力提升机器人性能,呈现的结果虽好,却没有解决某个新的科学问题。
茅塞顿开后,杨硕的第一篇论文推进的很顺利,和过去重工程的工作不同,这是个非常数学且具理论性的工作,从有了想法到完成,只用了短短两三个月。
2020年8月,杨硕复现了几种带约束的LQR算法,意识到这类问题是领域内的挑战,并萌生了将约束LQR与SLAM中的图优化技术相结合的创新想法。他和SLAM图优化先驱 Frank Dellaert 及其学生合作,用因子图求解有约束的最优控制问题,并成功发表在ICRA 2021上。
2021年初,杨硕邀请RI新来的年轻教授Zachary Manchester做他的另一位导师。Zach最初从事航天研究,其博导曾任NASA首席科学家,后来Zach将航天和卫星控制中的数学和优化理论应用于机器人问题,取得了显著成效。
在Zach的指导下,杨硕深入掌握了航天及机器人领域几十年基于模型的控制方法,还花了半年系统性地学习了机器人轨迹规划的各种知识,特别加深了对非线性优化、LQR和DDP的理解。至此,他把足式机器人的建模、状态估计、底层控制、轨迹规划每个环节都摸了一遍。
回到2013年,在中山大学软件工程系读大三的邱迪聪就开始探索强化学习,并认为这是机器人技术中不可或缺的一环。
作为非传统机器人领域出身且十分推崇强化学习的一员,邱迪聪却觉得,自己真正深入研究机器人始于CMU。2017年,他来到CMU读研,由“大白之父”Christopher Atkeson和场地机器人之父、自动驾驶先驱William(Red)Whittaker指导,研究多步优化决策和人形机器人的双臂灵巧操作。
在实践中,邱迪聪发现RL存在时代的局限性,并不能立即广泛应用,应将强化学习与优化或基于模型的方法结合起来,以适应更复杂的决策和技能学习, “毕竟目前纯基于学习方法的机器人还没实现任何落地,而无论黑猫白猫,能抓到老鼠的就是好猫。”
邱迪聪
进军 Learning
在学术研究是否转向数据驱动的学习方法的十字路口,CMU机器人研究所(RI)中也有学者选择了不同的道路。
2017年夏,林星宇从北京大学信息科学系毕业,进入 CMU 读博士学位。本科阶段,他主要研究三维视觉。然而,在实时观看AlphaGo战胜李世石的比赛后,他深受启发:基于搜索的机器学习算法不仅能够创造自己的策略,还可能推动通用人工智能(AGI)的实现。
林星宇意识到,这种算法的潜力不应仅限于棋赛或游戏,而应应用于更实用的领域——机器人。
此时,机器人学与强化学习的交叉领域尚处于起步阶段。伯克利人工智能实验室(BAIR)刚成立,全球从事此方向的研究者尖指可敲。恰逢此时,CMU机器人研究所进入了一位新加入的助理教授——刚从伯克利Pieter Abbeel组完成博士后的David Held。
林星宇被David的研究吸引,主动联系了进一步面谈。两人在第一次见面时一拍即合,就样本效率、从图像中学习奖励函数等关键问题展开了深入讨论。几天后,林星宇正式加入研究团队,成为了David的大弟子。
初入实验室时,林星宇开发了一种新算法,通过增加探索奖励,使强化学习智能体能够快速适应新环境,无需人工干预。
2017年圣诞前夜,在空荡荡的校园里,他独自进行实验。当实验首次取得成功时,他激动得从凳子上跳了起来。这部分科研成果的发表之路却比较坎坷,几次被会议拒稿后才发表在ICRA上。
在这个过程中,林星宇感到了些许挫折,但逐渐意识到了在机器人领域,有影响力的工作最终需要体现在学习新的机器人技能上。
林星宇
到2020年博士三年时,林星宇开始研究机器人对柔性物体的操作。
机器人操作领域对学习算法的态度仍存在疑虑:传统方法在处理复杂任务时表现出艰艳,研究者不理解为何要转向数据驱动的强化学习算法。
面对这种疑问,林星宇决定创建一个针对柔性物体的Benchmark,这也是该领域的首个此类基准测试。
“柔性物体的研究使机器人学更加完整。传统机器人学假设操作对象是刚性物体,并在此基础上做出了对物体状态估计和动态估计的各种假设。柔性物体的操作挑战几乎打破了所有这种假设,是构建通用机器人的必经之路。” 林星宇解释他聚焦柔性物体的原因,“假如这能解决,就相当于解决了最难的方向,能以相同的算法或系统解决其他机器人任务,把成果迁移过去。
通过多种算法试验,林星宇发现一种简单的搜索算法——Cross-Entropy效果卓越。该算法基于试错优化动作,其关键假设是:如果有仿真器能够预测动作结果,就可以通过简单的优化方式选择最佳动作,无需依赖对复杂动力学的强化学习。这一发现使他认识到,学习世界模型或动力学是机器人学中最基础也是最困难的任务。
此后,他将研究重点转向数据驱动的方法,通过将柔性物体视为粒子集合,借助图神经网络模拟粒子间的相互作用和动态,为机器人完成复杂任务(如平整痕褶衣物)提供了可能性。
林星宇的博士研究逐渐聚焦于构建柔性物体的世界模型。
他认识到,领域内真正缺乏的是具有挑战性的任务,而非传统方法也能解决的简单问题。通过建立Benchmark,他进一步意识到数据驱动的核心在于预测和动力学建模,一旦掌握了动力学建模,优化就相对简单,可以通过搜索不断提升模型的能力。
“从这个角度,机器人领域走在了自然语言前面,因为语言模型是从预训练ma慢慢走向测试时计算(Test Time Computing),而机器人作为一个决策任务,从一开始就必须要做搜索。”林星宇认为,在处理复杂任务和实时决策方面,机器人可能比语言模型更早地面临和着手了类似的挑战。
除了林星宇的博导David Held外,CMU RI中的两位印度教授、Skild AI创始人Abhinav Gupta和Deepak Pathak在AI+Robotics领域也十分活跃,但后者比较年轻,2020年9月才入职,所带的博士生们都尚未毕业。
资深的Abhinav Gupta涉猎领域广泛,多做视觉,也涉及机器人学与语言,是现UCSD助理教授王小龙的博导。
2014年,王小龙从中山大学来到CMU读博,延续硕士时师从林倞的研究,继续做计算机视觉,利用视觉数据的冗余性进行深度学习的无监督学习和视频识别。
读博期间,王小龙曾在FAIR实习,由何恺明和Ross Girshick指导,在CVPR 2018发表了了非局部神经网络(Non-local Network)的工作,通过其创新的全局上下文聚合和自注意力机制,在视频分类、语义分割、目标检测等多个领域内提升了模型的性能,并且由于其计算效率高和易于集成的特点备受关注,至今引用量已近1.2万。
2018年,随着导师Abhinav创立了Facebook的匹兹堡实验室与机器人组,王小龙也开始接触机器人导航、操作等相关研究,并在ICLR 2019发表了自己的首个RL+Robotics的工作。
这是关于将语义先验知识融入语义导航任务的研究。人类能利用多年来建立的语义或先验知识来高效搜索和导航,比如找杯子时会搜索咖啡机附近的橱柜,找水果时则会查看冰箱。为了让机器人具备相似的导航能力,王小龙通过融合语义先验知识到深度强化学习框架中,利用图卷积网络提升智能体在新场景中导航至目标物体的性能和泛化能力。
2019年9月,博士毕业的王小龙在BAIR做了一年博士后,受Alexei Efros和Trevor Darrell指导,期间也和彼时在OpenAI的吴翼一起指导过多智能体强化学习的论文。
次年7月,王小龙加入UCSD视觉计算中心任教,带领实验室研究视觉与机器人技术,后者侧重于研究机器人手部操作、腿部移动的学习和低层控制(Low-level Control)。
王小龙
除了王小龙外,在CMU从视觉切入具身智能的研究者还有梁小丹与仉尚航。
梁小丹2013年起在中山大学读博,是林倞的首位博士生,和王小龙是同门。
博士期间,梁小丹主要研究人物解析,提出的库在当时是人物解析领域最大的,连续五年举办的workshop和比赛也吸引了众多参与者,许多人像分割、解析和编辑的研究也都基于其方法和数据。在分割算法后,因导师对复杂推理特别感兴趣,梁小丹就转向推理相关的研究。
视觉研究更侧重于解决具体问题,如架构和图像模型的构建及因果关系的分析,她在申请博士后时希望体验不同技术方向,特意选择了与之前导师关联甚少的邢波(Eric Xing),想在CMU的机器学习系(MLD)开阔视野,探索底层和基础问题。
邢波也希望有些偏视觉的工作,梁小丹便在2016年7月来到CMU,成为当时组里唯一一个视觉方向的博士后,延续图像分割的工作。
在CMU,梁小丹主要做机器人视觉语言导航。从软到硬的转变十分丝滑,让机器人到达某位置最关键的是视觉导航,而视觉导航再往下就是对场景的分割理解、物体检测问题,就是自己的老本行。
“很多分割算法都被用在搜索或编辑中,但跟机器人交互其实是非常自然的过渡,所以就是从 2D 走到 3D 世界和机器人交互。”
在梁小丹看来,具身智能并非从天而降,“30年前SLAM也可以理解为具身智能,而现在的具身智能考虑落地应用,普遍认为抓取很难,SLAM等导航算法非常成熟,其实是上一代的技术已被应用,现在开始想下一代的应用场景,探索下一代的技术。”
梁小丹
2018年底,在婉拒OpenAI、CMU与腾讯AI Lab等多个offer后,梁小丹回到母校中山大学任教。回国后,梁小丹也开始接触真机,并与智能工程学院里的同僚们合作交流,特别是擅长硬件与控制的同事。
目前,梁小丹正带领团队做具身大模型,希望把多模态大模型加上3D感知能力,做具身智能领域的GPT-4o。
此外,为了改善之前仿真环境缺乏真实感和细节的问题,梁小丹团队还发布了仿真平台InfiniteWorld,能通过简单拍照将现实场景如咖啡厅等精确复制到虚拟环境中,实现物品的交互功能,以促进机器人在复杂环境中的泛化能力。
“以前的仿真平台场景不太真实,也缺少纹理,因为在真机上训练测试性能不佳,很少能被机器人厂商使用,所以首先得把虚拟环境的真实感提升上去。”
仉尚航也是在2013年开始读博,她从北京大学读完研到CMU,收到了博导José Moura教授(美国工程院院士、美国发明院院士、IEEE/AAAS Fellow、前IEEE主席)给的难题:对整个纽约市各路口监控视频中的车辆进行检测计数与流量分析。
面对缺乏具体数据集和思路的挑战,仉尚航自己定义研究问题,开启了领域自适应(Domain Adaptation)的研究。此时正值深度学习初兴之际,经过调研后,她提出了基于深度学习的解决方案。刚开始时,José不太信任此方法,在她汇报时经常一句接一句地提出质疑,让她不停在白板上推公式。
因导师坚持采用非深度学习方法低秩回归(Low Rank Regression),仉尚航便采取了一个工作量倍增但“两全其美”的解决方案:对同一个问题和同样的数据,同时设计深度学习和非深度学习两种方法进行研究,一年后均取得成功并发表在CVPR上。经历了该工作从问题定义到数据收集与标注,从传统机器学习方法到深度学习方法的完整过程,仉尚航的科研能力得到了很大提升。
此后,José就对她特别信任和赞赏,无论她提出什么想法,总会频频点头认可、大力称赞,在此鼓励下,她愈发敢于探索新方法、尝试新研究,后来做科研也越来越顺利,产出也越来越多,沿着模型泛化、领域自适应、有限样本学习的方向继续推进。
此时正是自动驾驶的火热时期,仉尚航也通过高通创新竞赛将研究场景从车辆检测计数过渡到自动驾驶,并使用深度学习方法研究自动驾驶的泛化视觉感知,关注领域自适应和有限样本学习的难题。
因其一直对机器人方向很感兴趣,来CMU的最大动力也是因为其RI久负盛名,读博期间,她经常跑到RI与在Matthew T. Mason组做博士后的北大师兄万伟伟(现大阪大学副教授)和在John Dolan组读博的董驰宇、许闻达探讨,也发表了一篇关于机器人操作的工作。
仉尚航
2018年博士毕业后,仉尚航来到了“梦寐以求”的湾区,在Eric Xing的创企Petuum做了一年科研后,更加坚定了做教职的决心,就来到伯克利的 Berkeley AI Research Lab(BAIR)做了两年博士后,在Trevor Darrell和Kurt Keutzer的指导下进行开放世界泛化学习的研究,包括领域自适应、零样本学习等,主要应用场景是自动驾驶。
Trevor是BAIR的Director,同时和Kurt一起带领Berkeley Deep Drive,在伯克利期间,仉尚航参与了DARPA、BDD等多个项目并和多位教授展开合作,此经历成为她日后担任教职的重要基石。
一直以来都有教职梦的仉尚航,经历了湾区的工作和伯克利的博士后研究后,更加坚定了回国任教的决心。而且她惊喜地发现教课、做报告和登台主持有异曲同工之妙,能满足自己曾经有过的媒体梦(她很喜欢主持,曾在CMU多次担任过华人春晚主持人)。
博士导师José十分支持她的决定,其妻子Manuela Veloso是CMU RI教授与RoboCup创始人之一,IEEE/AAAS/ACM/AAAI Fellow,曾任CMU Machine Learning Department Head,也很关注她的研究,专门参加她在CMU的博士答辩,对其很欣赏,夫妻二人在给她的教职推荐时赞扬“尚航能去世界上任何一所TOP10大学”。
现在想起José、Kurt和Trevor三位老师的指导和鼓励,以及Manuela的支持,仉尚航还很感动,正是这些优秀的学者给她树立了榜样,让她坚定了踏实科研、勇于探索、教书育人的决心。
2022年初,仉尚航回到北京大学任教,加入了硕士曾就读的计算机学院视频与视觉技术国家工程研究中心,办公室就在当年读研的工位旁,让她更有“勿忘初心,方得始终”的归属感。加入北大后,她开始专注于具身智能领域的研究,将之前在自动驾驶、泛化学习、多模态大模型方向积累的经验转化到具身智能研究中,在此方向迅速成长。
今年夏天,仉尚航还成为北京智源人工智能研究院的智源学者,带领具身多模态大模型研究中心专注于面向具身智能的多模态大模型与大数据构建,目前正在研究4D世界模型。她于近期发布了大规模多构型智能机器人数据集RoboMind,是世界上集中采集的最大规模数据集,捕捉机器人面对复杂环境、长程任务时的各种交互和经验,从而促进能够掌握不同操作策略的通用模型的训练。RoboMIND包含5万5千条机器人轨迹数据,涉及279项不同的任务,涵盖了高达61种不同的物体,覆盖了家居、厨房、工厂、办公、零售等大部分生活服务场景,将打造具身智能领域的ImageNet时刻。
系统见长
2014年秋,走进地下负一层没有窗户的生物机器人实验室,龚超慧得知了自己的蛇形机器人工作登上《Science》杂志的好消息。
四年前,2010年,龚超慧从哈工大毕业来到CMU RI读博。下属计算机学院的 RI 做机器人较偏算法化,在机器人算法三要素感知规划决策的闭环系统颇有建树。
在各实验室轮转上课时,龚超慧意识到,机器人自动化远比自己的机械式理解更广泛,除了预设程序与硬件外,不仅包括通过传感器进行感知和数据采集,还涉及到基于数据的智能化控制和复杂规划。
对规划着迷的龚超慧决定加入此领域顶尖学者Howie Choset的小组。Howie除了在RI任教外,也是生物医学工程、电气与计算机工程的教授,研究蛇形机器人、工业机器人与医疗机器人。
第一次正式见面时,龚超慧在Howie的办公室磕磕绊绊地分享了自己对规划的一些基础研究和文献调研工作,感受到他的热情后,Howie建议龚超慧尝试参与组内课题。在蛇形机器人平台上进行软件开发并迅速取得研究成果后,龚超慧顺利开启了PhD阶段,成为了Howie的首位华人学生。
龚超慧
进组后,龚超慧有两个并行项目:一是研究蛇形机器人的运动,如控制转弯、行进方向;二是定位和建图的 SLAM 项目, 基于拓扑学的数学理论,研究如何通过机器人之间的信息交互,包括不断设计新的行进方向,快速地把未知环境的拓扑结构描述出来。
龚超慧从本科就开始“手搓”机器人,跟周谷越(清华AIR副教授、前大疆CV总监)同为哈工大机器人队的主力成员。此前龚超慧的做事方式偏工程化,喜欢去实现机器人的某个功能,Howie却告诉他,如果要成为一个PhD,必须对能认知、改变世界的方法论上形成新的观点和突破,否则只是位工程师。
因此,龚超慧的研究核心放在了高维度数学空间的规划问题,即如何找到最优解。
假设机器人有无穷个关节,那面对无穷个自由度,该如何控制变量才能让它形成有效运动的最低能量,且运动速度最快?
这其实是一个非常抽象的数学问题,所以在做研究时,龚超慧接近数学方法论,专注于在高维空间中寻找高效的低维子流形(Submanifold)。通过降低机器人的维度,在更低维的空间中快速进行计算,并利用这一理论框架,研究生物和机器人的运动,从高维统计数据中提取低维特征和模式。
导师Howie对学术有着近乎变态的苛刻,对于任何一个公式的推导,每个上下角标是否准确,每项异常数据如何解读归因,都要求严谨准确。在他的指导下,龚超慧陆续在机器人顶会ICRA、IROS以及《科学》杂志和美国科学院刊上发表论文。
到博士后期时,龚超慧开始对广义机器人的规划与任务分配软件感兴趣,认为AI 和 Robotics 技术会在制造业里有广泛应用的机会,“工业 4.0让物理实体设备具有结合数据技术使其更智能化的机会,而设备智能化后也是一种机器人。”
因此,龚超慧在2016年初继续留校做博士后,除了收尾PhD时的工作外,也开始把研究重点往智能制造的方向转变。
在每周五下午的午餐会上,RI各组学生都会聚在一起喝咖啡闲聊,龚超慧结识了小两届的周佳骥,二人常讨论机器人的商业化问题。
周佳骥本科毕业于东南大学吴健雄学院,2012年来到CMU读研,次年在RI开启其博士阶段,师从Matthew T. Mason与视觉教授Drew Bagnell,研究抓取操作与视觉感知规划。
2016年,周佳骥发表的平面滑动运动模型工作获得了当年ICRA全会最佳论文,成为了ICRA创办30年来第三位以第一作者身份获奖的华人。
周佳骥与Matthew T. Mason
在两位学术成果颇为优秀的年轻人中,更早产生创业念头的是龚超慧。每次讨论机器人时,周佳骥更关注深入的学术问题,龚超慧则更关注应用场景。
彼时富士康到美国找研究团队合作,VP戴佳鹏资助了龚超慧团队,龚超慧就开始研究如何让生产更柔性和智能,包括生产设备网络化、智能化后的集群管理,以及AGV等设备有移动能力后的调度来连接生产环节。
在同富士康交流的过程中,龚超慧发现,制造业中传统的管理方法、技术都有大量的信息不对称,在数据的全面性、运算的智能化、计算能力都有瓶颈,生产线上大量设备也没有自适应能力,导致生产效率不足。
看到产业机会后,此前认为自己肯定会走学术路线的龚超慧向Howie提出了自己的创业计划。Howie非常惊讶,没想到龚超慧会在学术做得不错、有教职机会的情况下,还想要创业。
龚超慧向Howie解释,学术研究存在的目的是解决实践中遇到的问题,把它抽象出来突破,但既然部分机器人和AI 结合的技术已经到了可以工程应用和产业化的阶段,更大的机会和空间应该在产业界而非学术界中。
龚超慧的想法得到了Howie的认可,再加上当时组里的硕士生任中强(现上海交大AP),师徒三人于2017年1月在匹兹堡一起成立了宾通智能(Bito Intelligence)。
很快,周佳骥也决定创业。他与在麻省理工大学(MIT)读博的俞冠廷相识,后者师从操作与机制实验室负责人Alberto Rodriguez,曾作为技术架构总负责人带领MIT-Princeton联队在2015-2017连续三年参加亚马逊拣选挑战赛,均获全球前三,并且获得2017年装载任务冠军。
通过亚马逊挑战赛,他们意识到视觉拣选领域已接近可商用化的程度,便于2018年4月在波士顿一起创办了星猿哲(XYZ Robotics),为物流及工业自动化提供更好更快的机器人解决方案,周佳骥的导师Drew Bagnell也参与了种子轮的投资。
不难发现,两位CMU学子对产业机会极其敏锐,果断抓住了机器人的第一波创业机会。伯克利的Pieter Abbeel与三位华人学生成立的Covariant,也是在同一时期诞生,并同样以物流场景起步。(伯克利故事详见https://mp.weixin.qq.com/s/iqiKeMgGIsCuvoNtyi-yaw)
说起各高校的机器人人才,业内普遍认为,若想让机器人达成商业目标、落地,CMU是首选,若关注具体算法,则选伯克利和斯坦福。
据罗瑞琨介绍,CMU 学子多对机器人工程落地的全链条有系统性认知,从课程体系起,就要求学生除了必修数学和本专业外,感知、规划、运动各方向都上够学分,了解机器人整个系统。而且工程师和科学家协作制度完善,教授也分研究型和工程型两类;RI 虽属计算机学院,但却很重视跨学科交叉,吸收了很多机械工程、电气工程等专业的学生一起科研做项目,而非以单一的计算机专业为主。
2012年,罗瑞琨毕业于清华的机械工程自动化系,来到CMU读研。起初他打算申博研究纳米机器人,后因联系的教授在欧洲,面试安排不定,担心错过截止日期的他就先接受了硕士项目的录取。
因对人机交互感兴趣,罗瑞琨加入了做多智能体与高层次规划的Katia Sycara小组,研究人体动作学习和预测,通过结合动作识别和活动学习,优化学习的准确性,并预测下一步行为。此方向当时非常热门,其应用前景包括使机器人能预测人类行为,从而决定自己的行动,例如帮助做家务和做饭。
罗瑞琨
Katia不会干预学生的研究兴趣,但对论文写作尤为细致,带着罗瑞琨从头到尾改完了他的第一篇论文。项目资金结束后,罗瑞琨又做了点 SLAM 及多智能体的工作,便在14年顺利毕业了。
在伍斯特理工与密歇根大学读博期间,罗瑞琨专注于人机协作的实际应用,如工厂中的共同作业、问题检查和装配协助。他曾与苹果供应链专家探讨,发现机器人执行效率低,不如全自动化或人工作业,许多需求在实际应用中不切实际,是伪需求。
权衡过各类机会后,罗瑞琨以CTO的身份在2021年加入创企木牛机器人。他认为,过往积累的机器人交互的多领域知识、实践经验与对系统的了解,在大厂难以充分发挥优势,聚焦工业场景落地的木牛更适合自己,加入后带队开发了一套从伺服驱动控制到上层感知决策的底层框架。
新与旧共舞
今年10月,特斯拉「We,Robot」发布会上,人形机器人TeslaBot(前Optimus)列队出场,化身“酒保”走入人群调酒、猜拳、合照、蹦迪,现场俨然成为了一场赛博大派对。
发布会后,杨硕站在TeslaBot旁,和它合照了一张。
就在去年3月,即将博士毕业的杨硕看到Optimus项目在扩张,便在领英上与团队取得了联系。很快,HR发来了面试邀请,在两轮现场手写C++代码和推公式的面试后,杨硕拿到了offer。
可以说,读博时精进的工程能力,让杨硕具备独自完成推公式、仿真、做硬件、上真机实验、处理数据全流程的能力,特别是对C++解决机器人控制和估计的钻研,使他成为了最匹配的候选人。
特斯拉让杨硕尽快入职,导师Zach了解情况后非常开明地同意了,让杨硕努努力再整理投出一篇论文即可毕业。 7月,杨硕正式加入,参与机器人控制核心算法模块的开发。
今年初,团队发现第二代Optimus机器人的一项关键指标需远超行业标准才能稳定运行。一次双周会议上,Elon Musk对项目进展表示不满。会后,杨硕主动提出在十天内开发一个新的算法模块,两千行代码加上后情况迅速有改善,便在下次会议上向马斯克现场演示。
在特斯拉的一年半里,杨硕慢慢转移到用深度学习、AI 的方法做机器人,过往对传统机器人学的理解让转变十分丝滑。
除了杨硕,侯一凡对新方法的态度也发生了转变。
2021年博士毕业时,侯一凡认为科研问题已解决,自己完整的操作方案需要在实际场景中验证效果,便加入了有着世界上最大的操作场景的亚马逊机器人部门,研究物流场景中的储存任务,负责自动化存储过程中的柔性控制和运动规划设计。
在亚马逊的三年间,侯一凡意识到自己提出的解决方案效果不错,但受限于建模的需求,在应对不断出现的新场景(长尾效应)或者难以预先建模的家庭服务类场景时往往需要巨量的工程投入来解决。因此,如何在模型质量高度不确定时提高操作的成功率和效率,成为一个全新的挑战。
一直关注着学术进展的侯一凡发现,机器人学习已进入激动人心的阶段,尽管目前成果距离解决实际问题还有很大差距,但已完成了从0到1的转变,让非机器人背景的人也能快速做出demo。
不过,侯一凡认为,在接下来的5年或更长时间内,学习方法仍无法替代某些问题的最佳解决方案,特别是在机器人需要快速、高成功率地应对高度不确定场景时,因为这些问题用模型来处理更容易获得可预测,解释和调节的结果。
他意识到,后续想让demo变得通用和鲁棒既需要机器学习的泛化能力,也需要对机器人问题的理解和分析——机器人学习与传统机器人学的结合有巨大的机会,而探索这些机会的最佳场所是学校,而非工业界。
侯一凡读博时,因参加亚马逊挑战赛的MIT-普林斯顿队中有导师Mattew的学生Alberto Rodrigue,双方交流密切,就此认识了队里的宋舒然。
加上近些年自己最喜欢研究都来自其团队,考虑重返学术界时,侯一凡便联系了宋舒然,两人讨论非常投机,侯一凡就在今年3月来到斯坦福做博士后,依旧沿着解决操作的主线。
“以前认为解决操作的方法和学习关联不大,所以做模型和优化,随着对问题的了解和不同方法的演化,现在觉得是基于模型与learning的结合。”
同样支持两者结合的邱迪聪,在2018年硕士毕业后,先进入了更成熟的自动驾驶领域。
他同时接到了英伟达与MIT创企ISee的offer,在面对他“公司要做什么”的提问时,双方给出了不同的答案:英伟达想构建一个能在特定场景下工作的自动驾驶系统;ISee则致力于开发具有人性化思考的AI,目标不仅是自动驾驶。
ISee的愿景更符合邱迪聪的规划,在他看来,自动驾驶是当时最接近智能化机器人的实例,其他技术要么不够先进,要么虽能落地但缺乏革命性。
三年后,邱迪聪又先后加入了如祺出行与PIX Moving,负责搭建自动驾驶团队,探索商业化落地。到了23年4月,在意识到开放推理能力开始有解决方案后,邱迪聪与CMU LTI(语言技术研究室)的师兄梁俊卫合作,共同创立了雅可比机器人,采取轮式方案,重点在操作以及机器人对开放世界和开放物品的理解。
雅可比以商超为切入点,下一步是餐饮服务、办公场景,最终进入到养老以及家庭场景。“这样每个场景积累的知识和经验能直接应用于新场景,比如机器人在商超场景中学会识别锅碗瓢盆等物品,当转移到餐饮场景时,如清理餐桌,就已具备基础能力,几乎无需额外专用化投入,甚至能实现零样本迁移。”
至于一开始就笃定learning路线的林星宇,则在2022年从CMU毕业。答辩前,David Held专门开了个告别组会,让林星宇给学弟学妹们分享建议,还把二人的邮件往来与合照放在一起,配文“this is how we started”。
林星宇来到伯克利在Pieter Abbeel的组里做博士后,从博士期间注重解决不同任务,如柔性物体的一个个建模,转变为做更通用的基础模型,研究如何利用基础模型让任务更通用,以及构建一个属于机器人学的基础模型。
在伯克利,林星宇和高阳的学生汶川合作,利用互联网人类视频训练机器人大模型,发表了RSS 2024的满分论文。
林星宇发现,许多视频预测模型专注于纹理的真实感,却忽略了物理真实性,就提出了学习微粒轨迹模型的想法,用于预测空间中每个点随时间变化的轨迹。例如,当拿起并倾倒一杯水时,杯中水的微粒会沿着不同的路径移动。最重要的是,这一模型能够直接从视频数据中学习。
今年8月,OpenAI风传已久的机器人组终于重启,林星宇成为了创始成员之一。
OpenAI成立初期,机器人技术就是其主攻方向之一,联创Wojciech Zaremba领导的团队最初试图打造一个通用机器人,并在2019年发表了一篇工作,分享了他们如何训练神经网络使用单只机械手复原魔方。但在2020年10月,因缺乏训练数据,机器人组解散。
加入OpenAI重整旗鼓的机器人组,林星宇经过了不短的思考:首先,OpenAI有研究机器人的经验,重启说明时机已经成熟;再者,产业界研究能比学术界更易于拓展。
更重要的是,很多机器人学的问题在于boot strapping(自举,指机器人或AI系统通过自我学习和自我改进来提高其性能和能力),缺乏数据导致系统性能不佳,无法产出产品,数据积累陷入停滞,形成恶性循环——视觉语言模型能有效缓解这一问题,而OpenAI拥有最顶尖的视觉语言模型。
来到OpenAI,林星宇将继续探索机器人基础模型,“我一开始是想训练一个模型做好可变形物体的任务,但逐渐发现真正需要的是海量数据,需要不同数据间有各种积极的迁移转化,最终希望有一个模型来理解物理、空间来完成各种任务。”
结语
站在是否转向的十字路口,没有all in机器人学习的CMU似乎慢了一步。
与从纯仿真出发、始于图像或游戏的模式不同,工业合作伙伴众多的CMU携带着工程师基因,对解决实际问题习以为常,做项目的重要意义之一就是将技术真正应用于某个具体场景中。
可以说,如果将机器人学的研究工作分为0-1(概念创新)、1-99(技术发展)和99-100(产品成熟)三个阶段,CMU更擅长1到99%的推进,甚至能够制造出接近实用的高完成度机器人。
除了擅长实际工程落地外,CMU的强项还在于对基础问题以及整个系统的深入理解。凭借对传统方法的深厚积累,CMU人才们能够轻松而顺畅地过渡到基于学习的方法。
杨硕、林星宇、王小龙、仉尚航、梁小丹、龚超慧、周佳骥、罗瑞琨、侯一凡、邱迪聪......成长于基于模型方法的CMU一派,用“传统机器人学”搭起坚实地基,以学习为梯,让机器人迈向了下一个阶梯。
在具身智能产学结合紧密的趋势下,补上学习拼图后的CMU派系,逐渐从传统走近了全面。
此刻的他们,正搭建着下一块台阶。