AI在线 AI在线

让机器人在人群中穿梭自如,港科广&港科大突破社交导航盲区 | ICRA 2025

作者:量子位
2025-04-02 09:50
机器人落地复杂场景,社交导航能力一定是避不开的关键一点。 先简单介绍下,社交导航 (SocialNav,Social navigation) 是指在人机共存的环境中,机器人在遵循社会规范的前提下执行导航任务。 就拿下图来说,机器人需导航至目标点,而目标恰好位于两名行人未来轨迹的交汇区域。

机器人落地复杂场景,社交导航能力一定是避不开的关键一点。

先简单介绍下,社交导航 (SocialNav,Social navigation) 是指在人机共存的环境中,机器人在遵循社会规范的前提下执行导航任务。

就拿下图来说,机器人需导航至目标点,而目标恰好位于两名行人未来轨迹的交汇区域。

它不仅要灵活避免潜在的碰撞风险,还需与行人保持合适的社交距离。

图片

总而言之,社交导航该任务对视觉导航领域提出了独特挑战:

预建地图的方法难以适应人群密集的动态环境,而现有RL方法存在短视决策和依赖全局信息的问题。

近期,香港科技大学(广州)和香港科技大学联合提出了一种新算法,Falcon

它通过将轨迹预测算法融入社交导航任务中,实现长期动态避障并提升导航性能。

图片

社交导航的另一个重要挑战则是现有基准的真实性不足

如下所示,现有基准通常存在以下几方面的局限性:

  • 场景复杂性不足:仅关注机器人与人类的交互,而忽略场景本身复杂性。
  • 人类行为不自然:行人动作僵硬、运动模式失真,难以反映实际场景交互。

图片

针对上述局限性,研究团队构建了两个新数据集——Social-HM3D 和 Social-MP3D,作为社交导航任务的新基准。

该项目论文已被ICRA 2025接收,同时已经挂上arXiv。

代码和模型权重可到GitHub寻找。

图片

Falcon:集成轨迹预测辅助任务的强化学习框架

Falcon算法框架由2个模块组成:

  1. 主策略网络 (MPN,Main Policy Network)
  2. 时空预知模块 (SPM,Spatial-temporal Precognition Module)

图片

主策略网络:让机器人学会“遵守规则”

模块一,主策略网络,这是Falcon的“大脑”,负责指导机器人如何行动。

其核心是社会认知惩罚(SCP,Social Cognition Penalty)机制,通过设计专门的惩罚函数,避免机器人干扰人类未来轨迹,从而引导智能体规避碰撞风险并保持社交距离。

具体而言,Falcon引入三个关键惩罚项:

  • 障碍物碰撞惩罚 :严厉惩罚机器人撞到静态障碍物或行人。
  • 人类接近惩罚:当机器人靠近行人时,随距离减小增加惩罚。
  • 轨迹阻碍惩罚:如果机器人干扰行人未来路径,则提前施加惩罚。

时空预知模块:让机器人学会“提前规划”

模块二,时空预知模块(SPM),结合轨迹预测与多种社交感知辅助任务,显著增强了机器人对未来环境动态变化的预测能力。

其主要功能包括:

  • 人类数量估计:预测场景中有多少人,帮助评估环境复杂程度。
  • 当前位置跟踪:实时跟踪行人位置,快速响应变化。
  • 未来轨迹预测:预测未来几秒行人路径,提前规划避障。

关键在于,辅助任务仅在训练阶段使用

在推理阶段,机器人仅依赖主策略网络进行决策。

这种设计简化了推理过程,确保模型在实际应用中的高效性。

特意构建两个新的数据集

现有社交导航基准存在诸多不足,如场景过于简化、人类行为不自然等。

以下表格为现有的社交导航模拟器与数据集统计特性对比:

图片

为弥补这些缺陷,研究人员构建了两个新数据集——Social-HM3D和Social-MP3D,具备以下优势:

  • 真实场景重建:基于高精度3D扫描,涵盖公寓、办公楼、商场等多种室内场景。
  • 自然人类行为:采用多目标导向的轨迹生成算法和ORCA动态避障模型,模拟人类行走、休息等自然行为。
  • 合理人群密度:根据场景面积动态调整人类数量,确保交互密度适中。

研究团队表示,这两个基准既平衡了人机交互的社交密度,同时也避免了过度拥挤。

图片

这一基准为社交导航研究提供了更贴近真实场景的评估环境,并且支持推广到有人环境下的物体导航、图像导航等下游任务。

实验部分

在定量分析方面,实验表明,Falcon在目标达成和社会合规方面表现出色:

其一是目标达成

在Social-HM3D中达到55.15%的成功率和成功路径效率(SPL,Success weighted by Path Length)。

即使在未训练过的Social-MP3D数据集上,也能取得55.05%的成功率。

其二是社会合规

在保持社交距离和避免碰撞方面表现良好,达到接近90%的个人空间合规性(Personal Space Compliance, PSC)和接近42%的人机碰撞率。

图片

定量结果表明,Falcon不仅在已知环境中表现出色,还能有效适应未见过的复杂动态环境。

在定性分析方面,下图的定性结果展示了Falcon在不同典型场景中的优越性——

第一个是人员跟随情境。

Falcon通过预测行人未来轨迹,主动调整速度和路径,保持安全距离。

图片

第二个是复杂交叉路口。

面对行人和静态障碍物同时存在的场景,Falcon提前预测并规划出安全高效的路径。

图片

第三个是正面接近情境。

传统的RL算法Proximity-Aware试图直接从行人面前穿过导致碰撞,Falcon通过预测行人未来轨迹,提前调整路径并安全避开。

图片

3个关键发现

各项实验后,团队有了三个关键发现:

发现1,未来感知算法优于以往实时感知算法。

静态路径规划算法(如A*)无法适应动态环境,而实时感知方法(如ORCA和Proximity-Aware)虽能被动避障,但仍存在延迟反应问题。

相比之下,Falcon能够主动预测行人轨迹并提前调整路径,显著提升了安全性和效率。

发现2,辅助任务有助于提高性能,其中轨迹预测最重要。

下表展示了不同辅助任务对导航性能的影响。

其中轨迹预测(SPM.Traj)效果最为显著,成功率从40.94%提升至54.00%。

图片

发现3,SCP和SPM相辅相成,改善性能并加快训练收敛。

下图图中为消融研究中的训练曲线。

可以观察到,具有SPM和SCP的完整Falcon模型收敛更快,性能更好。

图片

SCP在提升模型性能方面发挥关键作用,尤其是与SPM集成后,整体性能进一步提升(从53.63%提高至55.15%),并加快训练收敛速度。

项目主页:https://zeying-gong.github.io/projects/falcon/论文链接:https://arxiv.org/abs/2409.13244代码链接:https://github.com/Zeying-Gong/Falcon

相关标签:

相关资讯

稚晖君机器人“葡萄缝针”神技再现江湖,这次是人形的!骑自行车惊呆众人:又抽象又硬核

刚刚! 鸽了两年之后,稚晖君罕见更新视频——上线号称史上最复杂项目灵犀X2,能够像人一样灵动地骑自行车。 评论区早已经是听取哇声一片。
3/11/2025 1:19:26 PM
量子位

阿里云通义大模型新技术:MoE模型训练专家平衡的关键细节

本周,在阿里云通义千问 Qwen 团队提交的一篇论文中,研究人员发现了目前最热门的 MoE(混合专家模型)训练中存在的一个普遍关键问题,并提出一种全新的方法——通过轻量的通信将局部均衡放松为全局均衡,使得 MoE 模型的性能和专家特异性都得到了显著的提升。 论文:《Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models》论文链接: 模型训练中的关键问题混合专家模型(MoEs)通过路由机制动态并稀疏地激活模型参数,使得能高效地增大模型参数规模。 基于 TopK 机制的稀疏激活会在训练中会遇到专家激活不均衡的问题:少数被频繁选择的专家会被优化得更多,进一步使得这些专家被更频繁地选择,最终导致只选择少数专家,造成剩余专家的冗余。
1/24/2025 2:19:21 PM
机器之心

快手发布DragAnything,拖动锚点精准控制视频物体和镜头运动,视频运动控制技术革命性更新

快手联合浙江大学、新加坡国立大学发布了DragAnything ,利用实体表示实现对任何物体的运动控制。 该技术可以精确控制物体的运动,包括前景、背景和相机等不同元素。 该项目提供了对实体级别运动控制的新见解,通过实体表示揭示了像素级运动和实体级运动之间的差异。
2/5/2025 10:30:00 AM
AIGC Studio