AI在线 AI在线

AlphaDrive

地平线提出AlphaDrive,首个基于GRPO强化学习和规划推理实现自动驾驶大模型

OpenAI 的 o1 和 DeepSeek 的 R1 模型在数学,科学等复杂领域达到甚至超过了人类专家的水平,强化学习训练和推理技术是其中的关键。 而在自动驾驶,近年来端到端模型大幅提升了规划控车的效果,但是由于端到端模型缺乏常识和推理能力,在处理长尾问题上仍然效果不佳。 此前的研究尝试将视觉语言模型(VLM)引入自动驾驶,然而这些方法通常基于预训练模型,然后在驾驶数据上简单的采用有监督微调(SFT),并没有在训练策略和针对决策规划这一最终目标进行更多探索。
3/23/2025 3:37:00 PM
机器之心
  • 1