LVLM赋能端到端！地平线&华科联手打造更强自动驾驶系统Senna！

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解近年来，自动驾驶技术发展迅速，在驾驶感知、运动预测、规划等领域取得了重大进展，为实现更准确、更安全的驾驶决策奠定了坚实的基础。其中，端到端自动驾驶技术取得了重大突破，端到端方法以大规模数据为基础，展现出卓越的规划能力。

本文经自动驾驶之心公众号授权转载，转载请联系出处。

写在前面&笔者的个人理解

近年来，自动驾驶技术发展迅速，在驾驶感知、运动预测、规划等领域取得了重大进展，为实现更准确、更安全的驾驶决策奠定了坚实的基础。其中，端到端自动驾驶技术取得了重大突破，端到端方法以大规模数据为基础，展现出卓越的规划能力。此外，大型视觉语言模型已经表现出越来越强大的图像理解和推理能力。通过利用其常识和逻辑，LVLM 可以分析驾驶环境并在复杂场景中做出安全的决策。利用大量驾驶数据来提高 LVLM 在自动驾驶中的性能并连接 LVLM 和端到端模型，对于实现安全、稳健和可推广的自动驾驶至关重要。

端到端自动驾驶的常见做法是直接预测未来轨迹或控制信号，而无需决策步骤。然而，这种方法可能会使模型学习更加困难，同时缺乏可解释性。相比之下，当人脑做出详细决策时，由分层高级决策和低级执行组成的系统起着至关重要的作用。此外，端到端模型通常缺乏常识，在简单场景中可能会出错。例如，它们可能会将载有交通锥的卡车误认为是路障，从而触发不必要的刹车。这些限制阻碍了端到端模型的规划性能。因此，本文针对以下涉及到的三个问题进行探索。

如何将 LVLM 与端到端模型相结合？目前，LVLM 在自动驾驶规划中的应用主要分为两类。一是直接使用 LVLM 作为规划器来预测轨迹点或控制信号；另一种方法是将 LVLM 与端到端模型相结合。涉及使用 LVLM 预测低频轨迹点，然后通过端到端模型对其进行细化以产生高频轨迹。在本文，我们提出了一种结构化的自动驾驶系统Senna，该系统将大型视觉语言模型与端到端模型相结合，具体来说，大型视觉语言模型用自然语言预测高级规划决策，并将其编码为高维特征，然后输入到端到端自动驾驶系统中。根据高级决策，端到端自动驾驶系统生成最终的规划轨迹。
如何设计适合驾驶任务的LVLM？目前流行的LVLM并未专门针对多图像输入进行优化。以前用于驾驶任务的 LVLM 要么仅支持前视输入，这会限制空间感知并增加安全风险，要么可以适应多图像输入但仍然缺乏详细设计或有效性验证。我们提出的Senna，它支持多图像输入来编码环视数据，这对于了解驾驶场景和确保安全至关重要。
如何有效地训练驾驶 LVLM？在开发用于驾驶任务的 LVLM 之后，最后一步是确保有效的训练，这需要合适的数据和策略。我们引入了一系列面向规划的问答，旨在增强 VLM 对驾驶场景中规划相关线索的理解，最终实现更准确的规划。

针对上述相关问题的讨论，本文提出了一种将 LVLM 与端到端模型相结合的自动驾驶系统，实现了从高级决策到低级轨迹预测的结构化规划。该算法称之为Senna。并且在nuScenes数据集和DriveX大规模数据集上的大量实验也证明了Senna的SOTA规划性能。