最近一段时间,生成式 AI 技术兴起,众多造车新势力都在探索视觉语言模型与世界模型的新方法,端到端的智能驾驶新技术似乎成为了共同的研究方向。
上个月,理想汽车发布了端到端 + VLM 视觉语言模型 + 世界模型的第三代自动驾驶技术架构。此架构已推送千人内测,将智能驾驶行为拟人化,提高了 AI 的信息处理效率,增强了对复杂路况的理解和应对能力。
李想曾在公开的分享中表示,面对大部分算法难以识别和处理的罕见驾驶环境,VLM(Visual Language Model)即视觉语言模型可以系统地提升自动驾驶的能力,这种方法从理论上实现了突破。
新一代的自动驾驶系统大幅提高了能力上限 —— 让 AI 可以应对很多过去难以解决的情况,也降低了门槛 —— 减少了技术研发团队规模的需求,有望让更多人在不久的将来获得大幅提升的体验。
这一套自动驾驶技术架构受诺贝尔奖得主丹尼尔・卡尼曼(Daniel Kahneman)快慢系统理论的启发,在自动驾驶领域模拟人类的思考和决策过程也需要「快系统」与「慢系统」进行协同。其中:
・ 快系统(系统 1)善于处理简单任务,是人类基于经验和习惯形成的直觉;在自动驾驶中以端到端大模型构成,包含感知与规划,足以应对驾驶车辆时 95% 的常规场景。
・ 慢系统(系统 2)是人类通过更深入的理解与学习形成的逻辑推理、复杂分析和计算能力;在自动驾驶系统中主要是 VLM 模型,它在驾驶车辆时用于解决复杂甚至未知的交通场景,占日常驾驶的约 5% 场景。
上周,在理想汽车北京研发总部举行的活动中,理想汽车智能驾驶副总裁郎咸朋强调,目前理想的智能驾驶已经全面切入端到端 + 大模型方案,这让车辆已能够理解复杂路况和交通规则。
「不论端到端还是传统感知决策模型,都需要大量数据进行训练。一个潜在问题是,如果遇到没见过的场景,系统就不能很好的工作,」郎咸朋表示。「我们正在探索让车辆像人一样思考和决策的能力。」
理想汽车北京总部。
自去年下半年起,理想开始调整战略,转换轨道。今年 2 月,在清华大学交叉信息研究院、理想汽车提交的 DriveVLM 论文中,研究人员应用最近生成式 AI 领域兴起的视觉语言模型(VLM),在视觉理解和推理方面表现出了非凡的能力。
在业界,这是第一个提出自动驾驶快慢系统的工作,其方法充分结合了主流自动驾驶 pipeline 和具备逻辑思考的大模型 pipeline,并第一个完成了端测部署的大模型工作(基于英伟达 Orin 平台)。
DriveVLM 包含一个 Chain-of-Though (CoT) 流程,具有三个关键模块:场景描述、场景分析和分层规划。场景描述模块用语言描述驾驶环境,并识别场景中的关键对象;场景分析模块深入研究关键对象的特征及其对自我车辆的影响;分层规划模块从元动作和决策描述到路径点逐步制定计划。
这些模块分别对应于传统自动驾驶系统流程的感知 - 预测 - 规划流程三部分组件,不同之处在于它们处理对象感知、意图级预测和任务级规划上的能力 —— 这些在过去是极富挑战性的。
理想表示,在实践中这套模型理论上可以识别路面平整度、光线等环境信息,并且可以像人一样真正读懂导航地图。为验证上述技术在长尾场景上的有效性,理想将拆解真实环境数据,并利用生成模型补充新的视角,自定义改变天气、时间、车流等条件,实现场景的延伸泛化。通过这种类似无限的环境生成,理想可以对其自动驾驶系统进行充分的检验以及迭代。
在实际工作中,理想汽车的两套系统一直实时运行。其中端到端的模型较小,帧率较高;VLM 模型规模参数量较大(22 亿参数),帧数较低。在一些以往智能驾驶系统无法进行决策的情况,如高速收费站选择 ETC / 人工入口时,VLM 发挥作用,把决策结果和参考的轨迹交给端到端模型,在进一步推理后采用信息。
自动驾驶进入城市场景之后,信息处理的复杂度瞬间提升了几个数量级。在理想的工程师们看来,端到端方法一定意义上成为了技术的分水岭,标志着真正使用 AI 的开始。
新一代 AI 模型的另一个意义在于,它也可以担任不断给出考题的出题人。
截至今年 6 月,理想的整体保有量已经超过 80 万台。在可观的保有量里,理想筛选出了 3% 达到专车司机标准的用户,把这些用户的数据输入到模型中作为「真题」,再通过这些数据结合世界模型生成「模拟题」。在不断的训练、验证之后,整个系统的能力上限获得了提高,迭代速度也加快了。
由于是将 VLM 等模型部署在车端,新一代系统面临着很大的算力挑战。理想智能驾驶技术研发负责人贾鹏表示,在实际使用的过程中,AI 模型的参数量被保持在了最优的情况,同时为了将 AI 的决策时延提升到能够保证安全的水平,工程团队进行了一系列优化。
由于特斯拉 FSD 即将进入国内,智能驾驶领域预计很快将会进入全新的竞争阶段。理想汽车的下一个目标,是最快今年下半年,最晚明天上半年实现端到端 + VLM 的自动驾驶量产交付。