自动驾驶

清华叉院、理想提出DriveVLM,视觉大语言模型提升自动驾驶能力

在自动驾驶领域,研究人员也在朝着 GPT/Sora 等大模型方向进行探索。与生成式 AI 相比,自动驾驶也是近期 AI 最活跃的研究和开发领域之一。要想构建完全的自动驾驶系统,人们面临的主要挑战是 AI 的场景理解,这会涉及到复杂、不可预测的场景,例如恶劣天气、复杂的道路布局和不可预见的人类行为。现有的自动驾驶系统通常包括 3D 感知、运动预测和规划组成部分。具体来说,3D 感知仅限于检测和跟踪熟悉的物体,忽略了罕见物体及其属性, 运动预测和规划则关注物体的轨迹动作,通常会忽略物体和车辆之间的决策级交互。自动驾驶需

GPT-4V在自动驾驶上应用前景如何?面向真实场景的全面测评来了

GPT-4V 的发布让许多计算机视觉(CV)应用看到了新的可能。一些研究人员开始探索 GPT-4V 的实际应用潜力。最近,一篇题为《On the Road with GPT-4V (ision): Early Explorations of Visual-Language Model on Autonomous Driving》的论文针对自动驾驶场景对 GPT-4V 的能力进行了难度递增的测试,从情景理解到推理,再到作为真实场景驾驶员的连续判断和决策。论文地址:,论文对 GPT-4V 在自动驾驶领域的探索主要集中在