VLA 技术引领智驾竞赛,英伟达助力黑马企业迅速抢占市场份额

在智能驾驶行业,2025年被视为 “VLA 上车元年”,这标志着一种全新的技术范式正在崭露头角。 VLA,即视觉语言动作模型(Vision-Language-Action Model),最初由 DeepMind 于2023年提出,旨在提升机器人对环境的理解和反应能力。 近年来,这一技术在自动驾驶领域受到了极大的关注。

在智能驾驶行业,2025年被视为 “VLA 上车元年”,这标志着一种全新的技术范式正在崭露头角。VLA,即视觉语言动作模型(Vision-Language-Action Model),最初由 DeepMind 于2023年提出,旨在提升机器人对环境的理解和反应能力。近年来,这一技术在自动驾驶领域受到了极大的关注。

与传统的视觉语言模型(VLM)相比,VLA 的优势在于其不仅可以解析图像和文本信息,还能通过 “类人” 思维进行决策。

自动驾驶,无人驾驶

这使得智能驾驶系统能够更准确地推理复杂的路况,比如在施工现场或交通指挥中作出适当反应。根据元戎启行的研究,VLA 可以预测未来几十秒的路况变化,而 VLM 则只能推理出短短7秒的情况。这种更强的推理能力让 VLA 在处理实时路况时更具优势,推动了智能驾驶技术的迅猛发展。

当前,行业中的主要玩家,如理想汽车和元戎启行,纷纷开始在其车型中应用这一技术,标志着智能驾驶正进入一个全新的竞速阶段。尤其是元戎启行,与多家头部车企达成了合作协议,计划在2025年推出搭载 VLA 模型的智能汽车。这一举措不仅增强了其市场竞争力,也为其未来的发展奠定了坚实的基础。

在竞争日益激烈的市场中,企业是否能够打造出 “爆款” 车型,成为评估其成功与否的重要指标。爆款车型的热销不仅能为企业提供宝贵的数据支持,还能加速智能驾驶技术的迭代升级。2024年,理想汽车和小米汽车凭借其畅销车型,迅速积累了市场份额和用户信任,成为行业的标杆。

智能驾驶市场正在经历一场技术革命,VLA 的出现为行业带来了新的可能性。随着更多车型的推出和技术的不断成熟,未来的智能驾驶将更加智能化,带给用户更优质的驾驶体验。

相关资讯

Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路

长上下文大模型帮助机器人理解世界。最近,谷歌 DeepMind 突然开始炫起了机器人。这个机器人可以轻松听从人类指令、进行视觉导览,用常识推理在三维空间中寻找路径。它使用的是最近谷歌发布的大模型 Gemini 1.5 Pro。在使用传统 AI 模型时,机器人常因上下文长度限制而难以回忆起环境细节,但 Gemini 1.5 Pro 的百万级 token 上下文长度为机器人提供了强大的环境记忆能力。在真实的办公室场景中,工程师引导机器人游览特定区域,并标出了需要回忆的关键地点,例如「刘易斯的办公桌」或「临时办公桌区域」

清华新VLA框架加速破解具身智能止步实验室“魔咒”,LLM开销节省4-6倍 | NeurIPS'24

计算、存储消耗高,机器人使用多模态模型的障碍被解决了! 来自清华大学的研究者们设计了DeeR-VLA框架,一种适用于VLA的“动态推理”框架,能将LLM部分的相关计算、内存开销平均降低4-6倍。 (VLA:视觉-语言-动作模型,代表一类用于处理多模态输入的模型)简单来说,DeeR-VLA就像人的决策系统:简单任务快速思考,复杂任务仔细思考。

IBM发布视觉语言模型Granite-Vision-3.1-2B,轻松解析复杂文档

随着人工智能技术的不断发展,视觉与文本数据的融合成为了一项复杂的挑战。 传统的模型往往难以准确解析表格、图表、信息图和图示等结构化视觉文档,这一限制影响了自动内容提取和理解能力,进而影响了数据分析、信息检索和决策等应用。 面对这一需求,IBM 近期发布了 Granite-Vision-3.1-2B,一款专为文档理解设计的小型视觉语言模型。