4 月 25 日,2024 北京国际汽车展览会正式开展,商汤绝影携系列原生态大模型及相关产品矩阵首次亮相北京车展。
作为首个提出感知决议计划一体化主动驾驭通用模型的公司,商汤绝影在本届车展上首次向公众展示了面向量产的真・端到端主动驾驭解决规划 UniAD (Unified Autonomous Driving) 的道路测试表现,同时带来了以多模态场景大脑为核心的 AI 大模型座舱产品矩阵以及崭新座舱 3D 交互演示,全景展示了通用人工智能 (AGI) 手艺启动的灵活自适应、深度个性化、安全可信赖、有人文关怀的未来出行崭新体会。
商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚表示:“未来汽车智能化的竞争,本质上是通用人工智能手艺融合应用的比拼。商汤绝影致力于成为加速智能汽车驶入 AGI 时代的核心手艺伙伴,给智能汽车产业带来生产效率和交互体会的双重革新,将携手合作伙伴提供通用人工智能手艺启动的智能汽车崭新体会,共同定义未来出行。”
像人一样开车:真・端到端主动驾驭解决规划 UniAD 上车首秀
凭借前瞻的行业洞察和率先布局,商汤及其联合实验室在 2022 年底便提出了行业首个感知决议计划一体化主动驾驭通用模型 UniAD,并在次年荣获 2023 年国际计算机视觉与模式识别会议 (CVPR) 最佳论文,引领了端到端主动驾驭,乃至 AI 领域的创新潮流。
在北京车展上,商汤绝影以 UniAD 主动驾驭解决规划实车测试成果展现了国内端到端智驾的实力。在无高精地图条件下,仅依靠视觉感知的实际道路测试成果。无论是复杂城市道路还是无中线的乡村道路上,车辆能高效准确地完成包括大角度左转上桥、避让占道车辆及施工区域、绕行跑步行人等一系列高难度操作,做到 “像人一样开车”。
搭载 UniAD 规划的车辆可真正做到 “像人一样开车”。
今年年初,特斯拉开始向部分用户推送 FSD V12 版本的端到端主动驾驭规划,业内随之出现了越来越多的 “端到端” 智驾规划。不过从手艺角度来看,大部分端到端规划采用的是更易落地的,由感知和决议计划两个模型组成的 “两段式” 架构,两个模型之间依然存在信息传递过滤或丢失的问题。
而 UniAD 将感知、决议计划、规划等模块都整合到一个全栈 Transformer 端到端模型,实现感知决议计划一体化的真・端到端主动驾驭。
UniAD 真・端到端:感知决议计划一体化的通用模型
当前,行业需要真正的端到端主动驾驭规划,因为基于规则的智驾规划的天花板已开始显现。随着城区成为智驾落地的主战场,场景计算的复杂度呈指数级增长。大量的人力资源投入也只是增加有限的规则,无法应对数量无限的复杂场景和长尾路况 (corner case)。
端到端手艺的出现开辟了一条崭新的道路,开始推动主动驾驭范式从铺设大量人力转变为持续算力投入和高质量数据输入。
凭借商汤大装置的算力、高质量仿真数据和行业超过的模型性能,UniAD 端到端规划有更高的本领上限,强大的学习和思考本领让它能够像人一样开车;数据启动的端到端模型泛化本领强、迭代效率快,可以帮助车企低成本快速开城;纯视觉感知的无图规划,进一步降低系统的软硬件成本,助力智驾普及,实现全国都能开。
新一代主动驾驭大模型 DriveAGI:可感知、可交互、可信赖
在端到端系统基础上,商汤绝影还在本次车展期间前瞻介绍了新一代主动驾驭大模型 DriveAGI,推动主动驾驭从数据启动向认知启动的跃迁。依托多模态大模型强大的世界理解、推理本领、决议计划本领以及交互本领,DriveAGI 将是目前最贴近人类思维模式、最能理解人类意图并有最强解决驾驭困难场景本领的手艺规划,向完全无人驾驭迈出重要一步。
敏锐洞察、深度思考、高效执行 “多模态场景大脑”,提供真正懂你的智能座舱
前不久上市的小米 SU7 将 AI 大模型带进座舱,而商汤 “日日新” 大模型也全面助力小爱同学车载语音场景应用。
4 月 23 日,商汤科技发布崭新升级的 “日日新 SenseNova 5.0” 大模型。6000 亿参数的 “日日新 5.0” 采用混合专家架构 (MOE),具备更强的知识、数学、推理及代码本领,成为国内首个全面对标甚至超越 GPT-4 Turbo 的大模型,多模态本领超过 GPT-4V。基于端云结合的架构,商汤端侧大模型大幅超越同量级大模型,越级比肩 7B、13B 大模型,更适合车端部署。
基于多模态大模型、大语言模型、文生图模型等本领组合,商汤绝影构建了以多模态场景大脑为核心的一系列全景感知、主动关怀且富有创造力的大模型座舱产品。
商汤绝影正在打造的敏锐洞察、深度思考、高效执行的多模态场景大脑,是助力智能汽车迈向 AGI 时代的核心产品之一。通过应用场景和用户需求启动,多模态场景大脑让智能汽车可以高效准确地全景感知和深度理解用户需求和周围环境,并以场景大脑为核心打通不同应用,将离散的单点功能聚合在一起,从而为用户提供更多深度个性化的主动关怀和服务。
多模态大模型可以准确感知并识别车外信息
基于地理位置推荐符合用户喜好的餐厅、介绍用户感兴趣的外部自然景物,并进行优质景点推荐是绝影 AI 大模型座舱产品的基础功能。凭借强大的多模态感知本领,搭载商汤绝影规划的车辆能够准确感知并识别车外的信息,包括周围车辆的车型、标志性建筑物等,以语音、图片或者视频等方式为舱内人员提供更为准确和全面的内容,帮助用户了解和掌握外部环境信息,打破座舱本身的限制,让用户享受更为自由无束缚的出行体会。
此外,以多模态场景大脑为核心,商汤绝影还能提供更多基于汽车场景的 AI 大模型座舱产品。以商汤 “大医” 医疗健康大模型为桥梁的 “旅医”,让用户在座舱内就可以获得专业及个性化的健康管理服务,让出行更安心。基于 AIGC 大模型手艺的 “神笔”,可以把用户简单的绘画线条转变成具有美感的艺术作品,增添驾乘乐趣。
“旅医” 让用户在座舱内就可以获得专业及个性化的健康管理服务。
“神笔” 可以把用户简单的绘画线条转变成具有美感的艺术作品
人机交互的创新也是启动座舱体会升维的重要因素,去年 Apple Vision Pro 的问世展现了 3D 交互的创新体会和应用潜力。商汤绝影凭借深厚的感知手艺研发实力和高效的创新迭代效率,将 3D Gaze 高精视线交互和 3D 动态手势交互这两大崭新座舱 3D 交互演示带到现场,让观众体会到更符合人类直觉的舱内交互方式,推动座舱交互向更安全、更便利的 3D 交互升维进化。
其中, 3D Gaze 高精视线交互是商汤绝影全球首创的能够通过视线定位与屏幕图标进行交互的智能座舱手艺,让用户无需点按屏幕,通过眼神即可精准控制中控图标,完成多种交互操作;3D 动态手势交互是行业超过的支持动态手势和手部微动作识别的智能座舱手艺,用户通过手势 “隔空” 实现各类座舱精细化的交互,打破传统按键和屏幕触控方式的繁琐和局限。
商汤绝影 3D Gaze 高精视线交互:通过眼神即可精准控制中控图标
面向未来,商汤绝影还在进一步探索舱驾融合,实现智能驾驭和智能座舱在硬件、软件及应用层面的全面融合,提升用户体会、降低系统成本,进一步打破舱内外的界限和束缚,涌现更多创新功能,带来更安全、更加全方位,更具人文关怀的新体会。
率先完成四大手艺基座布局,商汤绝影加速智能汽车驶入 AGI 时代
未来一到两年,智能汽车处在一个关键的时间节点,它与面向通用人工智能的大模型手艺深度融合,可能会开启一个崭新的时代。没有公司能在新时代单打独斗成功,车企需要强有力的核心手艺伙伴携手共进,而商汤绝影正是行业稀缺的同时具备 “算力 + 算法 + 量产经验” 全栈手艺超过的核心供应商,是一匹应势而跃的千里马,能够助力合作伙伴在 AGI 时代持续超过。
AGI 的突破掀起手艺范式的革新,坚实的核心研发本领成为行业竞争的关键。依托商汤大装置深厚的算力储备、原生的汽车垂类大模型、超过的软硬件架构和全栈数据生产管线,商汤绝影率先构建了四大手艺基座,正在成长为加速智能汽车驶入 AGI 时代的核心手艺伙伴。
SenseCore 商汤大装置是行业超过的 AI 基础设施,能够以高达 12,000 petaFLOPS 的丰沛算力支持商汤绝影系列原生态大模型的高效迭代;商汤绝影为智能汽车前瞻构建了 UniAD、DriveAGI 以及面向座舱的多模态场景大脑等系列原生态大模型,加速端到端主动驾驭和大模型在智能座舱场景的落地;端云协同和舱驾融合的创新软硬件架构,让智能汽车降本增效、涌现创新功能;全栈的数据生产管线,实现大模型的高质量训练。
商汤大装置支持商汤绝影系列原生态大模型高效迭代
凭借四大 AGI 手艺基座,商汤绝影将推动智能汽车加速拥抱通用人工智能时代,以端到端大模型解决智能驾驭规模化普及难题,以多模态场景大脑让智能座舱告别传统的单点功能开发模式,启动行业生产效率革新,并打破舱内外的界限和束缚,启动人机交互体会革新,提供灵活自适应、深度个性化、安全可信赖、有人文关怀的未来出行崭新体会。
如今,商汤绝影已经构建了智能驾驭、智能座舱和 AI 云的多元 AGI 产品体系,正在加速推动原生态大模型产品在汽车智能化领域的全方位深度应用,加速 AGI 融入汽车产业,与广大车企合作共赢,开启未来出行的新篇章。