蚂蚁百灵大模型最新进展：已具有原生多模态本领

7月5日，在2024世界人工智能大会“可信大模型助力产业创新发展”论坛上，蚂蚁团体公布了其自研的百灵大模型最新研发进展：百灵大模型已具有能“看”会“听”、能“说”会“画”的原生多模态本领，可以直接明白并训练音频、视频、图、文等多模态数据。原生多模态被认为是通往AGI的必经之路，在国内，目前只有为数不多的大模型厂商兑现了这一本领。记者从大会现场的演示看到，多模态技能可以让大模型更像人一样感知和互动，支撑智能体体验进级，百灵的多模态本领已使用于“支付宝智能助理”上，未来还将支持支付宝上更多智能体进级。（蚂蚁团体副总裁徐

记者从大会现场的演示看到，多模态技能可以让大模型更像人一样感知和互动，支撑智能体体验进级，百灵的多模态本领已使用于“支付宝智能助理”上，未来还将支持支付宝上更多智能体进级。

（蚂蚁团体副总裁徐鹏介绍百灵大模型原生多模态本领）

据了解，百灵大模型多模态本领，在中文图文明白MMBench-CN评测集上达到GPT-4o水平，在信通院多模态安全本领评测达到优秀级（最高），具有支持规模化使用的本领，能支持AIGC、图文对话、视频明白、数字人等一系列下游使命。

多模态大模型技能能够使AI更好地明白人类世界的庞杂信息，也让AI落地使用时更符合人类的交互习惯，在智能客服、自动驾驶、调理诊断等多个领域展现出巨大的使用潜力。

蚂蚁团体有着丰富的使用场景，百灵大模型的多模态本领，也已被使用在生活服务、搜索推荐、互动娱乐等场景。在生活服务上，蚂蚁团体使用多模态模型兑现了ACT技能，让智能体具有一定规划执行本领，比如根据用户语音指定直接在星巴克小程序下单一杯咖啡，目前这一功能已在支付宝智能助理上线。在调理领域，多模态本领为用户兑现庞杂使命的操作，可以对超过100多种庞杂的医学检验检测报告进行辨别和解读，还可以检测毛发健康和脱发情况，对治疗提供辅助。

蚂蚁百灵大模型最新进展：已具有原生多模态本领

（观众在蚂蚁展厅现场体验使用支付宝智能助理点咖啡）

发布现场，蚂蚁团体副总裁徐鹏展示了新进级的多模态技能可兑现的更多使用场景：通过视频对话的自然形式，AI助理能为用户辨别穿着打扮，给出约会的搭配建议；根据用户不同的意图，从一堆食材中搭配出不同的菜谱组合；根据用户描述的身体症状，从一批药物中，挑选出可能合适的药，并读出服用指导，供用户参考等。

基于百灵大模型多模态本领，蚂蚁团体已在探索规模使用落地产业的实践。

论坛上同时发布的“支付宝多模态调理大模型”，便是这一探索的实践。据了解，支付宝多模态调理大模型添加了包含报告、影像、药品等多模态信息在内的百亿级中英文图文、千亿级调理文本语料、以及千万级高质量调理知识图谱，具有专业医学知识，在中文调理 LLM 评测榜单 promptCBLUE 上，取得 A 榜第一，B 榜第二的成绩。

基于百灵大模型多模态本领，由蚂蚁团体与武汉大学联合研发的遥感模型SkySense，也在论坛上公布了开源计划。SkySense是目前参数规模最大、覆盖使命最全、辨别精度最高的多模态遥感基础模型。

“从单一的文本语义明白，到多模态本领，是人工智能技能的关键迭代，而多模态技能催生的‘看听说写画’的使用场景，将让AI的表现更真实，更接近人类，从而也能更好地服务人类。蚂蚁会持续投入原生多摸态技能的研发。”徐鹏说。

{{userData.name}}已认证

蚂蚁百灵大模型最新进展：已具有原生多模态本领

交互效果对标 GPT-4o，商汤颁布国内首个所见即所得模型“日日新 5o”

支付宝AI新进展：发布多模态调理大模型，携手20家机构发起AI调理共建计划

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1/47

最强文生图 AI 模型 Flux 再进化：出图速度快 6 倍，Elo 评分冲上 1153 傲视群雄

最新 AI 生图模型 Flux1.1 隐藏玩法，添加单反相机文件名获得超写实图像

快手可灵 AI 新增“对口型”功能：生成人物口型与上传音频同步

Meta 发布 AI 视频生成器 Movie Gen：可自动生成含声音的高清视频

Meta 用 AI 生成北极光图片，遭网友怒喷

奥特曼赢家通吃！OpenAI再揽66亿美元新融资，还不忘「狙击」一把老同事Ilya

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手