微软团队推多模态AI模型Magma:整合视觉、语言和动作决策技能

近日,微软研究团队联合多所高校的研究人员,发布了一款名为 “Magma” 的多模态 AI 模型。 这款模型的设计旨在处理和整合图像、文本和视频等多种数据类型,以便在数字和物理环境中执行复杂任务。 随着科技的不断进步,多模态 AI 代理正在被广泛应用于机器人技术、虚拟助手和用户界面自动化等领域。

近日,微软研究团队联合多所高校的研究人员,发布了一款名为 “Magma” 的多模态 AI 模型。这款模型的设计旨在处理和整合图像、文本和视频等多种数据类型,以便在数字和物理环境中执行复杂任务。随着科技的不断进步,多模态 AI 代理正在被广泛应用于机器人技术、虚拟助手和用户界面自动化等领域。

QQ_1740014969523.png

以往的 AI 系统通常专注于视觉 - 语言理解或机器人操作,难以将这两种能力结合成一个统一的模型。许多现有模型虽然在特定领域内表现良好,但在不同应用场景中的泛化能力较差。例如,Pix2Act 和 WebGUM 模型在 UI 导航方面表现优异,而 OpenVLA 和 RT-2则更适合机器人操控,但它们往往需要分别进行训练,难以跨越数字和物理环境的界限。

QQ_1740014978750.png

“Magma” 模型的推出,正是为了克服这些局限性。它通过引入一套强大的训练方法,整合多模态理解、动作定位和规划能力,旨在让 AI 代理在各种环境中无缝运行。Magma 的训练数据集包含了3900万样本,包括图像、视频和机器人动作轨迹。此外,该模型还采用了两项创新技术:“可标记集”(Set-of-Mark,SoM)和 “轨迹标记”(Trace-of-Mark,ToM)。前者使模型能够标记 UI 环境中的可操作视觉对象,后者则使其能够追踪物体随时间的移动,提升未来行动的规划能力。

“Magma” 采用了先进的深度学习架构和大规模的预训练技术,以优化其在多个领域的表现。模型使用 ConvNeXt-XXL 视觉主干处理图像和视频,LLaMA-3-8B 语言模型负责处理文本输入。这种架构使 “Magma” 能够高效整合视觉、语言与动作执行。经过全面的训练,模型在多个任务上都取得了优异的成绩,显示出强大的多模态理解和空间推理能力。

项目入口:https://microsoft.github.io/Magma/

划重点:  

🌟 Magma 模型经过3900万多样本训练,具备强大的多模态学习能力。  

🤖 该模型成功整合视觉、语言和行动,克服了现有 AI 模型的局限性。  

📈 Magma 在多项基准测试中表现出色,显示出较强的泛化能力和优异的决策执行能力。

相关资讯

​微软开源全新多模态 AI Agent “Magma”:可自动下单与行为预测

近日,微软在其官网正式开源了一款名为 “Magma” 的多模态 AI Agent 基础模型。 这款新型人工智能具有跨越数字和物理世界的能力,能够同时处理图像、视频、文本等多种数据类型。 与传统的 AI 助手相比,Magma 的独特之处在于其心理预测功能,使其能够更加准确地理解视频中人物或物体的意图及未来行为。

微软开源多模态AI Agent “Magma”:为购物和机器人操作带来新体验

微软在其官网上正式发布了多模态 AI Agent 基础模型 “Magma”,并进行了开源。 这一新兴技术相较于传统的智能助手,展现出了更为强大的多模态能力,能够处理图像、视频、文本等多种数据形式,打破了数字与物理世界之间的壁垒。 Magma 不仅可以帮助用户在电商平台上自动下单,查询天气等日常事务,还能与实体机器人协作,执行更复杂的操作。

消息称阿里引入顶级人工智能科学家 或将加码AI To C业务

近期,阿里巴巴在AI领域迎来了一位重量级人物。 据业内人士透露,一位全球顶级人工智能科学家已于近期正式入职阿里巴巴,未来或将专注于AI To C业务的基础大模型研发与应用。 这位科学家在工业界和学术界均拥有超过20年的经验,尤其在多模态AI领域成果丰硕,曾主导发表过上百篇大模型顶级论文。