微软团队推多模态AI模型Magma：整合视觉、语言和动作决策技能

2025-02-20 09:30

近日，微软研究团队联合多所高校的研究人员，发布了一款名为 “Magma” 的多模态 AI 模型。这款模型的设计旨在处理和整合图像、文本和视频等多种数据类型，以便在数字和物理环境中执行复杂任务。随着科技的不断进步，多模态 AI 代理正在被广泛应用于机器人技术、虚拟助手和用户界面自动化等领域。

以往的 AI 系统通常专注于视觉 - 语言理解或机器人操作，难以将这两种能力结合成一个统一的模型。许多现有模型虽然在特定领域内表现良好，但在不同应用场景中的泛化能力较差。例如，Pix2Act 和 WebGUM 模型在 UI 导航方面表现优异，而 OpenVLA 和 RT-2则更适合机器人操控，但它们往往需要分别进行训练，难以跨越数字和物理环境的界限。

“Magma” 模型的推出，正是为了克服这些局限性。它通过引入一套强大的训练方法，整合多模态理解、动作定位和规划能力，旨在让 AI 代理在各种环境中无缝运行。Magma 的训练数据集包含了3900万样本，包括图像、视频和机器人动作轨迹。此外，该模型还采用了两项创新技术:“可标记集”（Set-of-Mark，SoM）和 “轨迹标记”(Trace-of-Mark，ToM)。前者使模型能够标记 UI 环境中的可操作视觉对象，后者则使其能够追踪物体随时间的移动，提升未来行动的规划能力。

“Magma” 采用了先进的深度学习架构和大规模的预训练技术，以优化其在多个领域的表现。模型使用 ConvNeXt-XXL 视觉主干处理图像和视频，LLaMA-3-8B 语言模型负责处理文本输入。这种架构使 “Magma” 能够高效整合视觉、语言与动作执行。经过全面的训练，模型在多个任务上都取得了优异的成绩，显示出强大的多模态理解和空间推理能力。

项目入口:https://microsoft.github.io/Magma/

划重点:
🌟 Magma 模型经过3900万多样本训练，具备强大的多模态学习能力。
🤖 该模型成功整合视觉、语言和行动，克服了现有 AI 模型的局限性。
📈 Magma 在多项基准测试中表现出色，显示出较强的泛化能力和优异的决策执行能力。

微软开源全新多模态 AI Agent “Magma”：可自动下单与行为预测

近日，微软在其官网正式开源了一款名为 “Magma” 的多模态 AI Agent 基础模型。这款新型人工智能具有跨越数字和物理世界的能力，能够同时处理图像、视频、文本等多种数据类型。与传统的 AI 助手相比，Magma 的独特之处在于其心理预测功能，使其能够更加准确地理解视频中人物或物体的意图及未来行为。

2/26/2025 9:13:00 AM

AI在线

微软开源多模态AI Agent “Magma”：为购物和机器人操作带来新体验

微软在其官网上正式发布了多模态 AI Agent 基础模型 “Magma”，并进行了开源。这一新兴技术相较于传统的智能助手，展现出了更为强大的多模态能力，能够处理图像、视频、文本等多种数据形式，打破了数字与物理世界之间的壁垒。 Magma 不仅可以帮助用户在电商平台上自动下单，查询天气等日常事务，还能与实体机器人协作，执行更复杂的操作。

2/26/2025 11:11:00 AM

AI在线

具身智能新时代！VLA迎来最强基础模型Magma：UI导航、机器人操作全能

现有的大语言模型、图像生成模型等都只是在某几个模态数据上进行操作，无法像人类一样与物理世界产生交互。视觉-语言-行动（VLA，Vision-Language-Action）模型是可以感知视觉刺激、语言输入以及其他与环境相关数据的自主智能体，能够在物理和数字环境中生成有意义的「具身行动」（embodied actions）以完成特定任务。图片由于二维数字世界和三维物理世界之间存在差异，现有的VLA模型通常对任务进行简化，导致多模态理解能力偏弱，在跨任务和跨领域的泛化能力上不够通用。

3/10/2025 1:31:28 PM

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果 AI视频模态驾驶文本人形机器人 xAI 搜索大语言模型 Copilot Claude 字节跳动具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

微软团队推多模态AI模型Magma：整合视觉、语言和动作决策技能

相关资讯

​微软开源全新多模态 AI Agent “Magma”：可自动下单与行为预测

微软开源多模态AI Agent “Magma”：为购物和机器人操作带来新体验

具身智能新时代！VLA迎来最强基础模型Magma：UI导航、机器人操作全能

微软开源全新多模态 AI Agent “Magma”：可自动下单与行为预测