Magma

具身智能新时代！VLA迎来最强基础模型Magma：UI导航、机器人操作全能

现有的大语言模型、图像生成模型等都只是在某几个模态数据上进行操作，无法像人类一样与物理世界产生交互。视觉-语言-行动（VLA，Vision-Language-Action）模型是可以感知视觉刺激、语言输入以及其他与环境相关数据的自主智能体，能够在物理和数字环境中生成有意义的「具身行动」（embodied actions）以完成特定任务。图片由于二维数字世界和三维物理世界之间存在差异，现有的VLA模型通常对任务进行简化，导致多模态理解能力偏弱，在跨任务和跨领域的泛化能力上不够通用。

3/10/2025 1:31:28 PM

微软开源多模态AI Agent “Magma”：为购物和机器人操作带来新体验

微软在其官网上正式发布了多模态 AI Agent 基础模型 “Magma”，并进行了开源。这一新兴技术相较于传统的智能助手，展现出了更为强大的多模态能力，能够处理图像、视频、文本等多种数据形式，打破了数字与物理世界之间的壁垒。 Magma 不仅可以帮助用户在电商平台上自动下单，查询天气等日常事务，还能与实体机器人协作，执行更复杂的操作。

2/26/2025 11:11:00 AM

AI在线

微软开源全新多模态 AI Agent “Magma”：可自动下单与行为预测

近日，微软在其官网正式开源了一款名为 “Magma” 的多模态 AI Agent 基础模型。这款新型人工智能具有跨越数字和物理世界的能力，能够同时处理图像、视频、文本等多种数据类型。与传统的 AI 助手相比，Magma 的独特之处在于其心理预测功能，使其能够更加准确地理解视频中人物或物体的意图及未来行为。

2/26/2025 9:13:00 AM

AI在线