微软开源多模态AI Agent “Magma”：为购物和机器人操作带来新体验

2025-02-26 11:11

微软在其官网上正式发布了多模态 AI Agent 基础模型 “Magma”，并进行了开源。这一新兴技术相较于传统的智能助手，展现出了更为强大的多模态能力，能够处理图像、视频、文本等多种数据形式，打破了数字与物理世界之间的壁垒。 Magma 不仅可以帮助用户在电商平台上自动下单，查询天气等日常事务，还能与实体机器人协作，执行更复杂的操作。

微软在其官网上正式发布了多模态 AI Agent 基础模型 “Magma”，并进行了开源。这一新兴技术相较于传统的智能助手，展现出了更为强大的多模态能力，能够处理图像、视频、文本等多种数据形式，打破了数字与物理世界之间的壁垒。

Magma 不仅可以帮助用户在电商平台上自动下单，查询天气等日常事务，还能与实体机器人协作，执行更复杂的操作。比如，在下真实象棋时，Magma 能够为用户提供实时的策略建议，大大增强了游戏体验。同时，它具备心理预测功能，能够推测视频中的人物或物体的未来行为，让虚拟助手或机器人更好地理解周围的动态环境并做出相应反应。

根据官方介绍，Magma 的应用场景非常广泛。它不仅能帮助家用机器人学习如何整理那些它从未见过的物品，还能为虚拟助手生成不熟悉任务的逐步用户界面导航说明。这样的功能，使得用户在面对新环境或新任务时，能得到更为精准的帮助和指引。

Magma 是属于视觉语言动作（VLA）基础模型的一部分，能够通过海量公开视觉和语言数据进行学习。这一能力使得 Magma 能有效融合语言、空间和时间智能，为用户在数字与物理世界中的复杂任务提供解决方案。

Magma 的开源为开发者和研究人员提供了一个强大的工具，促进了智能助手和家用机器人的进一步发展。未来，随着这一技术的不断完善，我们或许能够在日常生活中看到更多基于 Magma 的创新应用。

项目地址：https://microsoft.github.io/Magma/

微软开源全新多模态 AI Agent “Magma”：可自动下单与行为预测

近日，微软在其官网正式开源了一款名为 “Magma” 的多模态 AI Agent 基础模型。这款新型人工智能具有跨越数字和物理世界的能力，能够同时处理图像、视频、文本等多种数据类型。与传统的 AI 助手相比，Magma 的独特之处在于其心理预测功能，使其能够更加准确地理解视频中人物或物体的意图及未来行为。

2/26/2025 9:13:00 AM

AI在线

英伟达数字孪生地球“Earth-2”亮相 2024 台北电脑展，2 公里精确预测天气信息

在目前正在进行的黄仁勋台北电脑展 2024 主题演讲上，黄仁勋介绍了英伟达 Earth-2 数字孪生地球，该“地球”主要用于天气观测，基于英伟达 CorrDiff 生成式 AI 模型技术，号称融合了人工智能、物理模拟和观测数据，够从今天的数据来预测未来世界的影响。英伟达表示，相对于第一代 Earth 数字孪生地球，Earth-2 能够以 12 倍解析度（从 25 公里提高到 2 公里）精确预测天气信息，号称能够代表区域天气预测的巨大飞跃，同时据称能够提高 3000 倍能源效率。英伟达同时表示，Earth-2 未来还

6/2/2024 7:54:31 PM

漾仔