微软开源多模态 AI Agent“Magma”：购物时可自动下单，还能推测视频人物行为

2025-02-26 08:35

它可以帮助家用机器人学习如何整理以前从未见过的物品，或帮助虚拟助手为不熟悉的任务生成逐步的用户界面导航说明。

感谢北京时间今日凌晨，微软在官网开源了多模态 AI Agent 基础模型 ——Magma。与传统 Agent 相比，Magma 具备跨数字、物理世界的多模态能力，能自动处理图像、视频、文本等不同类型数据，此外，Magma 还能内置了心理预测功能，增强了对未来视频帧中时空动态的理解能力，能够准确推测视频中人物或物体的意图和未来行为。

用户可以用 Magma 来自动下电商订单、查询天气；也可以自动操作实体机器人，或者在下真实象棋时获得帮助。

根据官方介绍，Magma 能够帮助 AI 驱动的助手或机器人理解周围环境并采取相应行动。例如，它可以帮助家用机器人学习如何整理以前从未见过的物品，或帮助虚拟助手为不熟悉的任务生成逐步的用户界面导航说明。

Magma 是能够适应数字和物理环境中新任务的 VLA（AI在线注：视觉语言动作）基础模型之一，能够有效地从海量的公开视觉和语言数据中学习知识，从而融合语言、空间和时间智能，应对数字和物理世界中的复杂任务和环境。

AI在线附开源链接：https://microsoft.github.io/Magma/

大模型训练开销还能更小：微软推出首个 FP4 训练框架，训练效果与 BF16 相当

首个 FP4 精度的大模型训练框架来了，来自微软研究院！在相同超参数的设置下，可以达到与 FP8 以及 BF16 相当的训练效果。

1/30/2025 2:52:31 PM

清源

微软 AI 负责人重磅引入三位前谷歌 DeepMind 顶尖科学家

在人工智能迅猛发展的今天，微软的 AI 负责人穆斯塔法・苏莱曼（Mustafa Suleyman）最近从谷歌 DeepMind 挖走了三位顶尖科学家，以增强微软在 AI 领域的实力。这些新成员将加入微软位于瑞士苏黎世的新办公室，助力公司的技术进步。图源备注:图片由AI生成，图片授权服务商Midjourney据悉，苏莱曼在本周宣布，他成功吸引了前谷歌 DeepMind 的科学家马尔科・塔利亚萨基（Marco Tagliasacchi）、扎兰・博尔索斯(Zalán Borsos)以及另一位研究科学家马提亚斯・明德尔(Matthias Minderer)加入团队。

2/6/2025 4:46:00 PM

AI在线