微软开源多模态 AI Agent“Magma”:购物时可自动下单,还能推测视频人物行为

它可以帮助家用机器人学习如何整理以前从未见过的物品,或帮助虚拟助手为不熟悉的任务生成逐步的用户界面导航说明。
感谢北京时间今日凌晨,微软在官网开源了多模态 AI Agent 基础模型 ——Magma。与传统 Agent 相比,Magma 具备跨数字、物理世界的多模态能力,能自动处理图像、视频、文本等不同类型数据,此外,Magma 还能内置了心理预测功能,增强了对未来视频帧中时空动态的理解能力,能够准确推测视频中人物或物体的意图和未来行为。

微软开源多模态 AI Agent“Magma”:购物时可自动下单,还能推测视频人物行为

用户可以用 Magma 来自动下电商订单、查询天气;也可以自动操作实体机器人,或者在下真实象棋时获得帮助。

根据官方介绍,Magma 能够帮助 AI 驱动的助手或机器人理解周围环境并采取相应行动。例如,它可以帮助家用机器人学习如何整理以前从未见过的物品,或帮助虚拟助手为不熟悉的任务生成逐步的用户界面导航说明

Magma 是能够适应数字和物理环境中新任务的 VLA(AI在线注:视觉语言动作)基础模型之一,能够有效地从海量的公开视觉和语言数据中学习知识,从而融合语言、空间和时间智能,应对数字和物理世界中的复杂任务和环境。

AI在线附开源链接:https://microsoft.github.io/Magma/

相关资讯

大模型训练开销还能更小:微软推出首个 FP4 训练框架,训练效果与 BF16 相当

首个 FP4 精度的大模型训练框架来了,来自微软研究院!在相同超参数的设置下,可以达到与 FP8 以及 BF16 相当的训练效果。

​微软 AI 负责人重磅引入三位前谷歌 DeepMind 顶尖科学家

在人工智能迅猛发展的今天,微软的 AI 负责人穆斯塔法・苏莱曼(Mustafa Suleyman)最近从谷歌 DeepMind 挖走了三位顶尖科学家,以增强微软在 AI 领域的实力。 这些新成员将加入微软位于瑞士苏黎世的新办公室,助力公司的技术进步。 图源备注:图片由AI生成,图片授权服务商Midjourney据悉,苏莱曼在本周宣布,他成功吸引了前谷歌 DeepMind 的科学家马尔科・塔利亚萨基(Marco Tagliasacchi)、扎兰・博尔索斯(Zalán Borsos)以及另一位研究科学家马提亚斯・明德尔(Matthias Minderer)加入团队。

​微软研究揭示:过度使用AI可能削弱人类的批判性思维能力

一项来自微软与卡内基梅隆大学的最新研究表明,过度依赖人工智能(AI)工具可能正在侵蚀人们的批判性思维能力。 研究团队对319名知识工作者进行了调查,收集了936个在 IT、设计、行政和金融等多个行业使用生成式 AI 的真实案例。 研究分析了六个批判性思维的维度:知识、理解、应用、分析、综合和评估。