​微软开源全新多模态 AI Agent “Magma”:可自动下单与行为预测

近日,微软在其官网正式开源了一款名为 “Magma” 的多模态 AI Agent 基础模型。 这款新型人工智能具有跨越数字和物理世界的能力,能够同时处理图像、视频、文本等多种数据类型。 与传统的 AI 助手相比,Magma 的独特之处在于其心理预测功能,使其能够更加准确地理解视频中人物或物体的意图及未来行为。

近日,微软在其官网正式开源了一款名为 “Magma” 的多模态 AI Agent 基础模型。这款新型人工智能具有跨越数字和物理世界的能力,能够同时处理图像、视频、文本等多种数据类型。与传统的 AI 助手相比,Magma 的独特之处在于其心理预测功能,使其能够更加准确地理解视频中人物或物体的意图及未来行为。

QQ_1740532404239.png

Magma 的应用场景十分广泛,用户可以利用这款 AI 进行自动下单购物、查询天气等日常操作。此外,它还能够自动控制实体机器人,并在下象棋等活动中为用户提供实时帮助。这种多模态能力使 Magma 在不同环境中表现出色,能够适应各种复杂任务。

根据官方介绍,Magma 特别适合用于 AI 驱动的助手或机器人,帮助它们更好地理解周围的环境并采取相应的行动。举例来说,它可以指导家用机器人学习如何整理从未见过的物品,或者帮助虚拟助手为用户生成逐步的操作指南。这种特性大大提高了机器人的学习能力和实用性。

Magma 模型是 VLA(视觉语言动作)系列之一,通过学习海量的公开视觉和语言数据,能够融合语言、空间和时间的智能,从而有效应对现实生活中的复杂任务与挑战。随着人工智能技术的发展,Magma 的推出标志着智能助手和机器人技术又向前迈出了一大步。

项目链接:https://microsoft.github.io/Magma/

划重点:  

🌐 ** 跨模态能力 **:Magma 能够处理图像、视频和文本等多种数据类型,提升智能助手的功能。  

🤖 ** 智能应用 **:用户可通过 Magma 自动下单、查询天气,以及控制实体机器人。  

📚 ** 学习适应性 **:Magma 帮助机器人学习新任务,并为虚拟助手生成操作指南,增强了其实用性。

相关资讯

微软开源多模态AI Agent “Magma”:为购物和机器人操作带来新体验

微软在其官网上正式发布了多模态 AI Agent 基础模型 “Magma”,并进行了开源。 这一新兴技术相较于传统的智能助手,展现出了更为强大的多模态能力,能够处理图像、视频、文本等多种数据形式,打破了数字与物理世界之间的壁垒。 Magma 不仅可以帮助用户在电商平台上自动下单,查询天气等日常事务,还能与实体机器人协作,执行更复杂的操作。

微软团队推多模态AI模型Magma:整合视觉、语言和动作决策技能

近日,微软研究团队联合多所高校的研究人员,发布了一款名为 “Magma” 的多模态 AI 模型。 这款模型的设计旨在处理和整合图像、文本和视频等多种数据类型,以便在数字和物理环境中执行复杂任务。 随着科技的不断进步,多模态 AI 代理正在被广泛应用于机器人技术、虚拟助手和用户界面自动化等领域。

英伟达数字孪生地球“Earth-2”亮相 2024 台北电脑展,2 公里精确预测天气信息

在目前正在进行的黄仁勋台北电脑展 2024 主题演讲上,黄仁勋介绍了英伟达 Earth-2 数字孪生地球,该“地球”主要用于天气观测,基于英伟达 CorrDiff 生成式 AI 模型技术,号称融合了人工智能、物理模拟和观测数据,够从今天的数据来预测未来世界的影响。英伟达表示,相对于第一代 Earth 数字孪生地球,Earth-2 能够以 12 倍解析度(从 25 公里提高到 2 公里)精确预测天气信息,号称能够代表区域天气预测的巨大飞跃,同时据称能够提高 3000 倍能源效率。英伟达同时表示,Earth-2 未来还