微软亚研院新作：让大模型一口气挪用数百万个 API

近年来，人工智能发展迅速，尤其是像 ChatGPT 这样的根源大模型，在对话、上下文懂得和代码生成等方面表现出色，不妨为多种任意供给处理方案。但在一定领域任意上，由于专业数据的缺乏和可能的计算错误，它们的表现并不理想。同时，虽然已有一些专门针对一定任意的 AI 模型和系统表现良好，但它们往往不易与根源大模型集成。为了处理这些重要问题，TaskMatrix.AI 破茧而出、应运而生，这是由微软（Microsoft）设计发布的新型 AI 生态系统。其核心技术近期在《科学》合作期刊 Intelligent Computi

近年来，人工智能发展迅速，尤其是像 ChatGPT 这样的根源大模型，在对话、上下文懂得和代码生成等方面表现出色，不妨为多种任意供给处理方案。

但在一定领域任意上，由于专业数据的缺乏和可能的计算错误，它们的表现并不理想。同时，虽然已有一些专门针对一定任意的 AI 模型和系统表现良好，但它们往往不易与根源大模型集成。

为了处理这些重要问题，TaskMatrix.AI 破茧而出、应运而生，这是由微软（Microsoft）设计发布的新型 AI 生态系统。

其核心技术近期在《科学》合作期刊 Intelligent Computing 上发表的论文 TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs 中正式亮相，作者为微软亚洲研究院的段楠博士团队：

微软亚研院新作：让大模型一口气挪用数百万个 API

（详见链接：https://spj.science.org/doi/10.34133/icomputing.0063）

TaskMatrix.AI 将根源大模型与数以百万计的应用程序编程接口（APIs）连接起来完毕任意。

其核心思想是利用现有的根源大模型作为类似大脑的中央系统，结合其他 AI 模型和系统的 APIs 作为各种子任意处理者，以完毕数字和物理领域的多样化任意。

微软亚研院新作：让大模型一口气挪用数百万个 API

▲ 图由 DALL・E 3 生成

TaskMatrix.AI 如何工作？

TaskMatrix.AI 的整体架构由以下四个关键组件构成：

多模态对话根源模型（MCFM）：负责与用户沟通，懂得他们的目标和上下文（多模态），并基于 API 生成可履行代码以完毕一定任意。MCFM 不妨处置惩罚文本、图象、视频、音频和代码等多模态输出，生成履行一定任意的代码。它还不妨从用户指令中提取具体任意，并提出合理的处理方案大纲，帮助选择最合适的 API 进行代码生成。

API 平台：供给一个统一的 API 文档架构，用于存储数以百万计具有不同功能的 API，并允许 API 开发者和所有者注册、更新和删除他们的 API。API 平台通过统一的文档架构帮助 MCFM 更好地懂得和利用各种 API。

API 选择器：根据 MCFM 对用户指令的懂得，推荐相关的 API。API 选择器具备搜索能力，不妨在拥有大量 API 的平台上快速定位到与任意需求和处理方案大纲相匹配的 API。

API 履行器：通过挪用相关 API 履行生成的动作代码，并返回中间和最终的履行结果。API 履行器设计用于运行各种 API，包括从简单的 HTTP 请求到复杂的算法或须要多个输出参数的 AI 模型。

以上四个组件协同工作，共同构建了一个高效的系统。MCFM 作为用户交互的主要接口，负责生成处理方案。API 平台则供给了一个标准化的 API 文档格式，并作为一个集中存储库，容纳了数百万 API。API 选择器根据 MCFM 对用户需求的懂得，从 API 平台中选取合适的 API。

最后，API 履行器负责履行由选定 API 生成的代码，并处理任意。

微软亚研院新作：让大模型一口气挪用数百万个 API

此外，TaskMatrix.AI 还供给了两个可进修的机制，以更有效地将 MCFM 与 API 对齐：

基于人类反应的强化进修（RLHF）：这是一种根源大模型的通用技术，它使用强化进修方法，利用人类反应来优化机器进修模型。在 TaskMatrix.AI 中，RLHF 利用这些反应来增强 MCFM 和 API 选择器，从而在处置惩罚复杂任意时实现更快的收敛和更好的性能。

向 API 开发者供给反应：TaskMatrix.AI 完毕任意后，会将用户反应以适当的方式传递给 API 开发者，指示他们的 API 是否成功用于完毕任意。这种包含 <用户指令、API 挪用和用户反应> 的三元组不仅展示一定 API 的使用情况，还可以作为 API 开发者改进 API 文档的参考，使文档对 MCFM 和 API 选择器更加友好和易于懂得。

因此，TaskMatrix.AI 可以被视为一个超级 AI，同时也是一个生态系统，具有以下关键优势：

不妨通过使用根源大模型作为核心系统，首先懂得不同类型的多模态输出（如文本、图象、视频、音频和代码），然后生成挪用 API 完毕任意的代码，来履行各种数字和物理任意。

拥有一个 API 平台，作为各种任意专家的存储库。该平台上的所有 API 都有一致的文档格式，这使得根源大模型可以轻松使用它们，开发者也便于添加新的 API。

具有强大的终身进修能力，因为它的技能可以通过向 API 平台添加具有一定功能的新 API 来扩展，以处置惩罚新任意。

不妨供给更加可解释的响应，因为任意处理逻辑（即行动代码）和 API 的结果都是可懂得的。

TaskMatrix.AI 能完毕什么任意？

TaskMatrix.AI 能完毕的任意非常广泛，小到文字、图象信息的基本信息处置惩罚，大到控制机器人平台、接入物联网（IoT）等通用平台任意，TaskMatrix 都能胜任。

图象处置惩罚任意

TaskMatrix.AI 可以履行图象处置惩罚任意，并且不妨接受语言和图象作为输出。下图展示了 TaskMatrix.AI 的相关版本 Visual ChatGPT，它不仅不妨懂得人类意图，还能处置惩罚语言和图象输出，以完毕包括图象生成、问题回答和编辑在内的复杂视觉任意。

微软亚研院新作：让大模型一口气挪用数百万个 API

下图展示了使用多个 API 协作生成高分辨率图象的示例。在该例中，处理方案框架由 3 个 API 组成：图象问答、图象标题以及图象对象替换。

左侧框线部分展示了处理方案框架如何协助将图象扩展至 2048×4096 分辨率。通过迭代履行框架中的预定义步骤，TaskMatrix.AI 可以生成任何所需尺寸的高分辨率图象。

微软亚研院新作：让大模型一口气挪用数百万个 API

办公自动化

TaskMatrix.AI 不妨通过语音指令懂得并自动履行计算机操作系统、专业软件以及智能手机应用的操作。利用 TaskMatrix.AI，可以快速上手复杂软件。

此外，它还能帮助用户在不进行搜索的情况下直接访问所需功能。以下是一个 PowerPoint 自动化的实例，TaskMatrix.AI 不妨根据用户指定的主题自动生成幻灯片，智能调整内容布局，插入和优化图象，并应用相应的设计主题，从而显著提升工作效率。

微软亚研院新作：让大模型一口气挪用数百万个 API

机器人和物联网设备控制

TaskMatrix.AI 可以连接机器人和物联网设备，实现对体力劳动和智能家居操作的自动化管理。通过集成先进的机器人技术，TaskMatrix.AI 不妨履行一系列任意，如物体的拾取与放置以及对家庭物联网设备的智能控制。

此外，该平台还整合了多种流行的互联网服务，包括但不限于日历 API、天气 API 和新闻 API，供给了更加丰富和便捷的用户体验。

微软亚研院新作：让大模型一口气挪用数百万个 API

TaskMatrix.AI 的挑战

尽管 TaskMatrix.AI 已经在各种任意中证明了其强大的功能和通用性，但仍面临以下几个挑战：

多模态会话根源大模型：TaskMatrix.AI 须要一个不妨处置惩罚多种输出（文本、图象、视频、音频和代码）的强大根源大模型。这个模型须要不妨从上下文中进修，使用常识进行推理和计划，并生成高质量的代码来完毕任意。此外由于 TaskMatrix.AI 须要处置惩罚更多样化的输出模式，这要求确定一个最小模式集来训练 MCFM。

API 平台：构建和维护一个包含数百万 API 的平台须要处理文档生成、API 质量保证和 API 创建建议等挑战。API 文档的清晰性和 API 的质量对于 TaskMatrix.AI 的成功至关重要。此外，平台还须要根据用户反应指导 API 开发者创建新的 API 来处理一定任意。

API 挪用：在处置惩罚大量 API 时，TaskMatrix.AI 须要不妨合理选择和推荐相关的 API 来完毕任意。此外还涉及到在线规划，即在无法立即生成处理方案时，与用户交互并尝试不同的处理方案。

安全和隐私：在 API 不妨访问物理和数字世界时，确保模型忠实于用户指令并保持数据私密性是至关重要的。这要求在履行操作前验证模型的行为，并确保数据传输的安全性和数据访问的授权。

个性化：TaskMatrix.AI 须要个性化策略来帮助开发者构建定制的 AI 界面，并为用户供给私人助理。这包括降低扩展成本和使用少量示例来进修用户的偏好，以便生成符合用户需求的处理方案。

关于 Intelligent Computing

Intelligent Computing 由之江实验室和美国科学促进会（AAAS）共同创办，是《科学》合作期刊框架中智能计算领域的第一本开放获取（Open Access）国际期刊。期刊以「面向智能的计算、智能驱动的计算」以及「智能、数据与计算驱动的科学发现」为主题，主要刊载原创研究论文、综述论文和观点论文。

本文来自微信公众号：量子位（ID：QbitAI），作者：关注前沿科技

{{userData.name}}已认证

微软亚研院新作：让大模型一口气挪用数百万个 API

TaskMatrix.AI 如何工作？

TaskMatrix.AI 能完毕什么任意？

图象处置惩罚任意

办公自动化

机器人和物联网设备控制

TaskMatrix.AI 的挑战

关于 Intelligent Computing

Copilot 回答直接列举盗版网站链接，网友讥讽：微软引流 Edge 浏览器的“规避福利”

和 GPT-4 并列第一，LMSYS 基准测试显示 Claude-3 模型表现优异

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩