微软亚研院新作:让大模型一口气挪用数百万个 API

近年来,人工智能发展迅速,尤其是像 ChatGPT 这样的根源大模型,在对话、上下文懂得和代码生成等方面表现出色,不妨为多种任意供给处理方案。但在一定领域任意上,由于专业数据的缺乏和可能的计算错误,它们的表现并不理想。同时,虽然已有一些专门针对一定任意的 AI 模型和系统表现良好,但它们往往不易与根源大模型集成。为了处理这些重要问题,TaskMatrix.AI 破茧而出、应运而生,这是由微软(Microsoft)设计发布的新型 AI 生态系统。其核心技术近期在《科学》合作期刊 Intelligent Computi

近年来,人工智能发展迅速,尤其是像 ChatGPT 这样的根源大模型,在对话、上下文懂得和代码生成等方面表现出色,不妨为多种任意供给处理方案。

但在一定领域任意上,由于专业数据的缺乏和可能的计算错误,它们的表现并不理想。同时,虽然已有一些专门针对一定任意的 AI 模型和系统表现良好,但它们往往不易与根源大模型集成。

为了处理这些重要问题,TaskMatrix.AI 破茧而出、应运而生,这是由微软(Microsoft)设计发布的新型 AI 生态系统。

其核心技术近期在《科学》合作期刊 Intelligent Computing 上发表的论文 TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs 中正式亮相,作者为微软亚洲研究院段楠博士团队

微软亚研院新作:让大模型一口气挪用数百万个 API

(详见链接:https://spj.science.org/doi/10.34133/icomputing.0063)

TaskMatrix.AI 将根源大模型与数以百万计的应用程序编程接口(APIs)连接起来完毕任意。

其核心思想是利用现有的根源大模型作为类似大脑的中央系统,结合其他 AI 模型和系统的 APIs 作为各种子任意处理者,以完毕数字和物理领域的多样化任意。

微软亚研院新作:让大模型一口气挪用数百万个 API

▲ 图由 DALL・E 3 生成

TaskMatrix.AI 如何工作?

TaskMatrix.AI 的整体架构由以下四个关键组件构成:

多模态对话根源模型(MCFM):负责与用户沟通,懂得他们的目标和上下文(多模态),并基于 API 生成可履行代码以完毕一定任意。MCFM 不妨处置惩罚文本、图象、视频、音频和代码等多模态输出,生成履行一定任意的代码。它还不妨从用户指令中提取具体任意,并提出合理的处理方案大纲,帮助选择最合适的 API 进行代码生成。

API 平台:供给一个统一的 API 文档架构,用于存储数以百万计具有不同功能的 API,并允许 API 开发者和所有者注册、更新和删除他们的 API。API 平台通过统一的文档架构帮助 MCFM 更好地懂得和利用各种 API。

API 选择器:根据 MCFM 对用户指令的懂得,推荐相关的 API。API 选择器具备搜索能力,不妨在拥有大量 API 的平台上快速定位到与任意需求和处理方案大纲相匹配的 API。

API 履行器:通过挪用相关 API 履行生成的动作代码,并返回中间和最终的履行结果。API 履行器设计用于运行各种 API,包括从简单的 HTTP 请求到复杂的算法或须要多个输出参数的 AI 模型。

以上四个组件协同工作,共同构建了一个高效的系统。MCFM 作为用户交互的主要接口,负责生成处理方案。API 平台则供给了一个标准化的 API 文档格式,并作为一个集中存储库,容纳了数百万 API。API 选择器根据 MCFM 对用户需求的懂得,从 API 平台中选取合适的 API。

最后,API 履行器负责履行由选定 API 生成的代码,并处理任意。

微软亚研院新作:让大模型一口气挪用数百万个 API

此外,TaskMatrix.AI 还供给了两个可进修的机制,以更有效地将 MCFM 与 API 对齐:

基于人类反应的强化进修(RLHF):这是一种根源大模型的通用技术,它使用强化进修方法,利用人类反应来优化机器进修模型。在 TaskMatrix.AI 中,RLHF 利用这些反应来增强 MCFM 和 API 选择器,从而在处置惩罚复杂任意时实现更快的收敛和更好的性能。

向 API 开发者供给反应:TaskMatrix.AI 完毕任意后,会将用户反应以适当的方式传递给 API 开发者,指示他们的 API 是否成功用于完毕任意。这种包含 <用户指令、API 挪用和用户反应> 的三元组不仅展示一定 API 的使用情况,还可以作为 API 开发者改进 API 文档的参考,使文档对 MCFM 和 API 选择器更加友好和易于懂得。

因此,TaskMatrix.AI 可以被视为一个超级 AI,同时也是一个生态系统,具有以下关键优势:

不妨通过使用根源大模型作为核心系统,首先懂得不同类型的多模态输出(如文本、图象、视频、音频和代码),然后生成挪用 API 完毕任意的代码,来履行各种数字和物理任意。

拥有一个 API 平台,作为各种任意专家的存储库。该平台上的所有 API 都有一致的文档格式,这使得根源大模型可以轻松使用它们,开发者也便于添加新的 API。

具有强大的终身进修能力,因为它的技能可以通过向 API 平台添加具有一定功能的新 API 来扩展,以处置惩罚新任意。

不妨供给更加可解释的响应,因为任意处理逻辑(即行动代码)和 API 的结果都是可懂得的。

TaskMatrix.AI 能完毕什么任意?

TaskMatrix.AI 能完毕的任意非常广泛,小到文字、图象信息的基本信息处置惩罚,大到控制机器人平台、接入物联网(IoT)等通用平台任意,TaskMatrix 都能胜任。

图象处置惩罚任意

TaskMatrix.AI 可以履行图象处置惩罚任意,并且不妨接受语言和图象作为输出。下图展示了 TaskMatrix.AI 的相关版本 Visual ChatGPT,它不仅不妨懂得人类意图,还能处置惩罚语言和图象输出,以完毕包括图象生成、问题回答和编辑在内的复杂视觉任意。

微软亚研院新作:让大模型一口气挪用数百万个 API

下图展示了使用多个 API 协作生成高分辨率图象的示例。在该例中,处理方案框架由 3 个 API 组成:图象问答、图象标题以及图象对象替换。

左侧框线部分展示了处理方案框架如何协助将图象扩展至 2048×4096 分辨率。通过迭代履行框架中的预定义步骤,TaskMatrix.AI 可以生成任何所需尺寸的高分辨率图象。

微软亚研院新作:让大模型一口气挪用数百万个 API

办公自动化

TaskMatrix.AI 不妨通过语音指令懂得并自动履行计算机操作系统、专业软件以及智能手机应用的操作。利用 TaskMatrix.AI,可以快速上手复杂软件。

此外,它还能帮助用户在不进行搜索的情况下直接访问所需功能。以下是一个 PowerPoint 自动化的实例,TaskMatrix.AI 不妨根据用户指定的主题自动生成幻灯片,智能调整内容布局,插入和优化图象,并应用相应的设计主题,从而显著提升工作效率。

微软亚研院新作:让大模型一口气挪用数百万个 API

机器人和物联网设备控制

TaskMatrix.AI 可以连接机器人和物联网设备,实现对体力劳动和智能家居操作的自动化管理。通过集成先进的机器人技术,TaskMatrix.AI 不妨履行一系列任意,如物体的拾取与放置以及对家庭物联网设备的智能控制。

此外,该平台还整合了多种流行的互联网服务,包括但不限于日历 API、天气 API 和新闻 API,供给了更加丰富和便捷的用户体验。

微软亚研院新作:让大模型一口气挪用数百万个 API

TaskMatrix.AI 的挑战

尽管 TaskMatrix.AI 已经在各种任意中证明了其强大的功能和通用性,但仍面临以下几个挑战:

多模态会话根源大模型:TaskMatrix.AI 须要一个不妨处置惩罚多种输出(文本、图象、视频、音频和代码)的强大根源大模型。这个模型须要不妨从上下文中进修,使用常识进行推理和计划,并生成高质量的代码来完毕任意。此外由于 TaskMatrix.AI 须要处置惩罚更多样化的输出模式,这要求确定一个最小模式集来训练 MCFM。

API 平台:构建和维护一个包含数百万 API 的平台须要处理文档生成、API 质量保证和 API 创建建议等挑战。API 文档的清晰性和 API 的质量对于 TaskMatrix.AI 的成功至关重要。此外,平台还须要根据用户反应指导 API 开发者创建新的 API 来处理一定任意。

API 挪用:在处置惩罚大量 API 时,TaskMatrix.AI 须要不妨合理选择和推荐相关的 API 来完毕任意。此外还涉及到在线规划,即在无法立即生成处理方案时,与用户交互并尝试不同的处理方案。

安全和隐私:在 API 不妨访问物理和数字世界时,确保模型忠实于用户指令并保持数据私密性是至关重要的。这要求在履行操作前验证模型的行为,并确保数据传输的安全性和数据访问的授权。

个性化:TaskMatrix.AI 须要个性化策略来帮助开发者构建定制的 AI 界面,并为用户供给私人助理。这包括降低扩展成本和使用少量示例来进修用户的偏好,以便生成符合用户需求的处理方案。

关于 Intelligent Computing

Intelligent Computing 由之江实验室和美国科学促进会(AAAS)共同创办,是《科学》合作期刊框架中智能计算领域的第一本开放获取(Open Access)国际期刊。期刊以「面向智能的计算、智能驱动的计算」以及「智能、数据与计算驱动的科学发现」为主题,主要刊载原创研究论文、综述论文和观点论文。

本文来自微信公众号:量子位 (ID:QbitAI),作者:关注前沿科技

给TA打赏
共{{data.count}}人
人已打赏
AI

Copilot 回答直接列举盗版网站链接,网友讥讽:微软引流 Edge 浏览器的“规避福利”

2024-3-28 11:08:36

AI

和 GPT-4 并列第一,LMSYS 基准测试显示 Claude-3 模型表现优异

2024-3-28 13:51:54

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索