联合国际顶尖高校昆仑万维开源数字智能体研发东西包AgentStudio

AgentStudio旨在为钻研人员和开发者供应一个覆盖智能体完整开发流程的综合性平台，让开发者们能够轻松、高效、灵活地构建专属数字智能体。

近日，昆仑万维2050全球钻研院、新加坡南洋理工大学、苏黎世联邦理工学院钻研团队联手开源了数字智能体全流程研发东西包AgentStudio，旨在为钻研人员和开发者供应一个覆盖智能体完整开发流程的综合性平台，让开发者们能够轻松、高效、灵活地构建专属数字智能体。

AgentStudio所供应的东西涵盖数字智能体开发的全部流程，包括智能体观察与举动空间、跨平台的在线情况撑持、交互式数据搜集与评价、可扩大的恣意套件、以及相应的图形界面。此外，钻研团队还评价了多个多模态大模型完毕数字世界恣意的才能。

AgentStudio是一个完全免费的开源项目，项目团队希望通过这一开源努力，与人工智能社区携手加速智能体技术发展，促进前沿知识共享与合作。目前，AgentStudio相关论文、代码、数据、文档已全部公开。

联合国际顶尖高校昆仑万维开源数字智能体研发东西包AgentStudio

论文标题：AgentStudio: A Toolkit for Building General Virtual Agents

论文链接：https://arxiv.org/abs/2403.17918

项目主页与文档：https://skyworkai.github.io/agent-studio/

开源代码：https://github.com/SkyworkAI/agent-studio

Leaderboard：https://huggingface.co/spaces/Skywork/agent-studio-leaderboard

智能体：大模型产业最前沿

近来，随着大模型技术在自然语言理解、工程才能、数据才能、存储才能等领域的突破，大量以大模型技术驱动的智能体（Agents）不断涌现，在通用性、实用性、可落地性等方面都表现卓越。

不同于传统软件程序，基于大模型才能打造的AI智能体具备感知情况、进行决策、执行举动等才能，并能够通过独立思考、调用东西去逐步完毕给定目标，成为当前全球AI大模型领域的关注最前沿。此前，昆仑万维已经推出“天工SkyAgents”AI Agents开发平台，用户可以通过自然语言和简单操作，无需代码编程，即可在几分钟之内部署属于自己的AI Agents。

现如今，在大模型的助力下，数字智能体（virtual agents）可以通过操控手机电脑上的软件帮助人们完毕许多日常工作，提高工作效率。

然而，当前数字智能体的进展很大程度上受到了基准情况和数据来源的限制，他们大都仅在简单、受限的场景下评价与演示，从而掩盖了面临的挑战，离真正落地需要的可用性与可靠性仍有较大距离，然而缺乏全面、真实的搜集数据情况又阻碍了这些智能体才能的进一步提升。

AgentStudio东西包的开发，正是基于当前人工智能领域对高效、可扩大智能体开发东西的迫切需求。该东西包不仅包括了智能体观察与举动空间的定义东西，还供应了跨平台的在线情况撑持，使得开发者可以在不同的平台和设备上进行智能体的开发与测试。此外，AgentStudio还撑持交互式数据搜集与评价，以及可扩大的恣意套件，极大地增强了其实用性和灵活性。

AgentStudio：灵活、通用、可扩大

联合国际顶尖高校昆仑万维开源数字智能体研发东西包AgentStudio

(AgentStudio架构及情况介绍。AgentStudio是一个撑持与真实世界计算机在线交互的平台。与现有情况相比，它具有最通用的智能体观察和举动空间，同时供应了对东西制造与利用、搜集人类反馈与数据集等功能的撑持。)

目前，全球有多种数字智能体开发东西包，撑持不同的开发情况和应用领域。与现有东西相比，AgentStudio的主要优势在于：

l可复现、多模态、跨平台的在线情况：AgentStudio撑持通过Docker、VNC、FastAPI以及虚拟机等方式便捷地连接包括Windows、MacOS、Linux等各种操作系统与设备，相比现有情况更加注重真实落地场景。

l统一的标准化的输入输出：为了撑持智能体和尽可能多地各种软件进行交互，AgentStudio采用了最为通用的输入输出方式，既撑持像人一样通过观察电脑屏幕的图像作为输入，操作键盘鼠标和命令行作为输出，也撑持进行函数调用和利用API，达到通用计算机控制。

l全面、可扩大、可组合的恣意集：AgentStudio包孕了在十余个应用上用于全面评价AI智能体完毕指令的才能，全方位覆盖各种应用软件，如文档操作、邮件处理、日历利用、音乐播放、视频编辑器、代码编辑器等，涵盖复杂真实应用场景，同时包孕了范围从单个底层操作到跨恣意的组合性恣意的不同难度的多级恣意。AgentStudio基于该恣意集，公开了相应的leaderboard。

l完整的智能体数据搜集与评价代码：AgentStudio的功能不仅包孕了对智能体才能的评价，而且包孕了完整开源的数据集搜集代码，可用于人工标注数据集，也可用于智能体自行搜集经验。

l关注东西创造与利用：在开放域中的东西创造与利用是AI智能体的核心才能之一。以电脑为例，AgentStudio为智能体供应了最通用的三类东西：键盘、鼠标、与命令行，同时撑持智能体进一步在交互过程中自行创造并复用新的东西，如用于创建、修改日历的东西集，实现智能体的不断自我提升。

l交互式可视化界面: AgentStudio供应用户友好的轻量化GUI界面，帮助用户方便快捷地一键自动化创建恣意并搜集数据。以下流程图将直观呈现利用AgentStudio创建恣意并搜集数据的过程。通过AgentStudio供应的用户友好的界面，用户可以实现跨平台的人工演示的录制，包括输入恣意指令、通过交互界面得到坐标、编辑和运行代码、记录智能体轨迹等一系列功能，这些大幅简化了大规模数据搜集的难度，为下一代智能体数据规模化供应了基础。

联合国际顶尖高校昆仑万维开源数字智能体研发东西包AgentStudio

利用AgentStudio创建恣意并搜集数据以及与情况交互的过程

多维度全面评价

除了搭建东西包外，钻研团队还评价了多个多模态大模型完毕数字世界恣意的才能。为了全面评价智能体的才能，AgentStudio的结果从多个维度入手：

l图形界面grounding数据集：恣意仅包孕单步举动，指令为不需要规划的底层操作，主要关注智能体和图形界面交互的才能；

l日常恣意与组合性恣意集：恣意完毕调用复杂API，或需要多步举动、并常常需要跨软件交互。该恣意集用于衡量智能体完毕日常恣意、以及进行复杂举动规划的才能。

AgentStudio的评测结果还进一步分析了现有多模态模型在图形界面grounding数据集表现不佳的可能原因和相应的改进方法，并衡量了模型自我评价的才能，这些都对智能体的自我提升和真实落地至关重要。根据评测结果，钻研团队在论文中还讨论了若干有前景的钻研方向，包括更通用的图形界面grounding模型和算法、从视频演示中学习等。

联合国际顶尖高校昆仑万维开源数字智能体研发东西包AgentStudio