快手Agents零碎、模型、数据全部开源！

快手联合哈尔滨工业大学研发的「KwaiAgents」，使7B/13B模型也能达到超越GPT-3.5的效果，并且这些零碎、模型、数据、评测都开源了！7B 大小的模型也能玩转 AI Agents 了？近期，快手开源了「KwaiAgents」，问它周末滑雪题目，它不但帮你找到场地，连当天的天气都帮你考虑周到了。大家都知道大语言模型（LLM）通过对语言的建模而掌握了大量知识，并具备一定认知和推理才能。但即使是当前最强的 GPT-4，单独使用的情况下，依然会一本正经地胡说八道，无法跟世界保持实时的交互。AI Agents 就

快手联合哈尔滨工业大学研发的「KwaiAgents」，使7B/13B模型也能达到超越GPT-3.5的效果，并且这些零碎、模型、数据、评测都开源了！

7B 大小的模型也能玩转 AI Agents 了？近期，快手开源了「KwaiAgents」，问它周末滑雪题目，它不但帮你找到场地，连当天的天气都帮你考虑周到了。

大家都知道大语言模型（LLM）通过对语言的建模而掌握了大量知识，并具备一定认知和推理才能。但即使是当前最强的 GPT-4，单独使用的情况下，依然会一本正经地胡说八道，无法跟世界保持实时的交互。AI Agents 就是解决这个题目的道路之一，通过激发大模型任务规划、反思、挪用东西等才能，使大模型能够借助现实世界东西提高生成内容的准确性，甚至有才能解决复杂题目。这一次，快手联合哈尔滨工业大学研发的「KwaiAgents」，使 7B/13B 的 “小” 大模型也能达到超越 GPT-3.5 的效果，并且这些零碎、模型、数据、评测都开源了！

快手Agents零碎、模型、数据全部开源！

技术报告：https://arxiv.org/abs/2312.04889

项目主页：https://github.com/KwaiKEG/KwaiAgents

从「KwaiAgents」的 Github 主页中可以看到，本次开源内容包罗：

零碎（KAgentSys-Lite）：轻量级 AI Agents 零碎，并配备事实、时效性东西集；

模型（KAgentLMs）：Meta-Agent Tuning 后，具有 Agents 通用才能的系列大模型及其训练数据；

评测（KAgentBench）：开箱即用的 Agent 才能自动化评测 Benchmark 与人工评测结果。

快手Agents零碎、模型、数据全部开源！

零碎

KAgentSys 零碎，是基于大模型作为认知内核，配以影象机制、东西库，形成的迭代式自动化零碎。其主要包罗：

影象机制：包罗知识库、对话、任务历史三类影象，依托于混合向量检索、关键词检索等技术的检索框架，在每一次规划路径中检索所需的信息。

东西集：包罗事实性增强东西集，异构的搜寻和浏览机制能够汇集网页、文本百科、视频百科等多个来源的知识；包罗日历、节日、时间差、天气等常见的时效性增强东西集。

自动化 Loop：在一轮对话中，用户会给予一个题目，可选知识库及额外人设整体从事输入，零碎会先从事影象的更新和检索，再挪用大模型从事任务的规划，如果需要挪用东西则从事挪用，如果不用则进入总结阶段，大模型综合历史的信息给出符合预期的回答。

本次开源 KAgentSys 的部分才能，零碎将逐步从事升级和开放。

模型

为了避免训练中单一模板引起的过拟合题目，团队提出 Meta-Agent Tuning (MAT) 的方法，通过在训练数据中引入更多 Agent Prompt 模板，从而提高大模型在 Agent 才能上的通用性，并提高了效果。

快手Agents零碎、模型、数据全部开源！

Meta-Agent Tuning (MAT) 分为两阶段：

模板生成阶段：通过设计 Meta-Agent，对特定题目集合，生成实例化的 Agent Prompt 模板（上右图为一个例子）候选；并在相同的实验环境下，生成模板产出的候选结果，与开源模板（如 ReAct，AutoGPT 等）产出的高置信结果，用打分模型从事对比打分，从而筛选出高质量的 Agent Prompt 模板库。通过引入这些多元的模板，能够显著降低模型微调时对模板的依赖，提纯更本质的 Agents 在任务规划、东西使用、反思等才能，从而提高模型的泛化性和有效性。

指令微调阶段：基于上万的模板，构建了超过 20 万的 Agent 调优指令微调数据。团队调优了一些热点开源模型如 Qwen-7B、Baichuan2-13B 等，供大家使用和参考，后续还会陆续放出其他热点模型。

评测

KAgentBench 通过人工精细化标注的上千条数据，做到了开箱即用，让大家能够用一行命令评测一个大模型在不同模板下各方面的 Agents 才能。

快手Agents零碎、模型、数据全部开源！

如上图所示，在 KAgentBench 中，会对不同种类的才能构造输入，每个 query 配备多个模板和多个人工编辑的真实回答，旨在综合评测准确性和泛化性，下表显示了经过 MAT 调优后，7B-13B 模型各项才能的提高，且超越了 GPT-3.5 的效果：

快手Agents零碎、模型、数据全部开源！

同时，该研究还请人类标注者在 200 个事实性和时效性的题目（如 “刘德华今年几岁了”），对不同的大模型和 Agent 零碎从事了交叉评估，可以看到 KAgentSys 零碎和 MAT 之后模型提高显著（百分号前为正确率，括号内为 5 分制均分）。

快手Agents零碎、模型、数据全部开源！

通常仅依赖网页搜寻对一些长尾题目和热点题目返回结果不佳。比如问到 “安东内拉比梅西大多少天？” 这类长尾题目，往往搜寻结果返回的都是一些两者的八卦新闻，而返回不了一些关键信息。而 KAgentSys 通过挪用百科搜寻东西获取精准的出生日期，再挪用 time_delta 时间差东西算出年龄差，就能精准回答这个题目了。

团队表示，AI Agents 是一条非常有潜力的道路，未来一方面会在这个方向持之以恒地沉淀核心技术，并为整个社区不断地注入新的活力；另一方面也会积极探索 Agents 技术与快手业务的结合，尝试更多有趣、有价值的创新应用落地。

{{userData.name}}已认证

快手Agents零碎、模型、数据全部开源！

大模型+机器人，详尽的综述报告来了，多位华人学者参与

我们深入华为这场线下闭门会，全方位围观中国大模型这一年

谷歌这款新概念键盘，治好了我多年的老病

消息称微软 AI 助手 Copilot 已可在中国内地正常使用

苹果为其 AI 构筑“云处理安全堡垒”：公开指南和研究环境，漏洞悬赏最高 100 万美元

无需训练即可创建数字人，字节PersonaTalk视频口型编辑超SOTA

字节跳动内测 AI 模型分享社区“炉米 Lumi”，据称集成 LLM 分享 / 搭建 / 训练等功能

智谱清言上线情感语音模型 GLM-4-Voice：可理解情感，有情绪表达和共鸣

超越YOLOv10/11、RT-DETRv2/3！中科大D-FINE重新定义边界框回归任务

消息称谷歌将推出“Project Jarvis”：可实现网页任务自动化