快手Agents系统、模型、数据全部开源!

快手联合哈尔滨工业大学研发的「KwaiAgents」,使7B/13B模型也能达到超越GPT-3.5的效果,并且这些系统、模型、数据、评测都开源了!7B 大小的模型也能玩转 AI Agents 了?近期,快手开源了「KwaiAgents」,问它周末滑雪问题,它不但帮你找到场地,连当天的天气都帮你考虑周到了。大家都知道大语言模型(LLM)通过对语言的建模而掌握了大量知识,并具备一定认知和推理能力。但即使是当前最强的 GPT-4,单独使用的情况下,依然会一本正经地胡说八道,无法跟世界保持实时的交互。AI Agents 就

快手联合哈尔滨工业大学研发的「KwaiAgents」,使7B/13B模型也能达到超越GPT-3.5的效果,并且这些系统、模型、数据、评测都开源了!

7B 大小的模型也能玩转 AI Agents 了?近期,快手开源了「KwaiAgents」,问它周末滑雪问题,它不但帮你找到场地,连当天的天气都帮你考虑周到了。

快手Agents系统、模型、数据全部开源!

大家都知道大语言模型(LLM)通过对语言的建模而掌握了大量知识,并具备一定认知和推理能力。但即使是当前最强的 GPT-4,单独使用的情况下,依然会一本正经地胡说八道,无法跟世界保持实时的交互。AI Agents 就是解决这个问题的道路之一,通过激发大模型任务规划、反思、调用工具等能力,使大模型能够借助现实世界工具提升生成内容的准确性,甚至有能力解决复杂问题。这一次,快手联合哈尔滨工业大学研发的「KwaiAgents」,使 7B/13B 的 “小” 大模型也能达到超越 GPT-3.5 的效果,并且这些系统、模型、数据、评测都开源了!

图片图片

技术报告:https://arxiv.org/abs/2312.04889

项目主页:https://github.com/KwaiKEG/KwaiAgents

从「KwaiAgents」的 Github 主页中可以看到,本次开源内容包含:

系统(KAgentSys-Lite):轻量级 AI Agents 系统,并配备事实、时效性工具集;

模型(KAgentLMs):Meta-Agent Tuning 后,具有 Agents 通用能力的系列大模型及其训练数据;

评测(KAgentBench):开箱即用的 Agent 能力自动化评测 Benchmark 与人工评测结果。

图片

系统

KAgentSys 系统,是基于大模型作为认知内核,配以记忆机制、工具库,形成的迭代式自动化系统。其主要包含:

记忆机制:包含知识库、对话、任务历史三类记忆,依托于混合向量检索、关键词检索等技术的检索框架,在每一次规划路径中检索所需的信息。

工具集:包含事实性增强工具集,异构的搜索和浏览机制能够汇集网页、文本百科、视频百科等多个来源的知识;包含日历、节日、时间差、天气等常见的时效性增强工具集。

自动化 Loop:在一轮对话中,用户会给予一个问题,可选知识库及额外人设整体进行输入,系统会先进行记忆的更新和检索,再调用大模型进行任务的规划,如果需要调用工具则进行调用,如果不用则进入总结阶段,大模型综合历史的信息给出符合预期的回答。

本次开源 KAgentSys 的部分能力,系统将逐步进行升级和开放。

模型

为了避免训练中单一模板引起的过拟合问题,团队提出 Meta-Agent Tuning (MAT) 的方法,通过在训练数据中引入更多 Agent Prompt 模板,从而提升大模型在 Agent 能力上的通用性,并提升了效果。

图片

Meta-Agent Tuning (MAT) 分为两阶段:

模板生成阶段:通过设计 Meta-Agent,对特定问题集合,生成实例化的 Agent Prompt 模板(上右图为一个例子)候选;并在相同的实验环境下,生成模板产出的候选结果,与开源模板(如 ReAct,AutoGPT 等)产出的高置信结果,用打分模型进行对比打分,从而筛选出高质量的 Agent Prompt 模板库。通过引入这些多元的模板,能够显著降低模型微调时对模板的依赖,提纯更本质的 Agents 在任务规划、工具使用、反思等能力,从而提高模型的泛化性和有效性。

指令微调阶段:基于上万的模板,构建了超过 20 万的 Agent 调优指令微调数据。团队调优了一些热门开源模型如 Qwen-7B、Baichuan2-13B 等,供大家使用和参考,后续还会陆续放出其他热门模型。

评测

KAgentBench 通过人工精细化标注的上千条数据,做到了开箱即用,让大家能够用一行命令评测一个大模型在不同模板下各方面的 Agents 能力。

图片

如上图所示,在 KAgentBench 中,会对不同种类的能力构造输入,每个 query 配备多个模板和多个人工编辑的真实回答,旨在综合评测准确性和泛化性,下表显示了经过 MAT 调优后,7B-13B 模型各项能力的提升,且超越了 GPT-3.5 的效果:

图片

同时,该研究还请人类标注者在 200 个事实性和时效性的问题(如 “刘德华今年几岁了”),对不同的大模型和 Agent 系统进行了交叉评估,可以看到 KAgentSys 系统和 MAT 之后模型提升显著(百分号前为正确率,括号内为 5 分制均分)。

图片

图片

通常仅依赖网页搜索对一些长尾问题和热门问题返回结果不佳。比如问到 “安东内拉比梅西大多少天?” 这类长尾问题,往往搜索结果返回的都是一些两者的八卦新闻,而返回不了一些关键信息。而 KAgentSys 通过调用百科搜索工具获取精准的出生日期,再调用 time_delta 时间差工具算出年龄差,就能精准回答这个问题了。

团队表示,AI Agents 是一条非常有潜力的道路,未来一方面会在这个方向持之以恒地沉淀核心技术,并为整个社区不断地注入新的活力;另一方面也会积极探索 Agents 技术与快手业务的结合,尝试更多有趣、有价值的创新应用落地。

相关资讯

AI现场发了2万红包,打开了大模型Act时代

我们需要的是「真正解放双手的智能体」。 最近一段时间,大模型领域正在经历智能体(AI Agent)引发的革命。 Anthropic 推出的升级版 Claude 3.5 Sonnet,一经推出即引爆了 AI 圈。

对标GPTs但没有创建门槛,应用层的AI Agent玩家终于来了

从此在钉钉上,你只需要给出指令,其他事情交给「AI 助理」来办就可以了。2024 开年伊始,大厂便开始卷 AI Agent 了。 过去一年,人工智能行业的风向标不断发生变化,最开始备受关注的是如雨后春笋般涌现的大语言模型及 AIGC 应用,接着又出现很多基于大语言模型打造的 AI 辅助应用(如微软 Copilot)。如今 AI Agent 成为激烈角逐点,是 AIGC 下一阶段的关键。 去年 11 月, OpenAI 发布 AI Agent 初级形态产品 GPTs,让人看到智能体的应用前景。谷歌、亚马逊在该领域也有

如果 LLM Agent 成为了科学家:耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

最近的大型语言模型(LLMs)进步已经使我们处于革命性的时代,尤其是 LLMs 驱动的智能 Agents 在广泛任务中展现出了通用性和有效性。这些被称为「AI 科学家」的 Agent 已经开始探寻其在生物学和化学等各种领域内进行自主科学发现的潜力。此类 Agents 已经表现出了选择适合任务的工具,规划环境条件,以及实现实验自动化的能力。因此,Agent 可摇身一变成为真实的科学家,能够有效地设计和开展实验。在某些领域如化学设计中,Agent 所展现的能力已经超过了大部分非专业人士。然而,当我们享受着这种自动化 A