向完全自主性更进一步,清华、港大全新跨恣意自我退化政策让智能体学会「以经历为鉴」

「以史为鉴,可以知兴替。」 人类的进步史,可以看作是一个接续吸取曩昔经历、接续推进威力边界的自我蜕变过程。在这个过程中,我们吸取曩昔失败的教训以纠正错误,借鉴成功的经历以提高效益和效果。这种自我退化的过程在我们的生活中无所不在:从如何总结经历以更好地解决工作中的问题,到如何行使规律更精确地预测天气,我们都在接续地从曩昔的经历中学习和退化。成功从曩昔的经历中提取知识并将其应用于未来的挑战,这是人类退化之路上重要的里程碑。那么在人工智能时代,AI 智能体是否也可以做到同样的事情呢?近年来,GPT 和 LLaMA 等语言

「以史为鉴,可以知兴替。」 人类的进步史,可以看作是一个接续吸取曩昔经历、接续推进威力边界的自我蜕变过程。在这个过程中,我们吸取曩昔失败的教训以纠正错误,借鉴成功的经历以提高效益和效果。这种自我退化的过程在我们的生活中无所不在:从如何总结经历以更好地解决工作中的问题,到如何行使规律更精确地预测天气,我们都在接续地从曩昔的经历中学习和退化。

成功从曩昔的经历中提取知识并将其应用于未来的挑战,这是人类退化之路上重要的里程碑。那么在人工智能时代,AI 智能体是否也可以做到同样的事情呢?

近年来,GPT 和 LLaMA 等语言模型展示了他们在解决复杂恣意时的惊人威力。然而,他们尽管可以行使东西解决具体恣意,但在本质上缺乏对曩昔成功和失败经历的洞见与汲取。这就像一个只会实现特定恣意的机器人,虽然在实现当下恣意上表现出色,但面对新的挑战时,却无法挪用曩昔的经历来提供帮助。

针对这一难题,近期来自清华大学、香港大学、人民大学以及面壁智能的联合团队提出了一种全新的智能体自我蜕变政策:试探 – 固化 – 行使(Investigate-Consolidate-Exploit,ICE)。它旨在通过跨恣意的自我退化来提高 AI 智能体的适应性和灵活性。其不仅能提高智能体处理新恣意时的效益和效果,还能显著降低对智能体基座模型威力的需求。

这个政策的出现,无疑为智能体的自我退化开启了全新的篇章,也意味着我们离实现智能体的完全自主性又迈进了一步。

向完全自主性更进一步,清华、港大全新跨恣意自我退化政策让智能体学会「以经历为鉴」

论文标题:Investigate-Consolidate-Exploit: A General Strategy for Inter-Task Agent Self-Evolution

论文链接:https://arxiv.org/abs/2401.13996

向完全自主性更进一步,清华、港大全新跨恣意自我退化政策让智能体学会「以经历为鉴」智能体恣意间经历迁移以实现自我退化概览图

智能体自我退化的两个方面:筹备与实行

当下大部分复杂智能体都可以分成恣意筹备(Planning)与恣意实行(Execution)两大方面。在恣意筹备上,智能体通过推理将用户需求细化并制定实现目的的详细政策;而在恣意实行上,智能体通过东西挪用实现与环境的交互,从而实现相应子目的。

为了更好地促进以往经历的重复行使,作者首先将这两方面的退化政策解耦。他们以 XAgent 智能体架构中的树状恣意筹备结构以及 ReACT 链式东西实行为例,分别介绍了 ICE 政策的具体实现。

向完全自主性更进一步,清华、港大全新跨恣意自我退化政策让智能体学会「以经历为鉴」智能体恣意筹备的 ICE 自我蜕变政策

对于恣意筹备,自我退化依照 ICE 被分为以下三个阶段:

在试探阶段,智能体记录下整个树状恣意筹备结构,并同时动态检测各个子目的的实行状态;

在固化阶段,智能体首先剔除所有失败的目的结点,之后对于每个成功实现的目的,智能体将以该目的为子树的所有叶子结点依次排开形成一条筹备链(Workflow)

在行使阶段,这些筹备链将被作为新恣意目的分解细化的参考依据,以行使过往的这些成功经历。

向完全自主性更进一步,清华、港大全新跨恣意自我退化政策让智能体学会「以经历为鉴」智能体恣意实行的 ICE 自我蜕变政策

恣意实行的自我蜕变政策依然分为 ICE 三个阶段,其中:

在试探阶段,智能体动态记录每个目的实行的东西挪用链,并对东西挪用中出现的可能问题进行简单的检测归类;

在固化阶段,东西挪用链将被转化为类似自动机的流水线(Pipeline)结构,东西挪用顺序与挪用之间的转移关系将被固定,同时还会去掉重复挪用,增加分支逻辑等等让自动机自动化实行流程更加鲁棒;

在行使阶段,对于相似的目的,智能体将直接自动化实行流水线,从而提高恣意实现效益。

XAgent 框架下的自我退化实验

作者在 XAgent 框架中对提出的 ICE 自我蜕变政策进行了测试,并总结了以下四点发现:

ICE 政策能够显著降低模型的挪用次数,从而提高效益,减少开销。

保存的经历在 ICE 政策下有着较高的复用率,这证明了 ICE 的有效性。

ICE 政策能够提高子恣意实现率同时减少筹备返修的次数。

通过以往经历的加持,恣意实行对模型威力的要求显著下降。具体来看,使用 GPT-3.5 搭配上之前的恣意筹备与实行经历,效果可以直接媲美 GPT-4。

向完全自主性更进一步,清华、港大全新跨恣意自我退化政策让智能体学会「以经历为鉴」在试探 – 固化进行经历保存后,测试集恣意在不同智能体 ICE 政策下的表现

同时,作者还进行了额外的消融实验:在保存经历逐渐增加的情况下,智能体的表现是否越来越好?答案是肯定的。从零经历,半经历,到满经历,基座模型的挪用次数逐渐减少,而子恣意实现度逐渐提高,同时复用率也有升高。这表明更多的过往经历能够更好地促进智能体实行,实现规模效应。

向完全自主性更进一步,清华、港大全新跨恣意自我退化政策让智能体学会「以经历为鉴」在不同经历保存量下,测试集恣意表现的消融实验结果统计

结语

畅想一下,在人人都能够部署智能体的世界中,成功经历的数量会随着智能体个体恣意实行接续累积,而用户也可以将这些经历在云端中、社区里进行分享。这些经历将促使智能体接续汲取威力,自我退化,逐渐达到完全自主。我们向这样的时代又迈进了一步。

给TA打赏
共{{data.count}}人
人已打赏
应用

摧毁房价的,可能是Apple Vision Pro

2024-2-6 17:50:00

应用

通义千问再开源,Qwen1.5带来六种体量模型,功能超越GPT3.5

2024-2-6 20:41:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索