数目即力量!腾讯揭秘:Agent数目越多,大谈话模型效果越好

来自腾讯的研究者们做了一个关于 agent 的scaling property(可拓展性)的工作。发现:通过简略的采样投票,大谈话模型(LLM)的本能,会随着实例化agent数目的添加而加强。其第一次在广泛的场景下验证了该现象的普遍性,与其他庞大方式的正交性,以及研究了其背后的原因,并提出进一步促成scaling发挥威力的办法。论文标题:More Agents Is All You Need论文地址::,来自腾讯的研究者发现:只需通过一种简略的采样投票法,大谈话模型的本能就会随着实例化 agent 的数目的增大而增

来自腾讯的研究者们做了一个关于 agent 的scaling property(可拓展性)的工作。发现:通过简略的采样投票,大谈话模型(LLM)的本能,会随着实例化agent数目的添加而加强。其第一次在广泛的场景下验证了该现象的普遍性,与其他庞大方式的正交性,以及研究了其背后的原因,并提出进一步促成scaling发挥威力的办法。

数目即力量!腾讯揭秘:Agent数目越多,大谈话模型效果越好

论文标题:More Agents Is All You Need

论文地址:https://arxiv.org/abs/2402.05120

代码地址:https://github.com/MoreAgentsIsAllYouNeed/More-Agents-Is-All-You-Need

本文中,来自腾讯的研究者发现:只需通过一种简略的采样投票法,大谈话模型的本能就会随着实例化 agent 的数目的增大而加强,呈现scaling property(可拓展性),无需庞大的多 LLM agents 合作框架以及prompt工程方式的加持。此外,该方式与现有的庞大方式正交,结合之后,可进一步加强 LLM,其加强程度与义务难度相关。该论文做了第一个关于 raw agent(指不依赖庞大的prompt工程和合作框架的LLM agent)的 scaling property 的研究,其对各种 LLM 基准进行了全面的实验,以验证此发现的普遍性,并研究了可以促进其发生的策略。目前代码已开源。

数目即力量!腾讯揭秘:Agent数目越多,大谈话模型效果越好

                                    多个小模型超过大模型

论文讨论了诸多集成 LLM 的相关工作,包括 LLM 自集成、异构 LLM 集成、还有关于多个 LLM Agents 合作框架的工作,并与提出的方式进行了对比,可以看出论文进行了更全面的研究和分析:

数目即力量!腾讯揭秘:Agent数目越多,大谈话模型效果越好

为了研究大型谈话模型的本能如何随着实例化 agents 数目的添加而提高。论文使用了一种简略的采样和投票方式(作者用了 simple (st) 的说法,可见他们认为这个方式也许是最简略的方式之一)。值得注意的是,此方式可与现有的庞大方式正交结合。它可以被分为两个阶段:

将义务 query 输入到单个 LLM 或多个 LLM Agents 合作框架中,生成多个输出;

通过多数投票确定最终结果

数目即力量!腾讯揭秘:Agent数目越多,大谈话模型效果越好

论文从 Llama2 和 GPT 系列选择不同规模的谈话模型进行评估,义务数据集涵盖推理和生成等多个领域。实验结果表明,在所有义务和不同种类、规模的 LLM 上,发现 LLM 的本能随着实例化 agent 的数目而添加。

数目即力量!腾讯揭秘:Agent数目越多,大谈话模型效果越好

例如,在 GSM8K 义务上提高了 12% 至 24%,在 MATH 上提高了 6% 至 10%。有趣的是,多个小 LLM 集成可以达到甚至超越较大 LLM 的本能。例如,多个 Llama2-13B 的集成在 GSM8K 上达到了 59% 准确率,超过了单一 Llama2-70B 的 54% 的准确率。

数目即力量!腾讯揭秘:Agent数目越多,大谈话模型效果越好

进一步地,作者还探索了与其他方式的兼容性。尽管这些方式实现各不相同,但是在与之结合使用时,本能可以进一步提高,并同样符合实例化 agent 越多,本能增益越强的现象。实验结果显示增益范围从 1% 到 27% 不等,说明这个简略的方式通过和其他方式正交使用可以进一步加强 LLM 的本能。

数目即力量!腾讯揭秘:Agent数目越多,大谈话模型效果越好

数目即力量!腾讯揭秘:Agent数目越多,大谈话模型效果越好

                                   鉴于 LLama13B

数目即力量!腾讯揭秘:Agent数目越多,大谈话模型效果越好

                                 鉴于 LLama70B

数目即力量!腾讯揭秘:Agent数目越多,大谈话模型效果越好

                              鉴于 GPT-3.5-Turbo

此外,论文还分析了本能提高与问题难度之间的关系。

固有难度:随着义务固有难度的添加,本能提高(即相对本能增益)也会添加,但当难度达到一定程度后,增益会逐渐减少。这表明在义务过于庞大时,模型的推理能力可能无法跟上,导致本能提高的边际效应递减。

步调数目:随着解决义务所需的步调数目添加,本能提高也会添加。这表明在多步调义务中,通过添加 agent 数目可以帮助模型更好地处理每一步,从而整体提高义务的解决本能。

先验概率:正确答案的先验概率越高,本能提高越大。这意味着在正确答案更有可能的情况下,添加 agent 数目更有可能带来显著的本能提高。

数目即力量!腾讯揭秘:Agent数目越多,大谈话模型效果越好

节点:步调,虚线:可能的替代步调。节点的深度:步调的数目,颜色的强度:固有难度的水平。图示帮助读者理解义务的庞大性是如何通过这些维度来衡量的。

鉴于此,论文提出了两种优化策略来进一步提高方式的有效性:

逐步采样和投票(Step-wise Sampling-and-Voting):这种方式将义务分解为多个步调,并在每个步调中应用采样和投票,以减少累积错误并提高整体本能。

分层采样和投票(Hierarchical Sampling-and-Voting):这种方式将低概率义务分解为多个高概率子义务,并分层解决,同时可以使用不同模型来处理不同概率的子义务以降低成本。数目即力量!腾讯揭秘:Agent数目越多,大谈话模型效果越好

最后,提出了未来的工作方向,包括优化采样阶段以降低成本,并继续开发相关机制来减轻 LLM 幻觉(hallucinations)的带来的潜在负面影响,确保这些强大模型的部署既负责任又有益。

给TA打赏
共{{data.count}}人
人已打赏
工程

MATRIX:社会仿照推动大模型价值自对齐,比GPT4更「体贴」

2024-2-27 14:47:00

工程

微软37页论文逆向工程Sora,得到了哪些结论?

2024-3-1 15:17:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索