三个臭皮匠顶个诸葛亮?可能是真的,已证实混杂多个小模型机能比肩GPT3.5

对模型参数量的迷信、执念也许可以放下了,混杂多个小模型也是未来构造对话型 AI 的一个光明的方向。在对话型人工智能(AI)研究中,存在趋势即朝着开发参数更多的模型方向发展,如 ChatGPT 等为代表的模型。尽管这些庞大的模型能够生成越来越好的对话呼应,但它们同时也需要大量的计算资源和内存。本文研究探讨的问题是:一组小模型是否能够协同达到与单一大模型相当或更好的机能? 本文介绍了一种创新而简单的方法:混杂。作家展示了如果从一组小规模的对话型人工智能中随机选择回复,生成的对话型人工智能拥有很强的机能和吸引力,可以赛过

对模型参数量的迷信、执念也许可以放下了,混杂多个小模型也是未来构造对话型 AI 的一个光明的方向。

在对话型人工智能(AI)研究中,存在趋势即朝着开发参数更多的模型方向发展,如 ChatGPT 等为代表的模型。尽管这些庞大的模型能够生成越来越好的对话呼应,但它们同时也需要大量的计算资源和内存。本文研究探讨的问题是:一组小模型是否能够协同达到与单一大模型相当或更好的机能? 

本文介绍了一种创新而简单的方法:混杂。

作家展示了如果从一组小规模的对话型人工智能中随机选择回复,生成的对话型人工智能拥有很强的机能和吸引力,可以赛过参数数量级大很多的零碎。作家观察到混杂模型似乎拥有 “最优” 的特征,通过在对话历史上进行条件化呼应,一个拥有一定属性的单一模型能够学习其他零碎的能力。可以为用户提供更令人着迷和多样化的回复和使用体验。

作家通过在 CHAI 平台上进行大规模 A/B 尝试,证明了混杂模型的有效性。在真实用户的尝试中,包含三个 6-13B 参数 LLM 的混杂模型,赛过了 OpenAI 的 175B + 参数 ChatGPT。并且混杂模型的用户保存率明显高于基于 ChatGPT 的对话型人工智能,说明用户认为混杂对话型人工智能更具吸引力、娱乐性和实用性,尽管混杂模型仅需要消耗少量的推理成本和内存开销。

三个臭皮匠顶个诸葛亮?可能是真的,已证实混杂多个小模型机能比肩GPT3.5

论文:Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM

论文链接:https://arxiv.org/pdf/2401.02994.pdf

模型链接:https://huggingface.co/ChaiML

混杂模型

对话型 AI

对话型人工智能的目标是设计一个能够生成令人着迷、富有娱乐性的对话零碎,供人们进行交互。设 uk 表示用户的第 k 轮对话,其中每个用户轮次是一个单词序列,uk = (w (k) 1 . . . , w (k) |uk| )。同样地,设 rk 表示零碎生成的第 k 个呼应,也是一个单词序列,rk = (w (k) 1 , . . . , w (k) |rk| )。作为一种隐式语言模型,一个一定的对话型人工智能,参数化为 θ,在给定先前对话历史的情况下,建模预测下一个呼应出现的概率。

三个臭皮匠顶个诸葛亮?可能是真的,已证实混杂多个小模型机能比肩GPT3.5

在训练过程中,零碎隐式学习将更高的概率分配给流畅、令人着迷和高质量的呼应。因此,可以通过从其分布中随机采样输出,无论是通过随机方法,还是通过像波束搜索这样的类似搜索过程。

三个臭皮匠顶个诸葛亮?可能是真的,已证实混杂多个小模型机能比肩GPT3.5

受 InstructGPT 的启发,最先进的对话型人工智能通常遵循三阶段的流程。首先,对预训练语言模型 (PrLM) 进行微调,该模型在相关的文本领域进行训练,例如,在设计令人着迷的聊天机器人时使用有趣的文学作品。其次,使用明确的人类反馈来训练奖励模型。最后,使用奖励模型改进原始的 PrLM,可以采用近端策略优化或者采用简单的拒绝抽样策略。

在开发一定的对话型人工智能时,存在许多设计选择,如基础 PrLM、用于微调的对话数据以及用于更新零碎的人类反馈。人们可能期望不同的方法和训练数据能产生高度多样的零碎,每个零碎都展示出独特的优势和特征。然后,可以考虑如何将一组对话型人工智能组合起来,形成拥有总体更好特性的零碎。

集成

根据贝叶斯统计原理,分配给一定呼应的概率可以被概念化为对所有合理的对话型人工智能参数取边际期望,

三个臭皮匠顶个诸葛亮?可能是真的,已证实混杂多个小模型机能比肩GPT3.5

在实践中,当只能访问有限的一组对话型人工智能零碎 {θ1, θ2…θN} 时,可以将连续积分类似为离散求和。此外可以假设 PΘ(θ) 在这些零碎上均匀分布,即 PΘ(θn) = 1/N,如果该集合包含机能相似的模型,这是一个有效的假设,可以得到下面的类似式:三个臭皮匠顶个诸葛亮?可能是真的,已证实混杂多个小模型机能比肩GPT3.5

混杂

作家提出的方法目标是从真实的集成分布 (方程 8) 中类似抽样。为了实现这种类似,在每一轮对话混杂模型都会随机 (均匀地) 选择生成当前呼应的对话型人工智能 θ。这个过程在下面的算法 1 中有详细描述。需要注意的是,在对话过程中,一定对话型人工智能生成的呼应是在先前选择的对话型人工智能生成的所有先前呼应的条件下进行的。这意味着不同的对话型人工智能能够隐式地影响当前呼应的输出。因此当前呼应是个体对话型人工智能优势的混杂,它们共同合作以创建整体更吸引人的对话。

三个臭皮匠顶个诸葛亮?可能是真的,已证实混杂多个小模型机能比肩GPT3.5

实验

对于在 Chai Research 平台上部署的每个对话型人工智能,作家根据 A/B 尝试设置中的 (文章 4.2 节的公式 15) 计算每一天 k 的用户参与度。通过考虑第 20 天 (k=20),图 1 显示了混杂模型、其组成的对话型人工智能以及 OpenAI 的 GPT-3.5 的参与度比例。作家观察到中等大小的对话型人工智能 (Pygmillion、Vicuna 和 ChaiLLM) 的参与度明显低于 GPT3.5,这是在预期内的,因为 GPT3.5 的参数数量要高一个数量级。然而,混杂这三个基本对话型人工智能,混杂模型的结果不仅比每个组成零碎都拥有更高的参与度,而且机能提升明显,以至于混杂模型可以赛过 OpenAI 的 GPT3.5。与其他对话型人工智能相比,混杂模型的成功也可以通过比较 k=20 的用户保存比 (文章 4.1 节的公式 10) 来计算,结果如图 1 所示。

三个臭皮匠顶个诸葛亮?可能是真的,已证实混杂多个小模型机能比肩GPT3.5

混杂模型总共有 25 亿参数,而 OpenAI 有 1750 亿参数。此外,由于混杂模型的呼应是从单个对话型人工智能中随机抽样的,因此推理成本等同于单个 6B/13B 零碎的成本。在图 2 和图 3 中,可以看出推理速度的明显差异,可以观察到混杂模型在参与度和用户保存方面有明显的机能提升,而速度与小型对话型人工智能相当。这拥有重要意义:与其扩大零碎规模以提高质量,不如简单地混杂多个较小的开源零碎,而且在不增加任何推理成本的情况下,可以极大地改善用户的对话体验。这证明了在设计令人着迷且成功的对话型人工智能时,模型协作比简单的模型参数扩展更为重要。

三个臭皮匠顶个诸葛亮?可能是真的,已证实混杂多个小模型机能比肩GPT3.5

三个臭皮匠顶个诸葛亮?可能是真的,已证实混杂多个小模型机能比肩GPT3.5

作为客观比较,表 1 报告了单一指标摘要 (论文 3.3 节)。以 Pygmillion 为控制组,作家提供了尝试相对于控制组的参与度比例指标∆α 和∆γ,以及尝试相对于控制组的保存比例指标∆ζ 和∆β。混杂模型拥有最高的相对初始参与度,∆α,以及最佳的参与度比例衰减率,∆γ。尽管 Vicuna 的保存比例衰减率∆β 优于混杂模型,但 Vicuna 的初始保存比例∆ζ 明显较低,说明 Vicuna 需要更长的时间来达到混杂模型的保存分数 6,如前面图 2 和 3 所示。总体而言,很明显,混杂模型通过协作多个较小的对话型人工智能,在提供比单个更大的对话型人工智能 (OpenAI 的 GPT3.5) 更高质量的对话方面是有效的。

三个臭皮匠顶个诸葛亮?可能是真的,已证实混杂多个小模型机能比肩GPT3.5

给TA打赏
共{{data.count}}人
人已打赏
工程

为什么普通人「出圈」,都在小红书?

2024-1-16 15:01:00

工程

模型越大,本能越好?苹果自返回视觉模型AIM:没错

2024-1-18 11:51:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索