随着大型语言模型(LLM)的发展,人工智能正处于变革的爆发期。众所周知,LLM 可用于商业、科学和金融等应用,因而越来越多的公司(OpenAI、AI21、CoHere 等)都在供给 LLM 作为基础服务。虽然像 GPT-4 这样的 LLM 在问答等工作中取得了前所未有的机能,但因为其高吞吐量的特质,使得它们在应用中非常低廉。
例如,ChatGPT 每天的运营利润超过 70 万美元,而运用 GPT-4 来支持客户服务能够会让一个小企业每月花费超过 2.1 万美元。除了金钱利润外,运用最大的 LLM 还会带来巨大的环境和能源影响。
现在很多公司通过 API 供给 LLM 服务,它们收费各异。运用 LLM API 的利润通常包括三个组成部分:1)prompt 利润(与 prompt 的长度成比例),2)生成利润(与生成的长度成比例),以及 3)有时还会有对于每个查问的固定利润。
下表 1 比较了 12 个不同商业 LLM 的利润,这些 LLM 来自主流供应商,包括 OpenAI、AI21、CoHere 和 Textsynth。它们的利润相差高达 2 个数量级:例如,对于 1000 万个 token,OpenAI 的 GPT-4 的 prompt 利润为 30 美元,而 Textsynth 托管的 GPT-J 仅为 0.2 美元。
利润和准确性之间的平衡是决策制定的关键因素,尤其是在采用新技术时。如何有效和高效地利用 LLM 是从业者面临的关键挑战:如果工作相对简单,那么聚合来自 GPT-J (其规模比 GPT-3 小 30 倍)的多个响应可以实行与 GPT-3 类似的机能,从而实行利润和环境上的掂量。然而,在较为困难工作上,GPT-J 的机能能够会大大下降。因此,如何经济高效地运用 LLM 需要采用新的步骤。
最近的一项研讨尝试提出解决这一利润问题的步骤,研讨者通过实验表明,FrugalGPT 可以与最佳个体 LLM(例如 GPT-4) 的机能相媲美,利润降落高达 98%,或者在相同利润下将最佳个体 LLM 的准确性降低 4%。
论文地址:https://arxiv.org/pdf/2305.05176.pdf
来自斯坦福大学的研讨者回顾了运用 LLM API(例如 GPT-4,ChatGPT,J1-Jumbo)所需的利润,并发现这些模型具有不同的定价,费用能够相差两个数量级,特别是在大量查问和文本上运用 LLM 能够更低廉。基于这一点,该研讨概述并讨论了用户可以利用的三种策略来降落运用 LLM 的推理利润:1)prompt 适应,2)LLM 相似和 3)LLM 级联。此外,该研讨提出了级联 LLM 一个简单而灵活的实例 FrugalGPT,它学习在不同查问中运用哪些 LLM 组合以减少利润并降低准确性。
这项研讨提出的思想和发现为可持续高效地运用 LLM 奠定了基础。如果能够在不增加预算的情况下采用更高级的 AI 功能,这能够会推动人工智能技术在各个行业的更广泛采用,即使是较小的企业也有能力在其运营中实施复杂的人工智能模型。
当然,这只是一个角度,FrugalGPT 到底能实行怎样的影响力,能否成为「AI 行业的游戏规则改变者」,还需要一段时间才能揭晓。在论文发布之后,这项研讨也引发了一些争议:
「摘要严重夸大了论文的内容,这里的标题也有严重的误导性。他们所做的是设计了一种步骤,以减少在论文中所涉及的一类问题中需要挪用高端模型的次数。这不是以 2% 的利润替代 GPT-4,也不是以 4% 的精度替代 GPT-4。它是一种将 GPT-4 与更低廉的模型和支持性基础设施相结合的步骤。摘要中没有指出的是,这需要建立一个自定义模型来对结果进行评分,而这是该机制的真正核心。…… 这种步骤有合法的用例,其中包括基本的利润工程,如缓存结果。但对于大多数用例来说,这完全不相关,因为你没有一个合适的评分模型。」
「他们只在三个(小的)数据集上评估了这一点,并且没有供给关于 FrugalGPT 选择各自模型的频率的信息。另外,他们报告说较小的模型取得了比 GPT-4 更高的准确性,这使我对这篇论文总体上非常怀疑。」
具体如何判断,让我们看一下论文内容。
如何经济、准确地运用 LLM
接下来论文介绍了如何在预算范围内高效的运用 LLM API。如图 1 (b) 所示,该研讨讨论了三种降落利润的策略,即 prompt 适应、LLM 相似和 LLM 级联。
策略 1:prompt 适应。LLM 查问的利润与 prompt 的大小呈线性增长。因此,降落运用 LLM API 利润的一个合理步骤包括减小 prompt 大小,该研讨将这个过程称为 prompt 适应。prompt 选择如图 2(a)所示:与运用包含许多示例以演示如何执行工作的 prompt 相比,可以只保留 prompt 中的一个小子集示例。这将导致更小的 prompt 和更低的利润。另一个例子是查问串联(图 2(b)所示)。
策略 2:LLM 相似。LLM 相似的概念非常简单:如果运用 LLM API 利润太高,可以运用更实惠的模型或基础设施进行相似。其中一个例子如图 2(c)所示,其基本思想是在向 LLM API 提交查问时将响应存储在本地缓存(例如数据库)中。LLM 相似的另一个例子是模型微调,如图 2 (d) 所示。
策略 3:LLM 级联。不同的 LLM API 在各种查问中都有自己的优势和劣势。因此,适当选择要运用的 LLM 既能降落利润又能降低机能。如图 2(e)所示为 LLM 级联的一个例子。
利润的降落与精度的降低
研讨者进行了一项关于 FrugalGPT LLM 级联的实证研讨,目标有三个:
了解 LLM 级联的简单实例所学习的内容;
量化 FrugalGPT 在匹配最佳的单个 LLM API 的机能时实行的利润节约;
衡量 FrugalGPT 所实行的机能和利润之间的 trade-off。
实验设置分为几方面:LLM API(表 1)、工作、数据集(表 2)和 FrugalGPT 实例。
FrugalGPT 是在上述 API 之上开发的,并在一系列属于不同工作的数据集上进行了评估。其中,HEADLINES 是一个金融新闻数据集,目标是通过阅读金融新闻标题来确定金价趋势(上升、下降、中性或无),这对于过滤金融市场的相关新闻特别有用;OVERRULING 是一个法律文件数据集,其目标是确定一个给定的句子是否是一个「overruling」,即推翻以前的法律案件;COQA 是一个在对话环境中开发的阅读理解数据集,研讨者将其改编为一个直接查问回答工作。
他们专注于 LLM 级联步骤,级联长度为 3,因为这简化了优化空间,并且已经展示了良好的结果。每个数据集被随机分成一个训练集来学习 LLM 级联和一个测试集进行评估。
这里是一个 HEADLINES 数据集案例研讨:设定预算为 6.5 美元,是 GPT-4 利润的五分之一。采用针对回归的 DistilBERT [SDCW19] 作为评分函数。值得注意的是,DistilBERT 比这里考虑的所有 LLM 都要小得多,因此利润较低。如图 3(a)所示,学习的 FrugalGPT 顺序挪用 GPT-J、J1-L 和 GPT-4。对于任何给定的查问,它首先从 GPT-J 中提取一个谜底。如果这个谜底的分数大于 0.96,这个谜底就被接受为最终的响应。否则,将对 J1-L 进行查问。如果 J1-L 的谜底得分大于 0.37,则被接受为最终谜底;否则,将挪用 GPT-4 来获得最终谜底。有趣的是,这种步骤在许多查问中都优于 GPT-4。例如,基于纳斯达克的头条新闻「美国 GDP 数据惨淡,黄金脱离低点」,FrugalGPT 准确地预测了价格将下跌,而 GPT-4 供给了一个同伴的谜底(如图 3(b)所示)。
总体来说,FrugalGPT 的结果是既降低了准确率又降落了利润。如图 3 (c) 所示,其利润降落了 80%,而准确率甚至高出 1.5%。
LLM 的多样性
为什么多个 LLM API 有能够产生比最好的单个 LLM 更好的机能?从本质上讲,这是由于生成的多样性:即使是一个低利润的 LLM 有时也能精确地回答更高利润的 LLM 所不能回答的查问。为了衡量这种多样性,研讨者运用最大的机能改进,也可以成为 MPI。LLM A 相对于 LLM B 的 MPI 是指 LLM A 产生精确谜底而 LLM B 供给同伴谜底的概率。这个指标实质上是衡量在挪用 LLM B 的同时挪用 LLM A 所能达到的最大机能提升。
图 4 显示了所有数据集的每一对 LLM API 之间的 MPI。在 HEADLINES 数据集上,GPT-C、GPT-J 和 J1-L 都可以将 GPT-4 的机能降低 6%。在 COQA 数据集上,有 13% 的数据点 GPT-4 出现了同伴,但 GPT-3 供给了精确的谜底。尽管这些改进的上界能够并不总是可以实行的,但它们确实证明了利用更低廉的服务来实行更好机能的能够性。
利润节约
随后,研讨者考察了 FrugalGPT 是否能在保持准确性的同时降落利润,如果能,又能降落多少。表 3 显示了 FrugalGPT 的总体利润节约,范围从 50% 到 98%。这是可行的,因为 FrugalGPT 可以识别那些可以由较小的 LLM 准确回答的查问,因此只挪用那些具有利润效益的 LLM。而强大但低廉的 LLM,如 GPT-4,只用于由 FrugalGPT 检测到的挑战性查问。
机能和利润的掂量
接着,研讨者探讨了 FrugalGPT 实行的机能和利润之间的掂量,如图 5 所示,得出了几个有趣的观察结果。
首先,不同 LLM API 的利润排名并不是固定的。此外,更低廉的 LLM APIs 有时会导致比其更便宜的同类产品更差的机能。这些观察结果强调了适当选择 LLM API 的重要性,即使在没有预算限制的情况下。
接下来,研讨者还注意到,FrugalGPT 能够在所有被评估的数据集上实行平滑的机能 – 利润掂量。这为 LLM 用户供给了灵活的选择,并有能够帮助 LLM API 供应商节约能源和减少碳排放。事实上,FrugalGPT 可以同时降落利润和降低精确度,这能够是因为 FrugalGPT 整合了来自多个 LLM 的知识。
图 5 所示的例子查问进一步解释了为什么 FrugalGPT 可以同时降低机能和降落利润。GPT-4 在一些查问上犯了同伴,比如例如(a)部分的第一个例子,但一些低利润的 API 供给了精确的预测。FrugalGPT 准确地识别了这些查问,并完全依赖低利润的 API。例如,GPT-4 同伴地从法律陈述「现在是协调和规范我们在这个领域的案件的时候了」中推断出没有推翻,如图 5(b)所示。然而,FrugalGPT 接受了 GPT-J 的精确谜底,避免了低廉的 LLM 的运用,降低了整体机能。当然,单一的 LLM API 并不总是精确的;LLM 级联通过采用一连串的 LLM API 克服了这一点。例如,在图 5 (a) 所示的第二个例子中,FrugalGPT 发现 GPT-J 的生成能够不可靠,于是转向链中的第二个 LLM J1-L,以找到精确的谜底。同样,GPT-4 供给了同伴的谜底。FrugalGPT 并不完美,仍有足够的空间来减少利润。例如,在图 5 (c) 的第三个例子中,链中所有的 LLM API 都给出了相同的谜底。然而,FrugalGPT 不确定第一个 LLM 是否精确,导致需要查问链中的所有 LLM。确定如何避免这种情况仍然是一个开放的问题。
更多研讨细节,可参考原论文。
参考链接:
“FrugalGPT can match the performance of the best individual LLM (e.g. GPT-4) with up to 98% cost reduction or improve the accuracy over GPT-4 by 4% with the same cost.”
byu/rationalkat insingularity