13B模型全方位碾压GPT-4?这背后有什么猫腻

你的尝试集信息在训练扩散泄漏了吗?一个参数量为 13B 的模型竟然打败了顶流 GPT-4?就像下图所展示的,并且为了确保结果的有效性,这项尝试还遵循了 OpenAI 的数据去污格式,更关键的是没有发现数据传染的证据。如果你细细查看图中的模型,发现只要带有「rephraser」这个单词,模型功能都比较高。这背后到底有何猫腻?原来是数据传染了,即尝试集信息在训练扩散遭到泄漏,而且这种传染还不易被检测到。尽管这一问题非常关键,但理解和检测传染仍然是一个开放且具有挑战性的难题。现阶段,去污最常用的格式是 n-gram 堆叠

你的尝试集信息在训练扩散泄漏了吗?

一个参数量为 13B 的模型竟然打败了顶流 GPT-4?就像下图所展示的,并且为了确保结果的有效性,这项尝试还遵循了 OpenAI 的数据去污格式,更关键的是没有发现数据传染的证据。

13B模型全方位碾压GPT-4?这背后有什么猫腻

如果你细细查看图中的模型,发现只要带有「rephraser」这个单词,模型功能都比较高。

这背后到底有何猫腻?原来是数据传染了,即尝试集信息在训练扩散遭到泄漏,而且这种传染还不易被检测到。尽管这一问题非常关键,但理解和检测传染仍然是一个开放且具有挑战性的难题。

现阶段,去污最常用的格式是 n-gram 堆叠和嵌入相似性搜刮:N-gram 堆叠依赖于字符串匹配来检测传染,是 GPT-4、PaLM 和 Llama-2 等模型常用格式;嵌入相似性搜刮利用预训练模型(例如 BERT)的嵌入来查找相似且可能受到传染的示例。

然而,来自 UC 伯克利、上海交通大学的研究表明尝试数据的简单变化(例如,改写、翻译)就可以轻松绕过现有的检测格式。他们并将尝试用例的此类变体称为「改写样本(Rephrased Samples)」。

下面演示了 MMLU 基准尝试中的改写样本。结果证明,如果训练扩散包含此类样本,13B 模型可以达到极高的功能 (MMLU 85.9)。不幸的是,现有的检测格式(例如,n-gram 堆叠、嵌入相似性)无法检测到这种传染。比如嵌入相似性格式很难将改写的问题与同一主题(高中美国历史)中的其他问题区分开来。

13B模型全方位碾压GPT-4?这背后有什么猫腻

通过类似的改写技术,本文在广泛利用的编码和数学基准尝试中观察到一致的结果,例如 HumanEval 和 GSM-8K(如文章开头图中所示)。因此,能够检测此类改写样本变得至关重要。

接下来,我们看看这项研究是如何进行的。

13B模型全方位碾压GPT-4?这背后有什么猫腻

论文地址:https://arxiv.org/pdf/2311.04850.pdf

项目地址:https://github.com/lm-sys/llm-decontaminator#detect

论文介绍

文中表示,大模型(LLM)在快速发展的同时,关于尝试集传染的问题被越来越多的重视起来,很多人对公共基准的可信度表示担忧。

为了解决这一问题,有些人采用传统的去污格式如字符串匹配(例如,n-gram 堆叠)来简略基准数据,但这些操作还远远不够,因为对尝试数据进行一些简单的更改(例如,改写、翻译)就可以轻松绕过这些净化措施。 

更重要的是,如果不消除尝试数据的这种更改,13B 模型很容易过度拟合尝试基准并实现与 GPT-4 相当的功能。他们在 MMLU、GSK8k 和 HumanEval 等基准尝试中验证了这些观察结果。

同时为了解决这些日益增长的风险,本文还提出了一种更为强大的基于 LLM 的去污格式 LLM decontaminator,并将其应用于流行的预训练和微调数据集,结果表明,本文提出的 LLM 格式在简略改写样本方面明显优于现有格式。

这一做法也揭露了一些先前未知的尝试堆叠(test overlap)。例如,在 RedPajamaData-1T 和 StarCoder-Data 等预训练扩散,

本文发现 HumanEval 基准有 8-18% 堆叠。此外,本文还在 GPT-3.5/4 生成的合成数据扩散发现了这种传染,这也说明了在 AI 领域存在潜在的意外传染风险。

本文希望,社区在利用公共基准时采取更强有力的净化格式,并呼吁社区积极开发新的一次性尝试(one-time exams)案例来准确评价模型。

改写样本

本文的目标是调查训练扩散包含尝试集的简单变化是否会影响最终的基准功能,并将尝试用例的这种变化称为「改写样本」。实验中考虑了基准的各个领域,包括数学、知识和编码。示例 1 是来自 GSM-8k 的改写样本,其中有 10-gram 堆叠无法检测到,修改后和原始文本保持相同的语义。

13B模型全方位碾压GPT-4?这背后有什么猫腻

基准传染具有不同的形式,因此改写技术存在一些细微的差异。对于基于文本的基准,本文在不改变语义的情况下改写尝试用例,例如通过重新排列词序或用同义术语替换;对于基于代码的基准尝试,本文改变编码风格、命名方式等。

如下所示,算法 1 中针对给定的尝试集提出了一种简单的算法。该格式可以帮助尝试样本逃避检测。

13B模型全方位碾压GPT-4?这背后有什么猫腻

接下来本文提出了一种新的传染检测格式,可以准确地从相对于基准的数据扩散简略改写样本。

具体而言,本文引入了 LLM decontaminator。首先,对于每个尝试用例,它利用嵌入相似度搜刮来识别具有最高相似度的 top-k 训练项,之后通过 LLM(例如 GPT-4)评价每一对是否相同。这种格式有助于确定数据扩散有多少改写样本。

图 4 展示了不同传染以及不同检测格式的维恩图。

13B模型全方位碾压GPT-4?这背后有什么猫腻

实验

在第 5.1 节中,实验证明了在改写样本上训练的模型可以取得显着的高分,在三个广泛利用的基准(MMLU、HumanEval 和 GSM-8k)中实现与 GPT-4 相当的功能,这表明改写样本应被视为传染,应从训练数据中简略。在第 5.2 节中,本文根据 MMLU/HumanEval 中改写样本评价不同的传染检测格式。在第 5.3 节中,本文将 LLM decontaminator 应用于广泛利用的训练集并发现以前未知的传染。

接下来我们看看一些主要结果。

改写样本传染基准

如表 2 所示,在改写样本上训练的 Llama-2 7B 和 13B 在 MMLU 上取得显着的高分,从 45.3 到 88.5。这表明经过改写的样本可能会严重扭曲基准数据,应被视为传染。

13B模型全方位碾压GPT-4?这背后有什么猫腻

本文还对 HumanEval 尝试集进行了改写,并将其翻译成五种编程语言:C、JavaScript、Rust、Go 和 Java。结果显示,在改写样本上训练的 CodeLlama 7B 和 13B 在 HumanEval 上可以取得极高的分数,分别从 32.9 到 67.7 以及 36.0 到 81.1。相比之下,GPT-4 在 HumanEval 上只能达到 67.0。

13B模型全方位碾压GPT-4?这背后有什么猫腻

下表 4 取得了同样的效果:

13B模型全方位碾压GPT-4?这背后有什么猫腻

对检测传染格式的评价

如表 5 所示,除 LLM decontaminator 外,所有其他检测格式都会引入一些误报。改写和翻译的样本都不会被 n-gram 堆叠检测到。利用 multi-qa BERT,嵌入相似性搜刮被证明对翻译样本完全无效。

13B模型全方位碾压GPT-4?这背后有什么猫腻

数据集传染情况

表 7 显示了每个训练数据扩散不同基准的数据传染百分比。

13B模型全方位碾压GPT-4?这背后有什么猫腻

LLM decontaminator 揭示了 79 个自改写样本的实例,占 MATH 尝试集的 1.58%。示例 5 是 MATH 训练数据中 MATH 尝试的改写示例。

13B模型全方位碾压GPT-4?这背后有什么猫腻

了解更多内容,请查看原论文。

给TA打赏
共{{data.count}}人
人已打赏
工程

玩转围棋、国际象棋、扑克,DeepMind推出通用进修算法SoG

2023-11-18 10:17:00

工程

用AI大模型「改造」QQ浏览器搜刮,腾讯独家揭秘

2023-11-20 14:32:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索