我直接看答案。
生成式 AI 元年,大伙儿的工作节奏快了一大截。
特别是,今年大伙儿都在努力卷大模型:最近国内外科技巨头、创业公司都在轮番推出大模型,发布会一开,个个都是重大突破,每一家都是刷新了重要 Benchmark 榜单,要么排第一,要么第一梯队。
在兴奋于技巧进展速度之快后,得多人发现似乎也有些不对味:为什么排行榜第一人人有份?这是个什么机制?
于是乎,「刷榜」这个课题也开始备受关注。
近日,我们关注到朋友圈和知乎社区对大模型「刷榜」这一课题的讨论越来越多。特别是,知乎一篇帖子:如何评价天工大模型技巧申报中指出得多大模型用领域内数据刷榜的现象?引起了大伙儿的讨论。
链接:https://www.zhihu.com/question/628957425
多家大模型刷榜机制曝光
该钻研来自昆仑万维的「天工」大模型钻研团队,他们上个月底把一份技巧申报发布在了预印版论文平台 arXiv 上。
论文链接:https://arxiv.org/abs/2310.19341
论文本身是在介绍 Skywork-13B,这是天工的一个大型语言模型(LLM)系列。作家引入了运用分段语料库的两阶段训练方法,分别针对通用训练和特定领域的增强训练。
和往常有关大模型的新钻研一样,作家表示在流行的尝试基准上,他们的模型不仅表现出色,而且在得多中文的分支任务上取得了 state-of-art 水平(就是业内最佳)。
重点是,该申报还验证了下得多大模型的真实效果,指出了一些其他一些国产大模型存在投机取巧的嫌疑。说的就是这个表格 8:
在这里,作家为了验证目前业内几个常见大模型在数学应用课题基准 GSM8K 上的过拟合程度,运用 GPT-4 生成了一些与 GSM8K 形式上相同的样本,人工核对了正确性,并让这些模型在生成的数据集,和 GSM8K 原本的训练集、尝试集上比了比,计算了损失。然后还有两个指标:
Δ1 作为模型训练期间潜在尝试数据透露的指标,较低的值表明大概存在透露。没有用尝试集训练,那数值应该为零。
Δ2 衡量数据集训练分割的过度拟合程度。较高的 Δ2 值意味着过拟合。如果没有用训练集训练过,那数值应该为零。
用简单的话来解释就是:如果有模型在训练的时候,直接拿基准尝试里面的「真题」和「答案」来当学习资料,想以此来刷分,那么此处就会有异常。
好的,Δ1 和 Δ2 有课题的地方,上面都贴心地以灰色突出显示了。
网友对此评论道,终于有人把「数据集传染」这个公开的秘密说出来了。
也有网友表示,大模型的智力水平,还是要看 zero-shot 能力,现有的尝试基准都做不到。
图:截图自知乎网友评论
在作家与读者中互动中,作家也表示,希望「让大伙儿更理性看待刷榜这个事情,得多模型和 GPT4 的差距还很大」。
图:截图自知乎文章 https://zhuanlan.zhihu.com/p/664985891
数据传染课题值得重视
其实,这并不是一时的现象。自从有了 Benchmark,此类课题时常会有发生,就像今年 9 月份 arXiv 上一篇极具嘲讽意味的文章标题指出的一样 Pretraining on the Test Set Is All You Need。
除此之外,最近人民大学、伊利诺伊大学香槟分校一个正式钻研同样指出了大模型评价中存在的课题。标题很扎眼《Don't Make Your LLM an Evaluation Benchmark Cheater》:
论文链接:https://arxiv.org/abs/2311.01964
论文指出,当前火热的大模型领域让人们关心基准尝试的排名,但其公平性和可靠性正在受到质疑。其中主要的课题就是数据传染和泄露,这样的课题大概会被无意识地触发,因为我们在准备预训练语料库时大概不知道未来的评价数据集。例如,GPT-3 发现预训练语料库中包含了 Children's Book Test 数据集,LLaMA-2 的论文曾提到提取了 BoolQ 数据集中的上下文网页内容。
数据集是需要得多人花费大量精力收集、整理和标注的,优质的数据集如果优秀到能被用于评测,那自然也有大概会被另一些人用于训练大模型。
另一方面,在运用现有基准进行评价时,我们评测的大模型的结果大多是通过在本地服务器上运行或通过 API 调用来获得的。在此过程中,没有严格检查任何大概导致评价绩效异常提高的不当方式(例如数据传染)。
更糟糕的是,训练语料库的详细组成(例如数据源)通常被视为现有大模型的核心「秘密」。这就更难去探究数据传染的课题了。
也就是说,优秀数据的数量是有限的,在得多尝试集上,GPT-4 和 Llama-2 也不一定就没课题。比如在第一篇论文中提到的 GSM8K,GPT-4 在官方 technical report 里提到过运用了它的训练集。
你不是说数据很重要吗,那么用「真题」刷分的大模型,性能会不会因为训练数据更优秀而变得更好呢?答案是否定的。
钻研人员实验发现,基准透露会导致大模型跑出夸张的成绩:例如 1.3B 的模型可以在某些任务上超越 10 倍体量的模型。但副作用是,如果我们仅运用这些泄露的数据来微调或训练模型,这些专门应试的大模型在其他正常尝试任务上的表现大概会受到不利影响。
因此作家恳求,以后钻研人员在评测大模型,或是钻研新技巧时应该:
运用更多来自不同来源的基准,涵盖基本能力(例如文本生成)和高级能力(例如复杂推理),以全面评价 LLM 的能力。
在运用评价基准时,在预训练数据和任何相关数据(例如训练和尝试集)之间执行数据净化检查非常重要。此外,还需要申报评价基准的传染分析结果作为参考。如有大概,恳求公开预训练数据的详细组成。
恳求应采用多样化的尝试提示来减少提示敏感性的影响。在基准数据和现有预训练语料库之间进行传染分析,提醒任何潜在的传染风险也很有意义。为了进行评价,恳求每次提交都附有一份特殊的传染分析申报。
最后想说,好在这个课题开始逐渐引起大伙儿的关注,无论是技巧申报、论文钻研还是社区讨论,都开始重视大模型「刷榜」的课题了。
对此,你有什么看法与有效恳求呢?
参考内容:
https://www.zhihu.com/question/628957425
https://zhuanlan.zhihu.com/p/664985891