在 ChatGPT 引爆 AI 热潮的 2023,一项推动NLP新时代到来的研究拿到了 NeurIPS 时间考验奖。
NeurIPS 是当前全球最负盛名的 AI 学术会议之一,全称是 Neural Information Processing Systems,神经信息处理系统大会,通常在每年 12 月由 NeurIPS 基金会主办。大会讨论的内容包含深度进修、估计机视觉、大规模呆板进修、进修理论、优化、稀疏理论等众多细分领域。
12 月 10 日,NeurIPS 2023 在美国路易斯安那州新奥尔良市拉开帷幕。根据官网博客公布的数据,今年大会收到的论文投稿数量创造了新纪录,达到 13321 篇,由 1100 名领域主席、100 名高级领域主席和 396 名伦理审稿人审查,其中 3584 篇论文被接收。
刚刚,NeurIPS 官方公布了 2023 年度的获奖论文,包括时间考验奖、两篇精采论文、两篇精采论文 runner-up、一个精采数据集和一个精采基准,其中大部分论文都是围绕大型说话模型(LLM)展开的工作。值得注意的是,十年前发布的 word2vec 相关论文摘得了时间考验奖,可谓实至名归。
以下是获奖论文的具体信息。
时间考验奖
今年的时间考验奖颁给了十年前的 NeurIPS 论文「Distributed Representations of Words and Phrases and their Compositionality」。
这篇论文由当时都还在谷歌的 Tomas Mikolov、Ilya Sutskever、Kai Chen、Greg Corrado、Jeffrey Dean 等人撰写,被引量超过 4 万次。
论文地点:https://arxiv.org/pdf/1310.4546.pdf
NeurIPS 官方给出的颁奖理由是:这项工作引入了开创性的词嵌入技术 word2vec,展示了从大量非结构化文本中进修的本领,推动了自然说话处理新时代的到来。
在呆板之心原创技术分析文章《从 word2vec 开始,说下 GPT 庞大的家族系谱》中,我们曾介绍过 word2vec 的重要性。Word2Vec 和 Glove 等词嵌入步骤可以说是当前最为热门的 GPT 家族老祖级别的研究,引领了后续庞大的 NLP「家族集团」,也为整个 NLP 技术的蓬勃发展奠定了坚实的基础。
从 Word2Vec 等词嵌入技术开始到后续的重要模型
呆板之心整理的重要 NLP 模型发展脉络
所以说,在大模型备受关注的 2023 年,Word2vec 获得 NeurIPS 的时间考验奖也实至名归了。
这里补充一句,其实提到 Word2vec,首篇论文应该是 Tomas Mikolov 等同一作者的「Efficient Estimation of Word Representations in Vector Space」。而投稿到当年 NeurIPS 这篇「Distributed Representations of Words and Phrases and their Compositionality」算是真正让 Word2vec 被广泛应用的改进论文。
如果有读者想要详细了解、进修 Word2vec,也可以查阅呆板之心原创技术分析文章《词嵌入的经典步骤,六篇论文遍历 Word2vec 的另类应用》。
Main Track 精采论文奖
获奖论文 1:Privacy Auditing with One (1) Training Run
论文地点:https://arxiv.org/abs/2305.08846
机构:Google
纲要:本文提出了一种通过单次训练来检查差分隐衷呆板进修系统的方案。该方案利用了差分隐衷呆板进修系统能够独立添加或删除多个训练示例的并行性。研究者们从这一点入手,分析了差分隐衷和统计泛化的联系,从而避免了群体隐衷的成本。这种方案对算法的假设要求极低,可应用于黑盒或白盒环境。研究者们在 DP-SGD 中运用了这项方案,以考验其有效性。在 DP-SGD 中,本文中提出的框架只需要训练一个模型,就能实现有意义的经验隐衷下界。相比之下,标准步骤需要训练数百个模型。
获奖论文 2:Are Emergent Abilities of Large Language Models a Mirage?
论文地点:https://arxiv.org/abs/2304.15004
机构:斯坦福大学
纲要:最近有研究称,大说话模型「出现」出了在小规模模型中不存在的本领。大模型「出现」本领之所以吸引人,有两个原因:一是其突现性,这些本领几乎是一瞬间出现的;二是出现的本领具体将在哪种规模的模型中出现,不可预测。因此,研究者们对出现本领提出了一种新解释:对于特定的任务和模型家族,在分析固定的模型输出时,「出现」本领的出现是由于研究者选择了特定的襟怀标准,而不是模型的表现随规模发生了根本性的变化。
具体来说,非线性或者不连续襟怀会产生明显的「出现」本领,而线性或连续襟怀则会产生平滑、连续、可预测的模型性能变化。研究者们在一个简单的数学模型中提出了这项新解释,并通过三种互补的方式对其进行了考验。首先,他们在 InstructGPT/GPT-3 系列中对声称具有「出现」本领的任务考验了这项新假设的三项内容;其次,在 BIG-Bench 的出现本领元分析中制定、测试并证实了两个关于襟怀标准选择的预测;最后,论文中展示了如何选择襟怀标准,以在不同深度网络的多个视觉任务中「创造出」前所未有的「出现」本领。
通过以上的分析,论文证明了所谓的「出现」本领会随着不同的襟怀或统计方式消失,而并非人工智能的基本属性得到了扩展。
Main Track 精采论文 Runner-up 奖
获奖论文 1:Scaling Data-Constrained Language Models
论文链接:https://arxiv.org/abs/2305.16264
项目链接:https://github.com/huggingface/datablations
机构:Hugging Face、哈佛大学、图尔库大学
纲要:增加参数数量、扩大训练数据集的规模是当今说话模型的发展趋势。根据这一趋势推断,训练数据集的规模可能很快就会受互联网上可用文本数据量的限制。受到这一可见趋势的启发,有研究者对数据受限情况下说话模型的拓展进行了探索。
具体来说,他们通过改变数据的重复程度和估计预算,进行了大量的实验。实验中的数据量最高可达 9000 亿个训练 token,模型规模可达 90 亿个参数。研究者发现,在估计预算固定、数据受限的情况下,使用重复数据进行 4 个周期(epoch)的训练,与使用不重复的数据相比,损失的变化可以忽略不计。然而,随着重复次数的增加,增加估计量的价值最终会降至零。研究者们进而提出并实证验证了一个估计最优化的扩展定律(scaling law),该定律考虑了重复 token 和多余参数价值递减的问题。最后,他们尝试了多种缓解数据稀缺性的步骤,包括使用代码数据扩充训练数据集或删除常用的过滤器。本研究的模型和数据集可在以下链接中免费获取:https://github.com/huggingface/datablations
获奖论文 2:Direct Preference Optimization: Your Language Model is Secretly a Reward Model
论文链接:https://arxiv.org/abs/2305.18290
机构:斯坦福大学、 CZ Biohub
纲要:虽然大规模无监督说话模型(LMs)可以广泛地进修世界中的知识,获得一些推理技能,但由于其训练完全不受监督,因此很难实现对其行为的精确控制。目前获得这种可控性通常依靠人类反馈强化进修(RLHF)这种步骤实现,收集人类对各种模型生成质量打出的标签,并根据这些偏好对无监督说话模型进行微调。然而,RLHF 是一个复杂并且经常不稳定的过程。它首先需要拟合一个反映人类偏好的奖赏模型,然后利用强化进修对大型无监督说话模型进行微调,以最大限度地提高预计中的奖赏,同时又不会偏离原始模型太远。
在这项研究中,研究者们通过奖赏函数和最优策略之间的映射关系证明了只需进行一个阶段的策略训练,就能精确优化受限奖赏的最大化问题。从根本上解决了人类偏好数据的分类问题。研究者们称这种新步骤为:直接偏好优化(DPO),它稳定、高效、估计量小,无需拟合奖赏模型、在微调过程中从说话模型中采样,或执行重要的超参数调整。实验表明,DPO 能够微调 LM 以符合人类偏好,其效果与现有步骤相当或更好。值得注意的是,与 RLHF 相比,使用 DPO 进行微调在控制生成内容的情感、提高纲要和单轮对话的响应质量方面表现更好,同时实现和训练过程大大简化。
精采数据集和基准论文
数据集
获奖论文:ClimSim: A large Multi-scale Dataset for Hybrid Physics-ML Climate Emulation
论文地点:https://arxiv.org/pdf/2306.08754.pdf
机构:UCI、 LLNL、Columbia、UCB、MIT、DLR、Princeton 等
论文纲要:由于估计限制,现代天气预测缺乏足够的空间和时间分辨率,导致对风暴等极端天气预测不准确、不精确。这时融合物理与呆板进修的混合步骤引入了新一代保真度更高的天气模拟器,它们可以通过将估计需求巨大、短时、高分辨率的模拟任务「外包」给呆板进修模拟器以绕过摩尔定律桎梏。不过,这种混合的呆板进修 – 物理模拟步骤需要针对特定领域具体处理,并且由于缺乏训练数据以及相关易用的工作流程,呆板进修专家们也无法使用。
本文中,研究者推出了 ClimSim,一个专为混合呆板进修 – 物理研究设计的迄今为止最大的数据集,包含了天气科学家和呆板进修研究人员联合开发的多尺度天气模拟。具体来讲,ClimSim 由 57 亿个多元输入和输出向量对组成,它们隔绝了局部嵌套、高分辨率、高保真度物理对主机天气模拟器宏观物理状态的影响。该数据集覆盖全球,以高采样频率持续多年,设计生成的模拟器能够与下游的操作天气模拟器相兼容。
ClimSlim 的局部空间版本。
研究者实现了一系列确定性和随机回归基线,以突出呆板进修挑战和基线得分。他们公开了相关数据和代码,用以支持混合呆板进修 – 物理和高保真天气模拟的开发,造福科学和社会。
项目地点:https://leap-stc.github.io/ClimSim/README.html
基准
获奖论文:DECODINGTRUST: A Comprehensive Assessment of Trustworthiness in GPT Models
论文地点:https://arxiv.org/pdf/2306.11698.pdf
机构:伊利诺伊大学厄巴纳 – 香槟分校、斯坦福大学、UC 伯克利、AI 安全中心、微软
论文纲要:GPT 模型在本领层面已经展现出了无与伦比的进展,但有关 GPT 模型可信度的文献仍然不多。从业者提议将强大的 GPT 模型用于医疗和金融领域的敏感性应用,可能面临高昂的代价。
为此,本文研究者对大型说话模型进行了全面可信度评估,并以 GPT-4 和 GPT-3.5 为重点模型,充分考虑了不同的视角,包括毒性(toxicity)、刻板印象偏差、对抗稳健性、分布外稳健性、对抗演示稳健性、隐衷、呆板伦理道德和公平性等。评估结果发现了以往未曾披露的可信度威胁漏洞,例如 GPT 模型很容易被误导,从而输出有毒和有偏见的内容,并泄露训练数据和对话记录中的个人信息。
大模型可信度评估指标。
研究者还发现,虽然在标准基准上 GPT-4 比 GPT-3.5 更值得信赖,但由于 GPT-4 更精确地遵循误导性指令,因而它也更容易受到攻击。
基准测试:https://decodingtrust.github.io/
参考链接:https://blog.neurips.cc/2023/12/11/announcing-the-neurips-2023-paper-awards/