ICML 全称是 International Conference on Machine Learning,由国际机器学习学会(IMLS)举办,是计算机人工智能领域的顶级会议。
今年的 ICML 大会已是第 41 届,目前正在奥地利维也纳举行。在刚刚进行的开幕式上,一年比一年火热的 ICML 公布了今年的大会数据与奖项信息。
本届主会议共收到有效论文投稿 9473 篇,其中有 2610 篇论文被录用,录用率为 27.5%,其中包含 144 篇 oral,191 篇 spotlight。
被接收论文的主题关键词为:大语言模型、强化学习、深度学习、图神经网络、机器学习、联邦学习、扩散模型、Transformer、LLM、表示学习、生成模型…… 这些关键词也代表了当前 AI 领域最为热门的研究方向。
除了这些数据,大会现场还公布了今年的时间检验奖与最佳论文。贾扬清十年前在伯克利期间共一完成的论文 DeCAF,获得了今年的时间检验奖。而相比于去年的 6 篇,今年有 10 篇研究获得最佳论文,其中包含前段时间爆火的 Google DeepMind 世界模型 Genie、视频模型 VideoPoet 等。
时间检验奖
关于 DeCAF 获奖,贾扬清在朋友圈表示,「从今天的用词来说,DeCAF 应该是视觉领域的 foundation features 和 deep embedding,也让计算机视觉领域有了一个 generalizable feature。DeCAF 的工作后来又催生了通用的物体检测框架 R-CNN,高性能异构计算的框架 Caffe,间接促成了伯克利和 NVidia 合作编写了第一代的加速框架 CuDNN,雅虎实验室创作的大规模分布式训练 CaffeOnSpark,等一系列工作,奠定了伯克利在深度学习浪潮当中的领先地位。」
论文:DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition
作者:Jeffrey Donahue、Yangqing Jia、Oriol Vinyals、Judy Hoffman、Ning Zhang、Eric Tzeng、Trevor Darrell
机构:UC Berkeley & ICSI, Berkeley, CA, USA
论文链接:https://arxiv.org/pdf/1310.1531
研究团队评估了从在大规模、固定的目标识别任务集上以完全监督方式训练的深度卷积网络的激活中提取的特征是否可以重新用于新的通用任务。这些通用任务可能与最初训练的任务有显著不同,且可能没有足够的有标签或无标签数据来常规地训练或调整深度架构以适应新任务。他们研究并可视化了深度卷积特征在各种任务(包括场景识别、领域适应和细粒度识别挑战)中的语义聚类。研究者比较了依赖网络不同层次来定义固定特征的效果,并报告了在若干重要视觉挑战上显著优于现有技术的新结果。他们发布了 DeCAF,这是一种深度卷积激活特征的开源实现,包含所有相关的网络参数,以便视觉研究人员能够在一系列视觉概念学习范式中进行深度表示的实验。
最佳论文
论文 1:Scaling Rectified Flow Transformers for High-Resolution Image Synthesis
作者:Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, Dustin Podell, Tim Dockhorn, Zion English, Robin Rombach
机构:Stability AI
论文地址:https://proceedings.mlr.press/v235/esser24a.html
AI在线报道:Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?
这篇论文正是 Stable Diffusion 3 的论文。与之前的版本相比,Stable Diffusion 3 生成的图在质量上实现了很大改进,支持多主题提示,文字书写效果也更好了。
Stable Diffusion 3 模型架构。
扩散模型通过将数据的前向路径反转为噪声来从噪声中创建数据,已成为一种强大的生成建模技术,适用于图像和视频等高维感知数据。Rectified Flow(RF)是一种最新的生成模型公式,它将数据和噪声连接在一条直线上。尽管其具有更好的理论特性、概念简单,但它尚未被明确确立为标准实践。
该研究改进了现有的噪声采样技术,通过将 RF 模型偏向于感知相关的尺度来训练它们。通过大规模研究,该研究表明与用于高分辨率文本到图像合成的现有扩散公式相比,这种方法具有优越的性能。
此外,该研究还提出了一种基于 Transformer 的新型架构,用于文本到图像的生成,该架构对两种模式使用单独的权重,并实现图像和文本 token 之间的双向信息流,从而改善文本理解、人类偏好评级等。该研究证明,该架构遵循可预测的扩展趋势,并观察到验证损失随着模型大小和训练步骤的增加而平稳降低。
改进的多模态扩散 Transformer:MMDiT 块。
论文 2:Genie: Generative Interactive Environments
作者:Jake Bruce, Michael Dennis, Ashley Edwards, Jack Parker-Holder, Yuge Shi, Edward Hughes 等
机构:Google DeepMind、不列颠哥伦比亚大学
论文地址:https://arxiv.org/pdf/2402.15391.pdf
该论文定义了生成式 AI 的全新范式 —— 生成式交互环境 ——Genie(Generative Interactive Environments)。Genie 是一个 110 亿参数的基础世界模型,可以通过单张图像提示生成可玩的交互式环境。
AI在线报道:刚刚,谷歌发布基础世界模型:11B参数,能生成可交互虚拟世界
Genie 架构中的多个组件基于 Vision Transformer (ViT) 构建而成。值得注意的是,由于 Transformer 的二次内存成本给视频领域带来了挑战,视频最多可以包含 𝑂(10^4 ) 个 token。因此,谷歌在所有模型组件中采用内存高效的 ST-transformer 架构,以此平衡模型容量与计算约束。
Genie 包含三个关键组件(如下图所示):
1) 潜在动作模型(Latent Action Model ,LAM),用于推理每对帧之间的潜在动作 𝒂;
2) 视频分词器(Tokenizer),用于将原始视频帧转换为离散 token 𝒛;
3) 动态模型,给定潜在动作和过去帧的 token,用来预测视频的下一帧。
为了实现可控的视频生成,谷歌将前一帧所采取的动作作为未来帧预测的条件。然而,此类动作标签在互联网的视频中可用的很少,并且获取动作注释的成本会很高。相反,谷歌以完全无监督的方式学习潜在动作。
论文 3:Considerations for Differentially Private Learning with Large-Scale Public Pretraining
作者:Florian Tramèr, Gautam Kamath, Nicholas Carlini
机构:苏黎世联邦理工大学、滑铁卢大学、Google DeepMind
论文地址:https://arxiv.org/abs/2212.06470
通过利用在大型公共数据集上预训练的非私有模型的迁移学习功能,可以显著提高差分私有机器学习的性能。该论文质疑使用大型网络抓取数据集是否应被视为差分隐私保护。
该研究认为:将这些在网络数据上预训练的模型设置为「私有」模型可能会损害并削弱公众对差分隐私的信任。除了使用公共数据的隐私考虑之外,该研究进一步质疑了这种范式的实用性。该研究仔细检查了现有的机器学习基准是否适合衡量预训练模型泛化到敏感领域的能力,这些领域在公共网络数据中可能很难得到体现。
此外,该研究注意到部署大模型可能会造成隐私的净损失,因为需要将私有数据外包给计算能力更强的第三方。
论文 4:Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution
作者:Aaron Lou、Chenlin Meng、Stefano Ermon
机构:斯坦福大学、Pika Labs
论文地址:https://proceedings.mlr.press/v235/lou24a.html
尽管扩散模型在许多生成建模任务中表现出色,但在自然语言等离散数据领域却未能达到预期效果。标准的扩散模型依赖于成熟的得分匹配理论,但将其推广到离散结构的尝试并未带来相同的经验收益。
在这项工作中,研究团队通过提出得分熵这一新颖的损失来弥补这一差距。得分熵自然地将得分匹配扩展到离散空间,无缝集成以构建离散扩散模型,并显著提升性能。
在实验中,他们在标准语言建模任务上测试了得分熵离散扩散模型(SEDD)。在可比的模型规模下,SEDD 优于现有的语言扩散范式(困惑度降低 25-75%),并且与自回归模型竞争,特别是在性能上超过了 GPT-2。此外,与自回归模型相比,SEDD 能够在不需要分布退火技术(如温度缩放)的情况下生成真实文本(生成困惑度比未退火的 GPT-2 高出约 6-8 倍),可以在计算量和质量之间进行权衡(以 32 倍更少的网络评估实现相似的质量),并且支持可控的填充(匹配核采样质量,同时允许除从左到右提示之外的其他策略)。
论文 5:Probabilistic Inference in Language Models via Twisted Sequential Monte Carlo
作者:Stephen Zhao、Rob Brekelmans、Alireza Makhzani 、Roger Grosse
机构:University of Toronto、Vector Institute
论文地址:https://proceedings.mlr.press/v235/zhao24c.html
大语言模型(LLMs)的众多能力和安全技术,包括 RLHF、自动红队测试、提示工程和填充,可以视为从由给定奖励或潜在函数定义的非规范化目标分布中采样。在这项工作中,作者利用顺序蒙特卡洛(SMC)的丰富工具箱来处理这些概率推理问题。特别是,他们使用学习到的扭曲函数来估计每个时间步长上潜在的预期未来值,从而能够在推理时的计算集中在有希望的部分序列上。
研究者提出了一种新颖的对比方法来学习扭曲函数,并与软强化学习的丰富文献建立了联系。作为扭曲 SMC 框架的一个补充应用,他们提出了一种方法,使用新的双向 SMC 界限在对数分区函数上评估语言模型推理技术的准确性。这些界限可用于估计推理分布与目标分布之间的双向 KL 散度。他们应用推理评估技术,证明扭曲 SMC 在从预训练模型中采样不良输出(对无害训练和自动红队测试很有用)、生成具有不同情感的评论以及执行填充任务方面是有效的。
论文 6:Debating with More Persuasive LLMs Leads to More Truthful Answers
作者:Akbir Khan、John Hughes、Dan Valentine、Laura Ruis、Kshitij Sachan、Ansh Radhakrishnan、Edward Grefenstette、Samuel Bowman、Tim Rocktäschel、Ethan Perez
机构:伦敦大学学院、Speechmatics、MATS、Anthropic、FAR AI
论文地址:https://proceedings.mlr.press/v235/khan24a.html
将大语言模型(LLMs)与期望行为对齐的常见方法在很大程度上依赖于人工标注数据。然而,随着模型变得越来越复杂,它们将超越人类的专业知识,而人类评估的角色将演变为非专家监督专家。基于此预期,研究者提出了一个问题:较弱的模型能否评估较强模型的正确性?他们设置了类似的情景来研究这个问题:其中较强的模型(专家)拥有回答问题所需的背景信息,而较弱的模型(非专家)缺乏这些信息。研究者选择了辩论作为测试方法 —— 即让两个 LLM 专家各自为不同的答案辩护,由非专家选择最终答案。
研究团队发现辩论有效地帮助了非专家模型和人类回答问题,分别实现了 76% 和 88% 的准确率(原始基线分别为 48% 和 60%)。
此外,以无监督方式优化专家辩手的说服力,提高了非专家在辩论中识别真相的能力。此结果在缺乏真值标签的情况下,通过辩论对齐模型的可行性提供了参考。
论文 7:Information Complexity of Stochastic Convex Optimization: Applications to Generalization, Memorization, and Tracing
作者:Idan Attias、Gintare Karolina Dziugaite、Mahdi Haghifam、Roi Livni、Daniel Roy
机构:本・古里安大学、多伦多大学、DeepMind 等
论文地址:https://proceedings.mlr.press/v235/attias24a.html
在这项工作中,作者研究了在随机凸优化(SCO)背景下记忆与学习之间的相互作用。他们通过学习算法揭示其训练数据点的信息来定义记忆,并使用 Steinke 和 Zakynthinou(2020)提出的条件互信息(CMI)框架来量化这些信息。
该研究的主要结果是精确刻画了学习算法的准确性与其 CMI 之间的权衡,回答了 Livni(2023)提出的一个开放问题。本文表明,在 L² Lipschitz–有界设置和强凸性条件下,每个具有过度误差 ϵ 的学习者,其 CMI 分别下界为 Ω(1/ϵ²) 和 Ω(1/𝜖)。作者 进一步设计一个对手,展示了记忆在 SCO 问题中不可或缺的作用,该对手能够在特定的 SCO 问题中准确识别出大量训练样本。最后,他们列举了结果的若干影响,例如基于 CMI 的泛化界限的限制以及 SCO 问题中样本的不可压缩性。
论文 8:Measure Dataset Diversity, Don't Just Claim It
作者:Dora Zhao、Jerone Andrews、Orestis Papakyriakopoulos、Alice Xiang
机构:斯坦福大学、Sony AI(英国伦敦)、慕尼黑工业大学、Sony AI(美国西雅图)
论文地址:https://arxiv.org/html/2407.08188v1
机器学习(ML)数据集通常被认为是中立的,但它们本质上包含了抽象且有争议的社会构建。数据集策展人经常使用诸如多样性、偏见和质量等价值负载术语来描述数据集。尽管这些术语被广泛使用,但它们缺乏明确的定义和验证。该研究团队的研究通过分析 135 个图像和文本数据集中的 “多样性” 来探讨这一问题的影响。借鉴社会科学,应用测量理论中的原则来确定考虑因素,并提供有关数据集中多样性的概念化、操作化和评估的建议。他们的研究结果对 ML 研究具有广泛的影响,倡导在数据集构建中处理价值负载属性时采用更细致和精确的方法。
论文 9:VideoPoet: A Large Language Model for Zero-Shot Video Generation
作者:Dan Kondratyuk、Lijun Yu、Xiuye Gu、Jose Lezama、 Jonathan Huang、Grant Schindler、Rachel Hornung、Vighnesh N Birodkar、Jimmy Yan、Ming-Chang Chiu、Krishna Somandepalli、Hassan Akbari、Yair Alon、Yong Cheng、Joshua V Dillon、Agrim Gupta、Meera Hahn、Anja Hauth、David Hendon、Alonso Martinez、David Minnen、Mikhail Sirotenko、Kihyuk Sohn、Xuan Yang、Hartwig Adam、Ming-Hsuan Yang、Irfan Essa、Huisheng Wang、David Ross、Bryan Seybold、Lu Jiang
机构:谷歌、卡内基梅隆大学
论文地址:https://proceedings.mlr.press/v235/kondratyuk24a.html
项目链接:http://sites.research.google/videopoet/
AI在线报道:视频生成可以无限长?谷歌 VideoPoet 大模型上线,网友:革命性技术
研究团队发布了 VideoPoet,这是一种能够从多种条件信号合成高质量视频的语言模型。VideoPoet 采用仅解码器的 Transformer 架构,处理包括图像、视频、文本和音频在内的多模态输入。
训练协议遵循大语言模型(LLMs)的流程,包括两个阶段:预训练和任务特定适应。在预训练阶段,VideoPoet 在自回归 Transformer 框架内结合多模态生成目标的混合。预训练的 LLM 作为基础,可以适应一系列视频生成任务。他们展示了该模型在零样本视频生成方面的最新能力,特别是生成高保真运动的能力。
论文 10:Stealing part of a production language model
作者:Nicholas Carlini、Daniel Paleka、Krishnamurthy Dvijotham、Thomas Steinke、Jonathan Hayase、A. Feder Cooper、Katherine Lee、Matthew Jagielski、Milad Nasresfahani、Arthur Conmy、Eric Wallace、David Rolnick、Florian Tramer
机构:OpenAI、Google DeepMind、苏黎世联邦理工学院、华盛顿大学、麦吉尔大学
论文地址:https://arxiv.org/pdf/2403.06634
该论文提出了一种全新的攻击 AI 模型的方法。它能够从 OpenAI 的 ChatGPT 或谷歌的 PaLM-2 的黑盒生成式语言模型中,精准提取信息。这种方法能侵入 Transformer 的嵌入投影层(这是模型理解语言的关键部分),只需要通过 API 访问权限,通过一个网站或应用程序,和模型聊天就能让它「破防」。基于论文中的方法,研究者破解了了 GPT 系列两个基础模型 Ada 和 Babbage 的整个投影矩阵的整个投影矩阵,如隐藏维度这样的关键信息也直接破获:一个为 1024,一个为 2048。他们还攻破了 gpt-3.5- turbo 的隐藏维度,如果想要恢复模型的整个投影矩阵,成本不会超过 2000 美元。研究者提出了一系列防御措施和缓解策略,以防范此类攻击的发生。