陈丹琦等人组织的COLM奖项公布:被ICLR拒稿的Mamba入选杰出论文

会议组织者都是 NLP 头部科学家,在谈话建模方面有着相当的成果。随着 AI 领域的快速发展,大模型逐渐成为研讨的核心,为了更好地探索这一领域,2023 年,一批知名的青年学者组织了一个名为 COLM(Conference on Language Modeling)的新会议。该会议的组织者们都是 NLP 头部科学家,在谈话建模方面有着相当的成果。

会议组织者都是 NLP 头部科学家,在谈话建模方面有着相当的成果。

随着 AI 领域的快速发展,大模型逐渐成为研讨的核心,为了更好地探索这一领域,2023 年,一批知名的青年学者组织了一个名为 COLM(Conference on Language Modeling)的新会议。

该会议的组织者们都是 NLP 头部科学家,在谈话建模方面有着相当的成果。他们其中既有来自业界的研讨人员,也有来自学术界的研讨人员。

在今年的组织者中,有我们熟悉的陈丹琦、Angela Fan 等华人学者。

陈丹琦等人组织的COLM奖项公布:被ICLR拒稿的Mamba入选杰出论文

COLM 是一个专注于谈话建模研讨的学术场所,旨在创建一个具有不同科学专业常识的研讨人员社区,专注于理解、改进和评论谈话模型技术的发展。这不仅是学术界的一次创新尝试,也是搭起了谈话模型交流互鉴的新桥梁,进一步促进其探索和合作。

陈丹琦等人组织的COLM奖项公布:被ICLR拒稿的Mamba入选杰出论文

接收论文链接:https://colmweb.org/AcceptedPapers.html

刚刚,大会公布了 2024 年杰出论文奖,共有 4 篇论文获奖。

值得一提的是,号称撼动 Transformer 统治地位的 Mamba 也在获奖论文中。

此前,Mamba 这项研讨惨遭 ICLR 拒稿,引来学术界轩然大波。

不过,之后 Mamba 原班人马发布的 Mamba-2 顺利拿下了 ICML 2024。如今 Mamba 又获得了 COLM 杰出论文奖,很多网友都送来祝贺。

陈丹琦等人组织的COLM奖项公布:被ICLR拒稿的Mamba入选杰出论文

Mamba 作家之一、卡内基梅隆大学机器学习系助理教授 Albert Gu 用一张表情很好的表达了自己的感受,看来「COLM 是真香」。

陈丹琦等人组织的COLM奖项公布:被ICLR拒稿的Mamba入选杰出论文

杰出论文奖

论文 1:Dated Data: Tracing Knowledge Cutoffs in Large Language Models

  • 机构:霍普金斯大学

  • 作家:Jeffrey Cheng、Marc Marone、Orion Weller、Dawn Lawrie等

  • 论文地点:https://openreview.net/pdf?id=wS7PxDjy6m

陈丹琦等人组织的COLM奖项公布:被ICLR拒稿的Mamba入选杰出论文

大型谈话模型 (LLM) 通常有「常识截至日期」,即收集训练数据的时间。该信息对于需要 LLM 提供最新信息的应用场景至关重要。

然而,训练数据中所有子资源是否共享相同的「常识截至日期」?模型响应展示出的常识是否与数据截至值一致?

陈丹琦等人组织的COLM奖项公布:被ICLR拒稿的Mamba入选杰出论文

该论文定义了「有效截至」的概念,它与 LLM 报告的「常识截至日期」不同,并且训练数据子资源之间也有所不同。该研讨提出了一种简单的方式,通过跨版本的数据探测来估计 LLM 在资源级别的有效截至点。至关重要的是,该方式不需要访问模型的预训练数据。

通过分析,该研讨发现有效的截至值通常与报告的截至值有很大不同。为了了解这一观察结果的根本原因,该研讨对开放的预训练数据集进行了大规模分析。

陈丹琦等人组织的COLM奖项公布:被ICLR拒稿的Mamba入选杰出论文

分析揭示了造成这些不一致的两个主要原因:

  • 由于新 dump 中存在大量旧数据,导致 CommonCrawl 数据出现时间错位; 

  • LLM 重复数据删除方案的复杂性涉及语义重复和词汇近似重复。

论文 2:Mamba: Linear-Time Sequence Modeling with Selective State Spaces

  • 机构:卡内基梅隆大学、普林斯顿大学

  • 作家:Albert Gu、Tri Dao

  • 论文地点:https://arxiv.org/pdf/2312.00752

陈丹琦等人组织的COLM奖项公布:被ICLR拒稿的Mamba入选杰出论文

自 2017 年被提出以来,Transformer 已经成为 AI 大模型的主流架构,但随着模型规模扩大和处理序列变长,其计算效率问题凸显,特别是在长上下文中,计算量将呈平方级增长。

为解决这一问题,研讨者们围绕注意力开发了多种变体,如线性注意力、门控卷积、循环模型、SSMs 等,但它们在谈话等模态上的表现并不理想,无法进行基于内容的推理。

基于此,论文作家进行了几项改进。首先,让 SSM 参数成为输入的函数,解决了离散模态的弱点,使模型能根据当前 token 有选择地传播或遗忘信息。

陈丹琦等人组织的COLM奖项公布:被ICLR拒稿的Mamba入选杰出论文

这种改动导致卷积效率降低,对模型的计算带来了挑战。论文作家设计了一种硬件感知算法,将先前的 SSM 架构设计与 Transformer 的 MLP 块合并为一个块,简化了深度序列模型架构,形成了一种包含选择性状态空间的简单、同质的架构设计(Mamba)。

陈丹琦等人组织的COLM奖项公布:被ICLR拒稿的Mamba入选杰出论文

Mamba 可以随上下文长度的增加实现线性扩展,其机能在实际数据中可提高到百万 token 长度序列,并实现 5 倍的推理吞吐量提升。

作为通用序列模型的骨干,Mamba 在谈话、音频和基因组学等多种模态中都达到了 SOTA 机能。在谈话建模方面,无论是预训练还是下游评价,他们的 Mamba-3B 模型都优于同等规模的 Transformer 模型,并能与两倍于其规模的 Transformer 模型相媲美。

更多详情,可以参考AI在线之前的报道:五倍吞吐量,机能全面包围 Transformer:新架构 Mamba 引爆 AI 圈。

论文 3:AI-generated text boundary detection with RoFT

  • 机构:俄罗斯 AI 基金会与算法实验室、英国伦敦玛丽女王大学、日本 Noeon 研讨所、斯科尔科沃科学技术学院等

  • 作家:Laida Kushnareva, Tatiana Gaintseva, Dmitry Abulkhanov等

  • 论文地点:https://arxiv.org/pdf/2311.08349

陈丹琦等人组织的COLM奖项公布:被ICLR拒稿的Mamba入选杰出论文

随着大谈话模型的发展,我们越来越频繁地遇到这样的情况:一篇文章起初可能出自人类之手,但随后可能被 AI 接手加以润色。如何从这种文本中检测出人类写作与机器生成的界限?这是一个具有挑战性的问题,但还尚未得到太多关注。

论文作家试图填补这一空白。他们对最先进的检测方式进行了尝试。具体而言,他们采用「真假文本」尝试集,尝试了在极限情况下,这些方式的表现。「真假文本」尝试集包含各种谈话模型生成的多个主题的短文本。

陈丹琦等人组织的COLM奖项公布:被ICLR拒稿的Mamba入选杰出论文

他们发现,基于困惑度的边界检测方式,在处理特定领域的数据时,比对 RoBERTa 模型进行监督式的方式更加鲁棒。他们还发现了一些特定的文本特征。这些特征可能会干扰边界检测算法的判断,导致算法在处理跨领域的文本时,其机能会下降。

论文 4:Auxiliary task demands mask the capabilities of smaller language models

  • 机构:哈佛大学、斯坦福大学

  • 作家:Jennifer Hu、Michael Frank

  • 论文地点:https://openreview.net/forum?id=U5BUzSn4tD#discussion

陈丹琦等人组织的COLM奖项公布:被ICLR拒稿的Mamba入选杰出论文

发展心理学家一直在争论谈话理解或心理理论等认知能力何时出现。这些争论通常取决于「任务要求」的概念 —— 与执行特定评价相关的挑战。在衡量谈话模型 (LM) 的能力时,任务的机能是模型基础常识的函数,再加上模型在给定可用资源的情况下解释和执行任务的能力。

陈丹琦等人组织的COLM奖项公布:被ICLR拒稿的Mamba入选杰出论文

该研讨表明,对于类比推理、反思推理、单词预测和语法判断,任务要求较高的评价方式比要求减少的评价方式产生的机能更低。对于参数较少和训练数据较少的模型,这种「需求差距」最为明显。实验结果表明,LM 的机能不应被解释为智能(或缺乏智能)的直接表现,而应被解释为通过研讨人员设计选择的视角所看到的能力反映。

给TA打赏
共{{data.count}}人
人已打赏
应用

字节跳动豆包智能硬件 Ola Friend 预热,预计为智能耳机

2024-10-8 14:18:50

应用

OpenAI 重点转向产品开发,研究人才外流给了对手机会

2024-10-8 15:29:39

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索