Transformer

原作者带队，LSTM真杀回来了！

LSTM：这次重生，我要夺回 Transformer 拿走的一切。20 世纪 90 年代，长短时记忆（LSTM）方法引入了恒定误差选择轮盘和门控的核心思想。三十多年来，LSTM 经受住了时间的考验，并为众多深度学习的成功案例做出了贡献。然而，以可并行自注意力为核心 Transformer 横空出世之后，LSTM 自身所存在的局限性使其风光不再。当人们都以为 Transformer 在语言模型领域稳坐江山的时候，LSTM 又杀回来了 —— 这次，是以 xLSTM 的身份。5 月 8 日，LSTM 提出者和奠基者 Se

5/9/2024 6:44:00 PM

机器之心

DeepMind升级Transformer，前向通过FLOPs最多可降一半

引入混合深度，DeepMind 新设计可大幅提升 Transformer 效率。Transformer 的重要性无需多言，目前也有很多研究团队致力于改进这种变革性技术，其中一个重要的改进方向是提升 Transformer 的效率，比如让其具备自适应计算能力，从而可以节省下不必要的计算。正如不久前 Transformer 架构的提出之一、NEAR Protocol 联合创始人 Illiya Polosukhin 在与黄仁勋的对话中说到的那样：「自适应计算是接下来必须出现的。我们要关注，在特定问题上具体要花费多少计算资

4/16/2024 2:31:00 PM

机器之心

直接扩展到无限长，谷歌Infini-Transformer终结上下文长度之争

不知 Gemini 1.5 Pro 是否用到了这项技术。谷歌又放大招了，发布下一代 Transformer 模型 Infini-Transformer。Infini-Transformer 引入了一种有效的方法，可以将基于 Transformer 的大型语言模型 (LLM) 扩展到无限长输入，而不增加内存和计算需求。使用该技术，研究者成功将一个 1B 的模型上下文长度提高到 100 万；应用到 8B 模型上，模型能处理 500K 的书籍摘要任务。自 2017 年开创性研究论文《Attention is All Yo

4/12/2024 7:43:00 PM

机器之心

李飞飞主讲，斯坦福2024 CS231n开课，依旧座无虚席

「这是自 Karpathy 和我 2015 年启动这门课程以来的第 9 个年头，这是人工智能和计算机视觉令人难以置信的十年！」知名 AI 科学家李飞飞的计算机视觉「神课」CS231n，又一次开课了。总共 600 多位学生报名，第一堂课的现场座无虚席：从 2015 年到如今，CS231n 已经走到九个年头，也成为了一代计算机视觉专业学生心中的「必修课」：虽然课程代码不变，但可以猜到，2024 年的课程相比 2021 年版本的课程有不少新增内容，这还要归因于视觉生成技术三年来的巨大飞跃。在今年初的国际消费类电子产品展览

4/7/2024 12:02:00 AM

机器之心

Attention isn’t all you need！Mamba混合大模型开源：三倍Transformer吞吐量

Mamba 时代来了？自 2017 年开创性研究论文《Attention is All You Need》问世以来，transformer 架构就一直主导着生成式人工智能领域。然而，transformer 架构实际上有两个显著缺点：内存占用大：Transformer 的内存占用量随上下文长度而变化。这使得在没有大量硬件资源的情况下运行长上下文窗口或大量并行批处理变得具有挑战性，从而限制了广泛的实验和部署。随着上下文长度的增加，推理速度会变慢：Transformer 的注意力机制随序列长度呈二次方扩展，并且会降低吞

3/29/2024 3:20:00 PM

机器之心

谁将替代 Transformer？

Transformer 由于其处理局部和长程依赖关系的能力以及可并行化训练的特点，一经问世，逐步取代了过去的 RNN（循环神经网络）与 CNN（卷积神经网络），成为 NLP（自然语言处理）前沿研究的标准范式。今天主流的 AI 模型和产品——OpenAI 的ChatGPT、谷歌的 Bard、Anthropic 的 Claude，Midjourney、Sora到国内智谱 AI 的 ChatGLM 大模型、百川智能的 Baichuan 大模型、Kimi chat 等等——都是基于Transformer 架构。 Transformer 已然代表了当今人工智能技术无可争议的黄金标准，其主导地位至今无人能撼动。

3/27/2024 7:06:00 PM

张进

OpenAI 公关跳起来捂他嘴：Transformer 作者公开承认参与 Q*！

Transformer 作者中唯一去了 OpenAI 的那位，公开承认了：他参与了 Q * 项目，是这项新技术的发明者之一。这几天除了英伟达老黄组局把 Transformer 作者聚齐，他们中的几位还接受了连线杂志的采访，期间出了这么一个小插曲。当记者试图询问 Lukasz Kaiser 更多关于 Q * 的问题时时，OpenAI 的公关人员几乎跳过桌子去捂他的嘴。结合阿尔特曼在接受采访时，毫不迟疑地拒绝了相关提问，“我们还没准备好谈论这个话题”。神秘 Q*，成了 OpenAI 当前最需要保守的秘密之一。不过对于

3/25/2024 6:38:43 PM

清源

如何应对Transformer的计算局限？思维链推理提高神经网络计算

编辑 | 白菜叶你的小学老师可能没有教你如何做 20 位数字的加减法。但如果你知道如何加减较小的数字，你所需要的只是纸和铅笔以及一点耐心。从个位开始，一步步向左，很快你就能轻松地积累出千万亿的数字。像这样的问题对人类来说很容易解决，但前提是我们用正确的方式解决它们。「我们人类解决这些问题的方式并不是『盯着它然后写下答案』。」哈佛大学机器学习研究员 Eran Malach 表示，「我们实际上是走过这些台阶的。」这一见解启发了研究人员研究为 ChatGPT 等聊天机器人提供支持的大型语言模型。这些系统可以解决涉及少量算

3/22/2024 5:19:00 PM

ScienceAI

解开化学语言模型中的「黑匣子」，Transformer可快速学习分子的部分结构，但手性学习困难

编辑 | X近年来，自然语言处理（NLP）模型，特别是 Transformer 模型，已应用于像 SMILES 这样的分子结构的文字表示。然而，关于这些模型如何理解化学结构的研究很少。为了解决这个黑匣子，东京大学的研究人员使用代表性的 NLP 模型 Transformer 研究了 SMILES 的学习进度与化学结构之间的关系。研究表明，虽然 Transformer 可以快速学习分子的部分结构，但它需要扩展训练才能理解整体结构。一致的是，从训练开始到结束，使用不同学习步骤的模型生成的描述符进行分子特性预测的准确性是相

2/26/2024 4:42:00 PM

ScienceAI

补齐Transformer规划短板，田渊栋团队的Searchformer火了

Transformer 强大的泛化能力再次得到证明！最近几年，基于 Transformer 的架构在多种任务上都表现卓越，吸引了世界的瞩目。使用这类架构搭配大量数据，得到的大型语言模型（LLM）等模型可以很好地泛化用于真实世界用例。尽管有如此成功，但基于 Transformer 的架构和 LLM 依然难以处理规划和推理任务。之前已有研究证明 LLM 难以应对多步规划任务或高阶推理任务。为了提升 Transformer 的推理和规划性能，近些年研究社区也提出了一些方法。一种最常见且有效的方法是模拟人类的思考过程：先生

2/25/2024 7:45:00 PM

机器之心

我们还需要Transformer中的注意力吗？

状态空间模型正在兴起，注意力是否已到尽头？最近几周，AI 社区有一个热门话题：用无注意力架构来实现语言建模。简要来说，就是机器学习社区有一个长期研究方向终于取得了实质性的进展，催生出 Mamba 两个强大的新模型：Mamba 和 StripedHyena。它们在很多方面都能比肩人们熟知的强大模型，如 Llama 2 和 Mistral 7B。这个研究方向就是无注意力架构，现在也正有越来越多的研究者和开发者开始更严肃地看待它。近日，机器学习科学家 Nathan Lambert 发布了一篇题为《状态空间 LLM：我们需

2/16/2024 5:31:00 PM

机器之心

Mamba论文为什么没被ICLR接收？AI社区沸腾了

基于 Mamba 的创新正不断涌现，但原论文却被 ICLR 放到了「待定区」。2023 年，Transformer 在 AI 大模型领域的统治地位被撼动了。发起挑战的新架构名叫「Mamba」，它是一种选择性状态空间模型（ selective state space model），在语言建模方面可以媲美甚至击败 Transformer。而且，它可以随上下文长度的增加实现线性扩展，其性能在实际数据中可提高到百万 token 长度序列，并实现 5 倍的推理吞吐量提升。在发布之后的一个多月里，Mamba 逐渐展现出自己的影

1/26/2024 2:46:00 PM

机器之心

岩芯数智推出非Attention机制大模型，支持离线端侧部署

1月24日，上海岩芯数智人工智能科技有限公司对外推出了一个非Attention机制的通用自然语言大模型——Yan模型。岩芯数智发布会上称，Yan模型使用了全新自研的“Yan架构”代替Transformer架构，相较于Transformer，Yan架构的记忆能力提升3倍、速度提升7倍的同时，实现推理吞吐量的5倍提升。岩芯数智CEO刘凡平认为，以大规模著称的Transformer，在实际应用中的高算力和高成本，让不少中小型企业望而却步。其内部架构的复杂性，让决策过程难以解释；长序列处理困难和无法控制的幻觉问题也限制了大

1/25/2024 9:27:00 PM

机器之心

MoE与Mamba强强联合，将状态空间模型扩展到数百亿参数

性能与 Mamba 一样，但所需训练步骤数却少 2.2 倍。状态空间模型（SSM）是近来一种备受关注的 Transformer 替代技术，其优势是能在长上下文任务上实现线性时间的推理、并行化训练和强大的性能。而基于选择性 SSM 和硬件感知型设计的 Mamba 更是表现出色，成为了基于注意力的 Transformer 架构的一大有力替代架构。近期也有一些研究者在探索将 SSM 和 Mamba 与其它方法组合起来创造更强大的架构，比如机器之心曾报告过《Mamba 可以替代 Transformer，但它们也能组合起来使

1/24/2024 11:00:00 AM

机器之心

视觉Mamba模型的Swin时刻，中国科学院、华为等推出VMamba

Transformer 在大模型领域的地位可谓是难以撼动。不过，这个AI 大模型的主流架构在模型规模的扩展和需要处理的序列变长后，局限性也愈发凸显了。Mamba的出现，正在强力改变着这一切。它优秀的性能立刻引爆了AI圈。上周四， Vision Mamba（Vim）的提出已经展现了它成为视觉基础模型的下一代骨干的巨大潜力。仅隔一天，中国科学院、华为、鹏城实验室的研究人员提出了 VMamba：一种具有全局感受野、线性复杂度的视觉 Mamba 模型。这项工作标志着视觉 Mamba 模型 Swin 时刻的来临。论文标题：V

1/22/2024 2:15:00 PM

机器之心

Transformer的无限之路：位置编码视角下的长度外推综述

在自然语言处理（Natural Language Processing，NLP）领域，Transformer 模型因其在序列建模中的卓越性能而受到广泛关注。然而，Transformer 及在其基础之上的大语言模型（Large Language Models，LLMs）都不具备有效长度外推（Length Extrapolation）的能力。这意味着，受限于其训练时预设的上下文长度限制，大模型无法有效处理超过该长度限制的序列。文本续写和语言延展是人类语言的核心能力之一，与之相对的，长度外推是语言模型智能进化的重要方向，

1/15/2024 4:06:00 PM

机器之心

Nat.Commun.|山东大学团队基于图transformer开发了一种稀有细胞群组学分析方法

编辑 | 萝卜皮稀有细胞群是肿瘤进展和治疗反应的关键，提供了潜在的干预目标。然而，它们的计算识别和分析通常落后于主要细胞类型。为了填补这一空白，山东大学的研究团队引入了 MarsGT：使用单细胞图 transformer 进行稀有群体推断的多组学分析。它使用基于概率的异质图 transformer 对单细胞多组学数据识别稀有细胞群。MarsGT 在识别 550 个模拟数据集和 4 个真实人类数据集中的稀有细胞方面优于现有工具。该研究以「MarsGT: Multi-omics analysis for rare po

1/15/2024 3:01:00 PM

ScienceAI

面向超长上下文，大语言模型如何优化架构，这篇综述一网打尽了

作者重点关注了基于 Transformer 的 LLM 模型体系结构在从预训练到推理的所有阶段中优化长上下文能力的进展。ChatGPT 的诞生，让基于 Transformer 的大型语言模型 (LLM) 为通用人工智能（AGI）铺开了一条革命性的道路，并在知识库、人机交互、机器人等多个领域得到应用。然而，目前存在一个普遍的限制：由于资源受限，当前大多 LLM 主要是在较短的文本上进行预训练，导致它们在较长上下文方面的表现较差，而长上下文在现实世界的环境中是更加常见的。最近的一篇综述论文对此进行了全面的调研，作者重点

1/3/2024 3:09:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源）

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉大型语言模型训练