单GPU训练一天,Transformer在100位数字加法上就达能到99%准确率
乘法和排序也有效。自 2017 年被提出以来,Transformer 已成为 AI 大模型的主流架构,一直稳站 C 位。但所有钻研者都不得不承认的是,Transformer 在算数任务中表现非常糟糕,尤其是加法,这一缺陷在很大程度上源于 Transformer 无法跟踪大范围数字中每一个数字的确切位子。为了处理这个课题,来自马里兰大学、CMU 等机构的钻研者向这一课题发起了挑战,他们通过在每一个数…- 7
- 0
Bengio等人新作:注意力可被视为RNN,新模型媲美Transformer,但超级省内存
序列建模的进展具有极大的影响力,因为它们在广泛的应用中发挥着重要作用,包括加强进修(例如,机器人和自动驾驶)、光阴序列分类(例如,金融欺诈检测和医学诊断)等。在过去的几年里,Transformer 的出现标志着序列建模中的一个重大突破,这主要得益于 Transformer 提供了一种能够利用 GPU 并行处理的高性能架构。然而,Transformer 在推理时较量争论开销很大,主要在于内存和较量争…- 8
- 0
研究职员推出 xLSTM 神经网络 AI 架构:并行化处置 Token、有望迎战 Transformer
研究职员 Sepp Hochreiter 和 Jürgen Schmidhuber 在 1997 年共同提出了长短期影象(Long short-term memory,LSTM)神经网络布局,可用来处理轮回神经网络(RNN)长期影象能力不足的问题。而最近 Sepp Hochreiter 在 arXiv 上发布论文,提出了一种名为 xLSTM(Extended LSTM)的新架构,号称可以处理 LS…- 17
- 0
原作者带队,LSTM真杀回来了!
LSTM:这次重生,我要夺回 Transformer 拿走的一切。20 世纪 90 年代,长短时记忆(LSTM)格式引入了恒定误差选择轮盘和门控的核心思想。三十多年来,LSTM 经受住了时间的考验,并为众多深度学习的成功案例做出了贡献。然而,以可并行自注意力为核心 Transformer 横空出世之后,LSTM 自身所存在的局限性使其风光不再。当人们都以为 Transformer 在言语模型领域稳…- 10
- 0
DeepMind升级Transformer,前向通过FLOPs最多可降一半
引入混合深度,DeepMind 新设计可大幅提升 Transformer 效率。Transformer 的重要性无需多言,目前也有很多研究团队致力于改进这种变革性技术,其中一个重要的改进方向是提升 Transformer 的效率,比如让其具备自适应盘算能力,从而可以节省下不必要的盘算。正如不久前 Transformer 架构的提出之一、NEAR Protocol 联合创始人 Illiya Polo…- 4
- 0
直接扩展到无比长,谷歌Infini-Transformer终结上下文长度之争
不知 Gemini 1.5 Pro 是否用到了这项技术。谷歌又放大招了,发布下一代 Transformer 模型 Infini-Transformer。Infini-Transformer 引入了一种有效的方法,可以将基于 Transformer 的大型语言模型 (LLM) 扩展到无比长输出,而不增加内存和盘算需求。使用该技术,研究者成功将一个 1B 的模型上下文长度提高到 100 万;应用到 8…- 23
- 0
李飞飞主讲,斯坦福2024 CS231n开课,依旧座无虚席
「这是自 Karpathy 和我 2015 年启动这门课程以来的第 9 个年头,这是人工智能和计算机视觉令人难以置信的十年!」知名 AI 科学家李飞飞的计算机视觉「神课」CS231n,又一次开课了。总共 600 多位门生报名,第一堂课的现场座无虚席:从 2015 年到如今,CS231n 已经走到九个年头,也成为了一代计算机视觉专业门生心中的「必修课」:虽然课程代码不变,但可以猜到,2024 年的课…- 4
- 0
Attention isn’t all you need!Mamba夹杂大模型开源:三倍Transformer吞吐量
Mamba 时代来了?自 2017 年开创性研究论文《Attention is All You Need》问世以来,transformer 架构就一直主导着生成式人工智能领域。然而,transformer 架构实际上有两个显著缺点:内存占用大:Transformer 的内存占用量随上下文长度而变化。这使得在没有大量硬件资源的情况下运行长上下文窗口或大量并行批处理变得具有挑战性,从而限制了广泛的试验…- 2
- 0
谁将替代 Transformer?
Transformer 由于其处理局部和长程依赖关系的能力以及可并行化训练的特点,一经问世,逐步取代了过去的 RNN(循环神经网络)与 CNN(卷积神经网络),成为 NLP(自然语言处理)前沿研究的标准范式。 今天主流的 AI 模型和产品——OpenAI 的ChatGPT、谷歌的 Bard、Anthropic 的 Claude,Midjourney、Sora到国内智谱 AI 的 ChatGLM 大…- 973
- 0
OpenAI 公关跳起来捂他嘴:Transformer 作者公开承认参与 Q*!
Transformer 作者中唯一去了 OpenAI 的那位,公开承认了:他参与了 Q * 项目,是这项新手艺的发明者之一。这几天除了英伟达老黄组局把 Transformer 作者聚齐,他们中的几位还接受了连线杂志的采访,期间出了这么一个小插曲。当记者试图询问 Lukasz Kaiser 更多关于 Q * 的问题时时,OpenAI 的公关人员几乎跳过桌子去捂他的嘴。结合阿尔特曼在接受采访时,毫不迟…- 6
- 0
如何应对Transformer的较量争论局限?头脑链推理提高神经收集较量争论
编辑 | 白菜叶你的小学老师大概没有教你如何做 20 位数字的加减法。但如果你知道如何加减较小的数字,你所需要的只是纸和铅笔以及一点耐心。从个位开始,一步步向左,很快你就能轻松地积累出千万亿的数字。像这样的课题对人类来说很容易处理,但前提是我们用正确的方式处理它们。「我们人类处理这些课题的方式并不是『盯着它然后写下谜底』。」哈佛大学机器学习研讨员 Eran Malach 表示,「我们实际上是走过这…- 7
- 0
RNN效率媲美Transformer,谷歌新架构两连发:同等规模强于Mamba
去年 12 月,新架构 Mamba 引爆了 AI 圈,向屹立不倒的 Transformer 发起了挑战。如今,谷歌 DeepMind「Hawk 」和「Griffin 」的推出为 AI 圈提供了新的选择。这一次,谷歌 DeepMind 在基础模型方面又有了新动作。我们知道,轮回神经网络(RNN)在深度学习和自然语言处理研究的早期发挥了核心作用,并在许多应用中取得了实功,包括谷歌第一个端到端机器翻译系…- 7
- 0
解开化学言语模型中的「黑匣子」,Transformer可快速进修份子的部份布局,但手性进修困难
编辑 | X近年来,自然言语处理(NLP)模型,特别是 Transformer 模型,已应用于像 SMILES 这样的份子布局的文字表示。然而,关于这些模型如何懂得化学布局的研讨很少。为了解决这个黑匣子,东京大学的研讨职员运用代表性的 NLP 模型 Transformer 研讨了 SMILES 的进修进度与化学布局之间的关系。研讨解释,虽然 Transformer 可以快速进修份子的部份布局,但它…- 8
- 0
补齐Transformer布局短板,田渊栋团队的Searchformer火了
Transformer 强大的泛化能力再次失去证明!最近几年,基于 Transformer 的架构在多种任意上都表现卓越,吸引了世界的瞩目。应用这类架构搭配大量数据,失去的大型语言模型(LLM)等模型可以很好地泛化用于真实世界用例。尽管有如此成功,但基于 Transformer 的架构和 LLM 依然难以处理布局和推理任意。之前已有研究证明 LLM 难以应对多步布局任意或高阶推理任意。为了提升 T…- 7
- 0
我们还需要Transformer中的注意力吗?
形态空间模型正在兴起,注意力是否已到尽头?最近几周,AI 社区有一个热门话题:用无注意力架构来实现谈话建模。简要来说,就是机器进修社区有一个长期钻研方向终于取得了实质性的进展,催生出 Mamba 两个强大的新模型:Mamba 和 StripedHyena。它们在很多方面都能比肩人们熟知的强大模型,如 Llama 2 和 Mistral 7B。这个钻研方向就是无注意力架构,现在也正有越来越多的钻研者…- 4
- 0
Mamba论文为什么没被ICLR领受?AI社区沸腾了
基于 Mamba 的创新正不断涌现,但原论文却被 ICLR 放到了「待定区」。2023 年,Transformer 在 AI 大模型领域的统治地位被撼动了。发起挑战的新架构名叫「Mamba」,它是一种选择性状态空间模型( selective state space model),在说话建模方面可以媲美甚至击败 Transformer。而且,它可以随上下文长度的增加实现线性扩展,其功能在实际数据中可…- 4
- 0
岩芯数智推出非Attention机制大模型,支持离线端侧布局
1月24日,上海岩芯数智人工智能科技有限公司对外推出了一个非Attention机制的通用自然语言大模型——Yan模型。岩芯数智发布会上称,Yan模型使用了崭新自研的“Yan架构”代替Transformer架构,相较于Transformer,Yan架构的影象能力提高3倍、速度提高7倍的同时,实现推理吞吐量的5倍提高。岩芯数智CEO刘凡平认为,以大规模著称的Transformer,在实际应用中的高算力…- 10
- 0
MoE与Mamba强强联合,将形态空间模型扩大到数百亿参数
本能与 Mamba 一样,但所需训练步调数却少 2.2 倍。形态空间模型(SSM)是近来一种备受关注的 Transformer 替代技术,其优势是能在长上下文工作上实现线性时间的推理、并行化训练和强大的本能。而鉴于选择性 SSM 和硬件感知型设想的 Mamba 更是表现出色,成为了鉴于注意力的 Transformer 架构的一大有力替代架构。近期也有一些钻研者在探索将 SSM 和 Mamba 与其…- 3
- 0
视觉Mamba模型的Swin时刻,中国科学院、华为等推出VMamba
Transformer 在大模型领域的地位可谓是难以撼动。不过,这个AI 大模型的合流架构在模型规模的扩展和需要处理的序列变长后,局限性也愈发凸显了。Mamba的出现,正在强力改变着这一切。它优秀的机能立刻引爆了AI圈。上周四, Vision Mamba(Vim)的提出已经展现了它成为视觉基础模型的下一代骨干的巨大潜力。仅隔一天,中国科学院、华为、鹏城试验室的研究人员提出了 VMamba:一种拥有…- 6
- 0
Transformer的无限之路:位子编码视角下的长度外推综述
在自然说话处理(Natural Language Processing,NLP)领域,Transformer 模型因其在序列建模中的卓越功能而受到广泛关注。然而,Transformer 及在其基础之上的大说话模型(Large Language Models,LLMs)都不具备有效长度外推(Length Extrapolation)的才智。这意味着,受限于其训练时预设的上下文长度限制,大模型无奈有效…- 5
- 0
Nat.Commun.|山东大学团队基于图transformer开发了一种希有细胞群组学分析方法
编辑 | 萝卜皮希有细胞群是肿瘤进展和治疗反应的关键,提供了潜在的干预目标。然而,它们的计算鉴别和分析通常落后于主要细胞范例。为了填补这一空白,山东大学的研讨团队引入了 MarsGT:使用单细胞图 transformer 进行希有群体推断的多组学分析。它使用基于几率的异质图 transformer 对单细胞多组学数据鉴别希有细胞群。MarsGT 在鉴别 550 个模拟数据集和 4 个真实人类数据集…- 5
- 0
面向超长上下文,大语言模型如何优化架构,这篇综述一网打尽了
作家重点关注了鉴于 Transformer 的 LLM 模型体系结构在从预训练到推理的所有阶段中优化长上下文才智的进展。ChatGPT 的诞生,让鉴于 Transformer 的大型语言模型 (LLM) 为通用人工智能(AGI)铺开了一条革命性的道路,并在知识库、人机交互、机器人等多个领域得到应用。然而,目前存在一个普遍的节制:由于资源受限,当前大多 LLM 主要是在较短的文本上进行预训练,导致它…- 4
- 0
你没有看过的全新版本,Transformer数学原理揭秘
近日,arxiv 上发布了一篇论文,对 Transformer 的数学原理从事全新解读,内容很长,知识很多,十二分建议阅读原文。2017 年,Vaswani 等人发表的 《Attention is all you need》成为神经网络架构发展的一个重要里程碑。这篇论文的核心贡献是自注意体制,这是 Transformers 区别于传统架构的创新之处,在其卓越的实用性能中发挥了重要作用。事实上,这一…- 6
- 0
谁能撼动Transformer统治地位?Mamba作者谈LLM未来架构
自 2017 年被提出以来,Transformer 已成为 AI 大模型的主流架构,未来这种情况是一直持续,还是会有新的研讨出现,我们不妨先听听身处 AI 圈的研讨者是怎么想的。在大模型范围,一直稳站 C 位的 Transformer 最近似乎有被超越的趋势。这个挑战者就是一项名为「Mamba」的研讨,其在谈话、音频和基因组学等多种模态中都达到了 SOTA 功能。在谈话建模方面,无论是预训练还是下…- 7
- 0
Transformer
❯
个人中心
今日签到
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
- ¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!