AI在线 AI在线

Transformers

「注意力实际上是对数的」?七年前的Transformer还有新发现,Karpathy点赞

「注意力实际上是对数的」? 今天,一篇博客再次掀起了AI社区对注意力机制的讨论。 作者认为,Transformers 中实现的注意力机制,在计算复杂度上应该被视为对数级别的。
3/23/2025 3:47:00 PM
机器之心

Meta无限长文本大模型来了:参数仅7B,已开源

谷歌之后,Meta 也来卷无限长上下文。Transformers 的二次复杂度和弱长度外推限制了它们扩展到长序列的能力,虽然存在线性注意力和状态空间模型等次二次解决方案,但从以往的经验来看,它们在预训练效率和下游任务准确性方面表现不佳。长文本是大语言模型一直在努力的方向。近日,谷歌提出的 Infini-Transformer 引入有效方法,可以将基于 Transformer 的大型语言模型 (LLM) 扩展到无限长输入,而不增加内存和计算需求,吸引了人们的关注。几乎就在同时,Meta 也提出了一种无限长文本技术。论
4/17/2024 5:59:00 PM
机器之心

模型越大,性能越好?苹果自回归视觉模型AIM:没错

视觉模型,同样遵循「参数越多性能越强」的规律?刚刚,一项来自苹果公司的研究验证了这个猜想。过去几年,大规模预训练模型在 NLP 领域取得了成功,这类模型可以通过几个示例解决复杂的推理任务,也可以按照指令进行推理。众所周知的是,预训练模型能取得成功的一个理论基础是,随着容量(即参数量)或预训练数据量的增加,模型能够不断提升性能。这很自然地引发了研究者们的联想:使用自回归目标对 Transformers 进行缩放的成功是否仅限于文本?在最新的一篇论文《Scalable Pre-training of Large Aut
1/18/2024 11:51:00 AM
机器之心
  • 1