注意力

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1/47
科技媒体 marktechpost 昨日（10 月 8 日）发布博文，报道称谷歌公司推出了选择性注意力（Selective Attention）方法，可以提高 Transformer 架构模型的性能。Transformer 架构简介Transformer 是一种革命性的神经网络架构，由谷歌在 2017 年提出，主要用于处理序列数据，特别是在自然语言处理（NLP）领域。Transformer 的核心…
应用
- 28
- 0
故渊10月9日
最火 AI 角色扮演流量已达google搜索 20%：每秒处理两万推理要求，Transformer 作者公开优化窍门
什么 AI 应用每秒处理 20000 个 AI 推理要求，达到 2024 年google搜索流量的 1/5？答案是独角兽 Character.ai，由 Transformer 作者 Noam Shazeer（后面简称沙哥）创办。刚刚，沙哥公布了推理优化独门窍门，迅速引起业界热议。具体来说 Character.ai 在整个服务堆栈中实现了如下成绩：内存高效架构设计：将 KV 缓存巨细增加 20 倍以…
AI
- 11
- 0
汪淼6月21日
Bengio等人新作：注意力可被视为RNN，新模型媲美Transformer，但超级省内存
序列建模的进展具有极大的影响力，因为它们在广泛的应用中发挥着重要作用，包括加强进修（例如，机器人和自动驾驶）、光阴序列分类（例如，金融欺诈检测和医学诊断）等。在过去的几年里，Transformer 的出现标志着序列建模中的一个重大突破，这主要得益于 Transformer 提供了一种能够利用 GPU 并行处理的高性能架构。然而，Transformer 在推理时较量争论开销很大，主要在于内存和较量争…
理论
- 8
- 0
机器之心5月25日
Karpathy称赞，从零完成LLaMa3项目爆火，半天1.5k star
项目中代码很多很全，值得细读。一个月前，Meta 发布了开源大模型 llama3 系列，在多个关键基准测试中优于业界 SOTA 模型，并在代码生成任务上全面领先。此后，开发者们便开始了本地部署和完成，比如 llama3 的中文完成、llama3 的纯 NumPy 完成等。十几个小时前，有位名为「Nishant Aklecha」的开发者发布了一个从零开始完成 llama3 的存储库，包括跨多个头的注…
AI
- 23
- 0
机器之心5月20日
Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计视频生成散布模型
过去几年来，散布模型强大的图象合成能力已经得到充分证明。研究社区现在正在攻克一个更困难的任务：视频生成。近日，OpenAI 安全系统（Safety Systems）负责人 Lilian Weng 写了一篇关于视频生成的散布模型的博客。 Lilian Weng机器之心对这篇博客进行了不改变原意的编译、整理，以下是博客原文：视频生成任务本身是图…
AI
- 22
- 0
机器之心4月22日
大模型时代还不理解自注意力？这篇文章教你从头写代码实现
自注意力是 LLM 的一大核心组件。对大模型及相关应用开发者来说，理解自注意力非常重要。近日，Ahead of AI 杂志运营者、机器学习和 AI 研究者 Sebastian Raschka 发布了一篇文章，介绍并用代码从头实现了 LLM 中的自注意力、多头注意力、交织注意力和因果注意力。太长不看版这篇文章将介绍 Transformer 架构以及 GPT-4 和 Llama 等大型语言模型（LLM…
AI
- 8
- 0
机器之心2月16日
手把手教你，从零开始实行一个希罕混淆大师架构谈话模型（MoE）
本文介绍了实行一个希罕混淆大师谈话模型（MoE）的方法，详细解释了模型的实施历程，包括采用希罕混淆大师取代传统的前馈神经搜集，实行 top-k 门控和带噪声的 top-k 门控，以及采用 Kaiming He 初始化技术。作者还说明了从 makemore 架构保持不变的元素，比如数据集处理、分词预处理和谈话建模任务。最后还提供了一个 GitHub 仓库链接，用于实行模型的整个历程，是一本不可多得的…
AI
- 9
- 0
机器之心2月16日
比标准Attention提速5-9倍，大模型都在用的FlashAttention v2来了
一年时间，斯坦福大学提出的新型 Attention 算法 ——FlashAttention 完成了进化。这次在算法、并行化和工作分区等方面都有了显著改进，对大模型的适用性也更强了。
AI
- 45
- 0
机器之心23年7月18日
想把半本《红楼梦》搬进ChatGPT输入框？先把这个问题解决掉
从 GPT-4 的 32k 到谷歌 CoLT5 的 64k 再到最新钻研的 200万 token，类ChatGPT 模型们可以处理的文本长度正在急剧增长，这意味着它们的应用范围也越来越广。或许有一天，ChatGPT 能帮乔治·马丁把《冰与火之歌》（权力的游戏）写完呢？过去两年，斯坦福大学 Hazy Research 实验室一直在从事一项重要的工作：增长序列长度。他们有一种观点：更长的序列将开启机…
AI
- 11
- 0
机器之心23年4月27日
ICASSP 2022 | 用于多模态感情鉴别的KS-Transformer
多模态感情鉴别是人机交互中的重要技术，也是人工智能走向类人智能时所需要攻克的关键难题。
AI
- 9
- 0
优必选科技22年12月20日