AI 架构 Transformer 再进化:谷歌新方法突破长文本处理,注意力模块内存需求可降至 1/47
科技媒体 marktechpost 昨日(10 月 8 日)发布博文,报道称谷歌公司推出了选择性注意力(Selective Attention)方法,可以提高 Transformer 架构模型的性能。Transformer 架构简介Transformer 是一种革命性的神经网络架构,由谷歌在 2017 年提出,主要用于处理序列数据,特别是在自然语言处理(NLP)领域。Transformer 的核心…- 28
- 0
最火 AI 角色扮演流量已达google搜索 20%:每秒处理两万推理要求,Transformer 作者公开优化窍门
什么 AI 应用每秒处理 20000 个 AI 推理要求,达到 2024 年google搜索流量的 1/5?答案是独角兽 Character.ai,由 Transformer 作者 Noam Shazeer(后面简称沙哥)创办。刚刚,沙哥公布了推理优化独门窍门,迅速引起业界热议。具体来说 Character.ai 在整个服务堆栈中实现了如下成绩:内存高效架构设计:将 KV 缓存巨细增加 20 倍以…- 11
- 0
Bengio等人新作:注意力可被视为RNN,新模型媲美Transformer,但超级省内存
序列建模的进展具有极大的影响力,因为它们在广泛的应用中发挥着重要作用,包括加强进修(例如,机器人和自动驾驶)、光阴序列分类(例如,金融欺诈检测和医学诊断)等。在过去的几年里,Transformer 的出现标志着序列建模中的一个重大突破,这主要得益于 Transformer 提供了一种能够利用 GPU 并行处理的高性能架构。然而,Transformer 在推理时较量争论开销很大,主要在于内存和较量争…- 8
- 0
Karpathy称赞,从零完成LLaMa3项目爆火,半天1.5k star
项目中代码很多很全,值得细读。一个月前,Meta 发布了开源大模型 llama3 系列,在多个关键基准测试中优于业界 SOTA 模型,并在代码生成任务上全面领先。此后,开发者们便开始了本地部署和完成,比如 llama3 的中文完成、llama3 的纯 NumPy 完成等。十几个小时前,有位名为「Nishant Aklecha」的开发者发布了一个从零开始完成 llama3 的存储库,包括跨多个头的注…- 23
- 0
Sora之后,OpenAI Lilian Weng亲自撰文教你从头设计视频生成散布模型
过去几年来,散布模型强大的图象合成能力已经得到充分证明。研究社区现在正在攻克一个更困难的任务:视频生成。近日,OpenAI 安全系统(Safety Systems)负责人 Lilian Weng 写了一篇关于视频生成的散布模型的博客。 Lilian Weng机器之心对这篇博客进行了不改变原意的编译、整理,以下是博客原文:视频生成任务本身是图…- 22
- 0
大模型时代还不理解自注意力?这篇文章教你从头写代码实现
自注意力是 LLM 的一大核心组件。对大模型及相关应用开发者来说,理解自注意力非常重要。近日,Ahead of AI 杂志运营者、机器学习和 AI 研究者 Sebastian Raschka 发布了一篇文章,介绍并用代码从头实现了 LLM 中的自注意力、多头注意力、交织注意力和因果注意力。太长不看版这篇文章将介绍 Transformer 架构以及 GPT-4 和 Llama 等大型语言模型(LLM…- 8
- 0
手把手教你,从零开始实行一个希罕混淆大师架构谈话模型(MoE)
本文介绍了实行一个希罕混淆大师谈话模型(MoE)的方法,详细解释了模型的实施历程,包括采用希罕混淆大师取代传统的前馈神经搜集,实行 top-k 门控和带噪声的 top-k 门控,以及采用 Kaiming He 初始化技术。作者还说明了从 makemore 架构保持不变的元素,比如数据集处理、分词预处理和谈话建模任务。最后还提供了一个 GitHub 仓库链接,用于实行模型的整个历程,是一本不可多得的…- 9
- 0
比标准Attention提速5-9倍,大模型都在用的FlashAttention v2来了
一年时间,斯坦福大学提出的新型 Attention 算法 ——FlashAttention 完成了进化。这次在算法、并行化和工作分区等方面都有了显著改进,对大模型的适用性也更强了。- 45
- 0
想把半本《红楼梦》搬进ChatGPT输入框?先把这个问题解决掉
从 GPT-4 的 32k 到谷歌 CoLT5 的 64k 再到最新钻研的 200万 token,类ChatGPT 模型们可以处理的文本长度正在急剧增长,这意味着它们的应用范围也越来越广。或许有一天,ChatGPT 能帮乔治·马丁把《冰与火之歌》(权力的游戏)写完呢?过去两年,斯坦福大学 Hazy Research 实验室一直在从事一项重要的工作:增长序列长度。 他们有一种观点:更长的序列将开启机…- 11
- 0
注意力
❯
个人中心
今日签到
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
- ¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!