Token

Bengio等人新作：注意力可被视为RNN，新模型媲美Transformer，但超级省内存

序列建模的进展具有极大的影响力，因为它们在广泛的应用中发挥着重要作用，包括强化学习（例如，机器人和自动驾驶）、时间序列分类（例如，金融欺诈检测和医学诊断）等。在过去的几年里，Transformer 的出现标志着序列建模中的一个重大突破，这主要得益于 Transformer 提供了一种能够利用 GPU 并行处理的高性能架构。然而，Transformer 在推理时计算开销很大，主要在于内存和计算需求呈二次扩展，从而限制了其在低资源环境中的应用（例如，移动和嵌入式设备）。尽管可以采用 KV 缓存等技术提高推理效率，但 T

5/25/2024 6:19:00 PM

机器之心

Karpathy称赞，从零实现LLaMa3项目爆火，半天1.5k star

项目中代码很多很全，值得细读。一个月前，Meta 发布了开源大模型 llama3 系列，在多个关键基准测试中优于业界 SOTA 模型，并在代码生成任务上全面领先。此后，开发者们便开始了本地部署和实现，比如 llama3 的中文实现、llama3 的纯 NumPy 实现等。十几个小时前，有位名为「Nishant Aklecha」的开发者发布了一个从零开始实现 llama3 的存储库，包括跨多个头的注意力矩阵乘法、位置编码和每个层在内都有非常详细的解释。该项目得到了大神 Karpathy 的称赞，他表示项目看起来不错，

5/20/2024 3:52:00 PM

机器之心

70B 模型秒出 1000token，代码重写超越 GPT-4o，来自 OpenAI 投资的代码神器 Cursor 团队

70B 模型，秒出 1000token，换算成字符接近 4000！研究人员将 Llama3 进行了微调并引入加速算法，和原生版本相比，速度足足快出了快了 13 倍！不仅是快，在代码重写任务上的表现甚至超越了 GPT-4o。这项成果，来自爆火的 AI 编程神器 Cursor 背后团队 anysphere，OpenAI 也参与过投资。要知道在以快著称的推理加速框架 Groq 上，70B Llama3 的推理速度也不过每秒 300 多 token。Cursor 这样的速度，可以说是实现了近乎即时的完整代码文件编辑。有人直

5/17/2024 7:32:30 PM

清源

估值 60 亿美元，法国 AI 初创公司 Mistral AI 即将达成新融资协议

据《华尔街日报》今日报道，法国初创公司 Mistral AI 即将达成一项以 60 亿美元（当前约 433.8 亿元人民币）估值进行融资的协议，与半年前相比，这一估值水平几乎达到了当时的三倍。IT之家注：在去年 12 月的融资中，Mistral 的估值为 21.5 亿美元。据知情人士透露，现有支持者 General Catalyst 和 Lightspeed Venture Partners 预计将是新一轮融资的主要金主，Mistral 将在此轮融资中筹集约 6 亿美元。而在今年 2 月，微软就已经向 Mistra

5/9/2024 5:13:08 PM

清源

参数量不到10亿的OctopusV3，如何媲美GPT-4V和GPT-4？

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]。

5/1/2024 4:26:00 PM

机器之心

5亿个token之后，我们得出关于GPT的七条宝贵经验

ChatGPT 正确的使用姿势。自 ChatGPT 问世以来，OpenAI 一直被认为是全球生成式大模型的领导者。2023 年 3 月，OpenAI 官方宣布，开发者可以通过 API 将 ChatGPT 和 Whisper 模型集成到他们的应用程序和产品中。在 GPT-4 发布的同时 OpenAI 也开放了其 API。一年过去了，OpenAI 的大模型使用体验究竟如何，行业内的开发者怎么评价？最近，初创公司 Truss 的 CTO Ken Kantzer 发布了一篇题为《Lessons after a half-b

4/19/2024 4:08:00 PM

机器之心

讨论下一个token预测时，我们可能正在走进陷阱

自香农在《通信的数学原理》一书中提出「下一个 token 预测任务」之后，这一概念逐渐成为现代语言模型的核心部分。最近，围绕下一个 token 预测的讨论日趋激烈。然而，越来越多的人认为，以下一个 token 的预测为目标只能得到一个优秀的「即兴表演艺术家」，并不能真正模拟人类思维。人类会在执行计划之前在头脑中进行细致的想象、策划和回溯。遗憾的是，这种策略并没有明确地构建在当今语言模型的框架中。对此，部分学者如 LeCun，在其论文中已有所评判。在一篇论文中，来自苏黎世联邦理工学院的 Gregor Bachmann

3/25/2024 2:42:00 PM

机器之心

进我的收藏夹吃灰吧：大模型加速超全指南来了

2023 年，大型语言模型（LLM）以其强大的生成、理解、推理等能力而持续受到高度关注。然而，训练和部署 LLM 非常昂贵，需要大量的计算资源和内存，因此研究人员开发了许多用于加速 LLM 预训练、微调和推理的方法。最近，一位名为 Theia Vogel 的博主整理撰写了一篇长文博客，对加速 LLM 推理的方法进行了全面的总结，对各种方法展开了详细的介绍，值得 LLM 研究人员收藏查阅。以下是博客原文内容。之前，我使用经典的自回归采样器手动制作了一个 transformer，大致如下：这种推理方法很优雅，是 LL

2/15/2024 2:54:00 PM

机器之心

蚂蚁集团开源新算法，可助大模型推理提速2-6倍

近日，蚂蚁集团开源了一套新算法，可帮助大模型在推理时，提速2至6倍，引起业内关注。图：新算法在不同开源大模型上的提速表现。这套新算法名为Lookahead推理加速框架，能做到效果无损，即插即用，该算法已在蚂蚁大量场景进行了落地，大幅降低了推理耗时。以Llama2-7B-chat模型与Dolly数据集为例，实测token生成速度可由48.2个/秒，升至112.9个/秒，提速2.34倍。而在蚂蚁内部的RAG（检索增强生成）数据集上，百灵大模型AntGLM 10B版本的加速比达到5.36，与此同时，显存增加和内存消耗几乎

1/17/2024 7:41:00 PM

新闻助手

连看好莱坞大片都学会了！贾佳亚团队用2token让大模型卷出新境界

家人们谁懂，连大模型都学会看好莱坞大片了，播放过亿的GTA6预告片大模型还看得津津有味，实在太卷了！而让LLM卷出新境界的办法简单到只有2token——将每一帧编码成2个词即可搞定。等等！这种大道至简的方法有种莫名的熟悉感。不错，又是出自香港中文大学贾佳亚团队。这是贾佳亚团队自8月提出主攻推理分割的LISA多模态大模型、10月发布的70B参数长文本开源大语言模型LongAlpaca和超长文本扩展术LongLoRA后的又一次重磅技术更新。而LongLoRA只需两行代码便可将7B模型的文本长度拓展到100k token

12/12/2023 3:14:00 PM

机器之心