Token - AI在线

0 Token 间间隔 100% GPU 利用率，百度百舸 AIAK 大模型推理引擎极限优化 TPS

什么是大模型推理引擎大模型推理引擎是生成式语言模型运转的发动机，是接受客户输入 prompt 和生成返回 response 的枢纽，也是拉起异构硬件，将物理电能转换为人类知识的变形金刚。大模型推理引擎的基本工作模式可以概括为，接收包括输入 prompt 和采样参数的并发请求，分词并且组装成 batch 输入给引擎，调度 GPU 执行前向推理，处理计算结果并转为词元返回给用户。和人类大脑处理语言的机制类似，大模型首先会把输入的 prompt 进行统一理解，形成具有记忆能力的上下文。

谷歌 DeepMind 开源 SynthID Text 工具，可辨别 AI 生成的文字

谷歌 DeepMind 于 10 月 23 日宣布正式开源旗下 SynthID Text 文本水印工具，供开发者和企业免费使用。谷歌在 2023 年 8 月推出了 SynthID 工具，该工具具备创建 AI 内容水印（声明该作品由 AI 打造）和识别 AI 生成内容的能力。它可以在不损害原始内容的前提下，将数字水印直接嵌入由 AI 生成的图像、声音、文本和视频中，同时也能扫描这些内容已有的数字水印，以辨识它们是否由 AI 生成，不过本次谷歌开源的仅为针对文本生成的 SynthID Text。

马斯克的 xAI 正式发布 API，开发者可将 Grok 集成到其他应用

埃隆・马斯克的人工智能公司 xAI 正式发布了其应用程序编程接口（API），允许开发者将 Grok 集成到其他应用程序中。马斯克在周一宣布了这一消息，并同时在 xAI 网站上发布了该接口的链接。此前，马斯克曾在 8 月份确认将为 Grok 提供 API 的计划，并在 3 月份开源了该软件的权重。

智源发布原生多模态世界模型 Emu3，宣称实现图像、文本、视频大一统

感谢智源研究院今日发布原生多模态世界模型 Emu3。该模型只基于下一个 token 预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成。官方宣称实现图像、文本、视频大一统。

智谱 AI 宣布 10 月最低 1 折开放全部官方模型 API，每位用户可获 1 亿 tokens 额度

智谱 AI 今天下午发布 10 月最新促销活动，最低 1 折调用开放平台 bigmodel.cn 所有官方模型 API，期间每位用户均可获赠 1 亿 tokens 额度。此外，在 10 月内，根据用户前一天的 token 用量，次日可享阶梯折扣。日消耗超 1 亿 token，次日所有 API 调用 5 折优惠日消耗超 10 亿 token，次日所有 API 调用 3 折优惠日消耗超 100 亿 token，次日所有 API 调用 1 折优惠据AI在线此前报道，今年 8 月，智谱 AI 在 KDD 2024 大会上发

AMD 推出自家首款小语言 AI 模型“Llama-135m ”，主打“推测解码”能力可减少 RAM 占用

AMD 在 Huggingface 平台公布了自家首款“小语言模型”AMD-Llama-135m，该模型具有推测解码功能，拥有 6700 亿个 token，采用 Apache 2.0 开源许可，AI在线附模型地址如下（点此访问）。据介绍，这款模型主打“推测解码”能力，其基本原理是使用小型草稿模型生成一组候选 token，然后由更大的目标模型进行验证。这种方法允许每次前向传递生成多个 token，而不会影响性能，从而显著减少 RAM 占用，实现效率提升。AMD 表示，这款模型在四个 AMD Instinct MI25

《Python机器学习》作者科普长文：从头构建类GPT文本分类器，代码开源

学起来吧！近日，机器学习研究员、畅销书《Python 机器学习》作者 Sebastian Raschka 又分享了一篇长文，主题为《从头开始构建一个 GPT 风格的 LLM 分类器》。文章展示了如何将预训练的大型语言模型（LLM）转化为强大的文本分类器。AI在线对文章内容进行了不改变原意的编译、整理：为什么要关注分类呢？首先，针对分类任务，对预训练模型进行微调是一个简单有效的 LLM 知识入门方式。其次，文本分类有许多商业应用场景，比如：垃圾邮件检测、情感分析、客户反馈分类、主题分类等等。阅读完本文，你将找到以下

OpenAI o1 非 GPT-4o 直接进化，在成本与性能上妥协

9 月 14 日消息，OpenAI 已经推出了新模型 OpenAI o1 的两大变体 ——o1-preview 与 o1-mini，这两款模型都有许多值得深入探讨的内容。人工智能专家西蒙・威利森（Simon Willison）专门发文，深入剖析了这些新模型背后的设计理念与实现细节，揭示了它们在技术上的独特优势与不足。威利森表示，o1 并不是简单的 GPT-4o 直接升级版，而是在强化“推理”能力的同时，做出了成本与性能上的权衡。1. 训练思维链OpenAI 的声明是一个很好的起点：“我们研发了一系列新型人工智能模型

苹果 Apple Intelligence 被挖出重大安全缺陷，几行代码即可攻破

Apple Intelligence 上线在即，一小哥几行代码曝出 Apple Intelligence 安全缺陷。在 2024 年全球开发者大会 (WWDC) 上，Apple 发布了将搭载在 iOS 18.1 中的 AI 功能 Apple Intelligence。眼看着 10 月即将正式上线了，有「民间高手」在 macOS 15.1 提供的 Beta 测试版 Apple Intelligence 中发现重大缺陷。开发人员 Evan Zhou 使用提示注入成功操纵了 Apple Intelligence，绕过了预

图灵奖得主 LeCun 加盟 AI 芯片黑马 Groq，估值 28 亿美元挑战英伟达

英伟达又双叒迎来强劲挑战者了。成立于 2016 年的初创公司 Groq 在最新一轮融资中筹集了 6.4 亿美元，由 BlackRock Inc. 基金领投，并得到了思科和三星投资部门的支持。目前，Groq 的估值已经达到 28 亿美元。公司创始人 Jonathan Ross 曾在谷歌从事 TPU 芯片的开发，而 Groq 目前的顶梁柱 LPU 也是专门用于加速 AI 基础模型，尤其是 LLM。Ross 表示，一旦人们看到在 Groq 的快速引擎上使用大语言模型有多么方便，LLM 的使用量将会进一步增加。以更低的价格

大模型智障检测 + 1：Strawberry 有几个 r 纷纷数不清，最新最强 Llama3.1 也傻了

继分不清 9.11 和 9.9 哪个大以后，大模型又“集体失智”了！数不对单词“Strawberry”中有几个“r”，再次引起一片讨论。GPT-4o 不仅错了还很自信。刚出炉的 Llama-3.1 405B，倒是能在验证中发现问题并改正。比较离谱的是 Claude 3.5 Sonnet，还越改越错了。说起来这并不是最新发现的问题，只是最近新模型接连发布，非常热闹。一个个号称自己数学涨多少分，大家就再次拿出这个问题来试验，结果很是失望。在众多相关讨论的帖子中，还翻出一条马斯克对此现象的评论：好吧，也许 AGI 比我想

LLM 的“母语”是什么？

编辑：alan【新智元导读】在以英语为主的语料库上训练的多语言 LLM，是否使用英语作为内部语言？对此，来自 EPFL 的研究人员针对 Llama 2 家族进行了一系列实验。大语言模型的「母语」是什么？我们的第一反应很可能是：英语。但事实果真如此吗？尤其是对于能够听说读写多种语言的 LLM 来说。对此，来自 EPFL（洛桑联邦理工学院）的研究人员发表了下面这篇工作来一探究竟：论文地址： pdf / 2402.10588项目地址： epfl-dlab / llm-latent-language作者以 Llama2 为

Bengio等人新作：注意力可被视为RNN，新模型媲美Transformer，但超级省内存

序列建模的进展具有极大的影响力，因为它们在广泛的应用中发挥着重要作用，包括强化学习（例如，机器人和自动驾驶）、时间序列分类（例如，金融欺诈检测和医学诊断）等。在过去的几年里，Transformer 的出现标志着序列建模中的一个重大突破，这主要得益于 Transformer 提供了一种能够利用 GPU 并行处理的高性能架构。然而，Transformer 在推理时计算开销很大，主要在于内存和计算需求呈二次扩展，从而限制了其在低资源环境中的应用（例如，移动和嵌入式设备）。尽管可以采用 KV 缓存等技术提高推理效率，但 T

Karpathy称赞，从零实现LLaMa3项目爆火，半天1.5k star

项目中代码很多很全，值得细读。一个月前，Meta 发布了开源大模型 llama3 系列，在多个关键基准测试中优于业界 SOTA 模型，并在代码生成任务上全面领先。此后，开发者们便开始了本地部署和实现，比如 llama3 的中文实现、llama3 的纯 NumPy 实现等。十几个小时前，有位名为「Nishant Aklecha」的开发者发布了一个从零开始实现 llama3 的存储库，包括跨多个头的注意力矩阵乘法、位置编码和每个层在内都有非常详细的解释。该项目得到了大神 Karpathy 的称赞，他表示项目看起来不错，

70B 模型秒出 1000token，代码重写超越 GPT-4o，来自 OpenAI 投资的代码神器 Cursor 团队

70B 模型，秒出 1000token，换算成字符接近 4000！研究人员将 Llama3 进行了微调并引入加速算法，和原生版本相比，速度足足快出了快了 13 倍！不仅是快，在代码重写任务上的表现甚至超越了 GPT-4o。这项成果，来自爆火的 AI 编程神器 Cursor 背后团队 anysphere，OpenAI 也参与过投资。要知道在以快著称的推理加速框架 Groq 上，70B Llama3 的推理速度也不过每秒 300 多 token。Cursor 这样的速度，可以说是实现了近乎即时的完整代码文件编辑。有人直

估值 60 亿美元，法国 AI 初创公司 Mistral AI 即将达成新融资协议

据《华尔街日报》今日报道，法国初创公司 Mistral AI 即将达成一项以 60 亿美元（当前约 433.8 亿元人民币）估值进行融资的协议，与半年前相比，这一估值水平几乎达到了当时的三倍。IT之家注：在去年 12 月的融资中，Mistral 的估值为 21.5 亿美元。据知情人士透露，现有支持者 General Catalyst 和 Lightspeed Venture Partners 预计将是新一轮融资的主要金主，Mistral 将在此轮融资中筹集约 6 亿美元。而在今年 2 月，微软就已经向 Mistra

参数量不到10亿的OctopusV3，如何媲美GPT-4V和GPT-4？

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]。

5亿个token之后，我们得出关于GPT的七条宝贵经验

ChatGPT 正确的使用姿势。自 ChatGPT 问世以来，OpenAI 一直被认为是全球生成式大模型的领导者。2023 年 3 月，OpenAI 官方宣布，开发者可以通过 API 将 ChatGPT 和 Whisper 模型集成到他们的应用程序和产品中。在 GPT-4 发布的同时 OpenAI 也开放了其 API。一年过去了，OpenAI 的大模型使用体验究竟如何，行业内的开发者怎么评价？最近，初创公司 Truss 的 CTO Ken Kantzer 发布了一篇题为《Lessons after a half-b