生成式 AI 推理性价比是 GPU 的 140 倍。
大模型时代,全球都缺算力,买铲子的英伟达市值被炒上了天。
现在,终于有一家公司带着自己的 AI 芯片来叫板了。
今天凌晨,科技圈迎来了一个重要新闻。美国芯片创业公司 Etched 推出了自己的第一块 AI 芯片 Sohu,它运转大模型的速度比英伟达 H100 要快 20 倍,比今年 3 月才推出的顶配芯片 B200 也要快上超过 10 倍。
一台 Sohu 的服务器运转 Llama 70B 每秒可输入超过 50 万个 token,比 H100 服务器(23,000 个 token / 秒)多 20 倍,比 B200 服务器(约 45,000 个 token / 秒)多 10 倍。
Sohu 是世界第一款公用于 Transformer 计算的芯片,历时两年打造。
作为一块 ASIC(公用集成电路),Sohu 把对于 transformer 架构的优化硬化在芯片中,无法运转大多数「传统」的 AI 模型:如为 Instagram 广告提供支持的 DLRM、AlphaFold 2 等蛋白质折叠模型或 Stable Diffusion 2 等较旧的图像生成模型。我们也无法运转 CNN、RNN 或 LSTM。
但另一方面,对于 transformer 来说,Sohu 就是有史以来最快的芯片,与其他产品之间是量级的区别。如今的每款主流 AI 产品如 ChatGPT、Claude、Gemini 和 Sora 都是由 transformer 驱动的。
最近一段时间,由于摩尔定律放缓,GPU 性能的提升很大程度上需求依赖于增加芯片面积和功耗。不论是英伟达 B200、AMD MI300X 还是 Intel Gaudi 3,都不约而同的使用「二合一」的方式提升性能,功耗也翻倍了。
从 2022 年到 2025 年,AI 芯片的性能并没有真正变得更好,而是变得更大了。
但如果大模型广泛使用 Transformer 架构,追求专业化或许是提高性能的好方向。
作为一个新兴领域,AI 模型的架构过去变化很大。但自 GPT-2 以来,最先进的模型几乎都在使用 Transformer,从 OpenAI 的 GPT 系列、谷歌的 PaLM、Facebook 的 LLaMa,再到特斯拉 FSD 自动驾驶所需的模型。
Etched 给我们算了一笔账:芯片项目的成本为 5000 万至 1 亿美元,需求数年时间才能投入生产。另一方面,当模型训练成本超过 10 亿美元、推理成本超过 100 亿美元时,使用公用芯片是不可避免的。在这种产业规模下,1% 的改进就能撬动硬件架构的更新。
速度超 H100 20 倍,FLOPS 利用率超 90%
作为世界上首款 transformer ASIC(应用型公用集成电路)芯片,一台集成了 8 块 Sohu 的服务器可以匹敌 160 块 H100 GPU。也即,Sohu 的运转速度是 H100 的 20 多倍。
具体来讲,通过专门化,Sohu 具备了前所未有的性能。一台集成 8 块 Sohu 芯片的服务器每秒可以处理 50 万的 Llama 7B tokens。
针对 Llama 3 70B 的 FP8 精度基准测试显示:无稀疏性、8 倍模型并行、2048 输入或 128 输入长度。
此外,对于 Llama、Stable Diffusion 3,Sohu 仅支持 transformer 推理。Sohu 支持了当前谷歌、Meta、微软、OpenAI、Anthropic 等各家的模型,未来还会适配模型调整。
由于 Sohu 仅能运转一种算法,因此可以删除绝大多数控制流逻辑,从而允许拥有更多数学块。也因此,Sohu 实现了 90% 以上的 FLOPS 利用率,而使用 TRT-LLM 的 GPU 约为 30%。
Sohu 为何能输入更多 FLOPS?
英伟达 H200 支持 989 TFLOPS 的 FP16/BF16 计算能力,并且没有稀疏性。这是当前最先进的芯片,而 2025 年推出的 GB200 将在计算能力上提升 25%,支持 1250 TFLOPS。
由于 GPU 的绝大部分区域都是可编程的,因此专注于 transformer 会容纳更多的计算。这可以从第一性原理中证明:
构建单个 FP16/BF16/FP8 乘加电路需求 10000 个晶体管,这是所有矩阵数学的基石。H100 SXM 拥有 528 个张量核心,每一个核心拥有 4× 8 × 16 FMA 电路。乘法告诉我们:H100 有 27 亿个晶体管用于张量核心。
但是,H100 却有 800 亿个晶体管。这意味着 H100 GPU 上只有 3.3% 的晶体管用于矩阵乘法。这是英伟达和其他芯片厂商经过深思熟虑的设计决定。如果你想支持所有类型的模型(CNN、LSTM、SSM 等),那么没有比这更好的了。
而通过仅运转 transformer,Etched 可以让 Sohu 芯片输入更多的 FLOPS,且需求降低精度或稀疏性。
内存带宽也不是瓶颈
实际上,对于像 Llama 3 这样的模型,情况并非如此。
我们以英伟达和 AMD 的标准基准为例:2048 个输入 token 和 128 个输入 token。大多数 AI 产品的 prompt 更长,比如最新的 Claude 聊天机器人在系统 prompt 中拥有 1000+tokens。
在 Sohu 上,推理是分 batch 运转的。每一个 batch 都需求加载所有模型权重一次,并在 batch 的每一个 token 中重复使用。通常来说,LLM 输入是计算密集型的,而 LLM 输入是内存密集型的。当我们将输入和输入 token 与连续 batch 结合时,工作负载变成了高度计算密集型。
以下为 LLM 连续 batching 处理的示例,这里运转具有四个输入 token 和四个输入 token 的序列。每种颜色代表不同的序列。
我们可以扩展相同的技巧,从而运转具有 2048 个输入 token 和 128 个输入 token 的 Llama 3 70B。每一个 batch 中包含用于一个序列的 2048 个输入 token,以及用于 127 个不同序列的 127 个输入 token。
如果这样做了,则每一个 batch 需求大约 (2048 + 127)×70B 参数 × 每一个参数 2 字节 = 304 TFLOP,而仅需求加载 70B 参数 × 每一个参数 2 字节 = 140 GB 的模型权重和大约 127× 64 × 8 × 128 × (2048 + 127) × 2 × 2 = 72GB 的 KV 缓存权重。这比内存带宽需求的计算量多得多:H200 需求 6.8 PFLOPS 的计算才能最大化其内存带宽。这还是利用率为 100% 的情况,如果利用率仅为 30%,则需求 3 倍以上的内存。
Sohu 拥有了更多的计算能力且利用率非常高, 因此可以运转巨大的吞吐量,而不会出现内存带宽瓶颈。
软件如何工作
在 GPU 和 TPU 上,软件是一场噩梦。处理任意 CUDA 和 PyTorch 代码需求极其复杂的编译器。第三方 AI 芯片(如 AMD、Intel、AWS 等)在软件上总共花费了数十亿美元,但收效甚微。
而 Sohu 只运转 transformer,因此只需求为 transformer 编写软件。
大多数运转开源或内部模型的公司都使用特定于 transformer 的推理库,比如 TensorRT-LLM、vLLM 或 HuggingFace 的 TGI。
这些框架非常僵化,虽然你可以进行模型超参数调优,但实际上不支持更改底层模型代码。但这没关系,因为所有 transformer 模型都非常相似(甚至是文本 / 图像 / 视频模型),所以超参数调优就是你真正需求的。
虽然 95% 的 AI 公司是这样,但一些最大的 AI 实验室采用定制方式。他们有工程师团队来手动调整 GPU 核心以实现更高的利用率,并进行逆向工程以将寄存器对每一个张量核心的延迟将至最低。
Etched 让我们不需求再进行逆向工程,他们的软件(从驱动程序、内核到服务堆栈)都将是开源的。如果你想实现自定义 transformer 层,则内核向导可以自由地这样做。
创业团队:哈佛辍学生领衔
Etched 的 CEO Gavin Uberti 告诉记者:「如果未来 Transformer 不再是主流,那我们就会灭亡。但如果它继续存在,我们就会成为有史以来最大的公司。」
打造 Sohu 芯片的 Etched 位于加州库比蒂诺,公司成立仅两年,目前团队只有 35 人,创始人是一对哈佛辍学生 Gavin Uberti(前 OctoML 和前 Xnor.ai 员工)和 Chris Zhu,他们与 Robert Wachen 和前赛普拉斯半导体公司首席技术官 Mark Ross 一起,一直致力于打造公用于 AI 大模型的芯片。
在 Sohu 芯片发布的同时,Etched 也宣布已完成了 1.2 亿美元的 A 轮融资,由 Primary Venture Partners 和 Positive Sum Ventures 共同领投。Etched 的总融资额已达到 1.2536 亿美元,本轮融资的重要投资者包括 Peter Thiel、GitHub 首席执行官 Thomas Dohmke、Cruise 联合创始人 Kyle Vogt 和 Quora 联合创始人 Charlie Cheever。
不过对于占据超过 80% AI 芯片市场份额的英伟达来说,1.2 亿美元只相当于它半天的收入。
「我们如此兴奋的原因,选择辍学的原因,以及我们召集团队,投身芯片项目的原因在于 —— 这是最重要的工作,」Etched 运营主管 Robert Wachen 说道。「整个技术的未来将取决于算力基础设施能否实现大规模。」
Uberti 声称到目前为止,已有匿名客户预订了「数千万美元」的硬件,预计在今年三季度,Sohu 将推向市场。
未来真的如 Uberti 所说,只有在 Sohu 这样的芯片上,视频生成、音频生成、具身智能等技术才能真正落地吗?
参考内容:
https://www.etched.com/announcing-etched
Meet Sohu, the fastest AI chip of all time.
With over 500,000 tokens per second running Llama 70B, Sohu lets you build products that are impossible on GPUs. One 8xSohu server replaces 160 H100s.
Sohu is the first specialized chip (ASIC) for transformer models. By specializing,… pic.twitter.com/IndYfP2CN0
— Etched (@Etched) June 25, 2024
https://www.cnbc.com/2024/06/25/etched-raises-120-million-to-build-chip-to-take-on-nvidia-in-ai.html
https://techcrunch.com/2024/06/25/etched-is-building-an-ai-chip-that-only-runs-transformer-models/