图:Cerebras 第三代晶圆级 AI 巨型芯片 WSE-3。(来源:Cerebras)
编辑 | 白菜叶
人工智能超级计算机公司 Cerebras 表现,其下一代晶圆级人工智能芯片可以在消耗相同电量的情况下将性能提高一倍。
Wafer Scale Engine 3 (WSE-3,文中又称 CS-3) 包含 4 万亿个晶体管,由于运用了更新的芯片制作手艺,比上一代增加了 50% 以上。
该公司表现将在新一代人工智能计算机中运用 WSE-3,这些计算机目前正在 Dallas 的一个数据中心组装,这将是一台能够执行 8 exaflops(每秒 80 亿次浮点运算)的超级计算机。
另外,Cerebras 与高通签订了一项联合开发协议,旨在将人工智能推理的价格和性能指标提高 10 倍。
CS-3 可训练高达 24 万亿个参数的神经搜集模型,是当前最大 LLM 规模的 10 倍多
凭借 WSE-3,Cerebras 可以继续生产世界上最大的单芯片。它呈正方形,边长为 21.5 厘米,几乎运用整个 300 毫米硅片来制作一个芯片。
芯片制作设备通常仅限于生产不超过约 800 平方毫米的硅芯片。芯片制作商已经开始通过运用3D集成和其他先进封装手艺来突破这一限制,以组合多个芯片。不过,即使在这些零碎中,晶体管数量也达到数百亿个。
像往常一样,这个大芯片配备了一些令人叹为观止的高级功能。
你可以在 WSE 芯片的发展史中看到摩尔定律的作用。第一个于 2019 年首次亮相,采用台积电的 16 纳米手艺制作。对于 2021 年推出的 WSE-2,Cerebras 转而采用台积电的 7 纳米工艺。WSE-3 采用 5 纳米手艺制作。
自第一个巨型芯片问世以来,晶体管的数量增加了两倍多。与此同时,它们的用途也发生了变化。例如,芯片上的人工智能核心数量已显著趋于平稳,内存量和内部带宽也是如此。每秒浮点运算(flops)方面的性能改进已经超过了所有其他指标。
图:Cerebras 处理器的标准化变化。(来源:IEEE Spectrum)
CS-3 和 Condor Galaxy 3
围绕新型人工智能芯片 CS-3 构建的计算机旨在训练新一代巨型语言模型,比 OpenAI 的 GPT-4 和谷歌的 Gemini 大 10 倍。
该公司表现,CS-3 可以训练高达 24 万亿个参数的神经搜集模型,是当今最大的 LLM 规模的 10 倍多,并且无需诉诸其他计算机所需的一组软件技巧。
根据 Cerebras 的说法,这意味着在 CS-3 上训练 1 万亿个参数模型所需的软件就像在 GPU 上训练 10 亿个参数模型一样简单。
可以组合多达 2,048 个零碎,这一配置可以在一天内从头开始训练 LLM Llama 70B。不过,该公司表现,还没有那么大的项目正在进行中。
第一台基于 CS-3 的超级计算机是位于 Dallas 的 Condor Galaxy 3,它将由 64 台 CS-3 组成。与其基于 CS-2 的兄弟零碎一样,Abu Dhabi 的 G42 拥有该零碎。与 Condor Galaxy 1 和 2 一起构成一个 16 exaflops 的搜集。
「现有的 Condor Galaxy 搜集已经训练了一些业内领先的开源模型,下载量已达数万次。」G42 的首席手艺官 Kiril Evtimov 在一份新闻稿中表现,「通过将容量加倍至 16 exaflops,我们期待看到 Condor Galaxy 超级计算机能够实现的下一波创新浪潮。」
与高通达成协议
虽然 Cerebras 计算机是为训练而构建的,但 Cerebras 首席执行官 Andrew Feldman 表现,推理、神经搜集模型的执行才是人工智能运用的真正限制。
据 Cerebras 估计,如果地球上的每个人都运用 ChatGPT,每年将花费 1 万亿美元,更不用说大量的化石燃料能源了。(运营成本与神经搜集模型的规模和用户数量成正比。)
因此,Cerebras 和高通建立了合作伙伴关系,目标是将推理成本降低 10 倍。Cerebras 表现,他们的解决方案将涉及应用神经搜集手艺,例如权重数据压缩和稀疏性。
该公司表现,经过 Cerebras 训练的搜集将在高通公司的新型推理芯片 AI 100 Ultra 上高效运行。
相关报道:https://spectrum.ieee.org/cerebras-chip-cs3