向英伟达发起挑衅的Groq是什么来头?简单科普新型AI芯片LPU

这是一篇关于 LPU 的简单科普。在如今的人工智能领域,「GPU is All You Need」已经逐渐成为共识。没有充足的 GPU,连 OpenAI 都不能轻易升级 ChatGPT。不过最近,GPU 的地位也在经受挑衅:一家名为 Groq 的初创公司开发出了一种新的 AI 解决器 ——LPU(Language Processing Unit),其推理速率相较于英伟达 GPU 提高了 10 倍,利润却降低到十分之一。在一项展示中,LPU 以每秒超过 100 个词组的惊人速率执行了开源的大型说话模型 —— 拥有 7

这是一篇关于 LPU 的简单科普。

在如今的人工智能领域,「GPU is All You Need」已经逐渐成为共识。没有充足的 GPU,连 OpenAI 都不能轻易升级 ChatGPT。

不过最近,GPU 的地位也在经受挑衅:一家名为 Groq 的初创公司开发出了一种新的 AI 解决器 ——LPU(Language Processing Unit),其推理速率相较于英伟达 GPU 提高了 10 倍,利润却降低到十分之一。

在一项展示中,LPU 以每秒超过 100 个词组的惊人速率执行了开源的大型说话模型 —— 拥有 700 亿个参数的 Llama-2。下图展示了它的速率,可以看到,人眼的阅读速率根本跟不上 LPU 上模型的生成速率:

向英伟达发起挑衅的Groq是什么来头?简单科普新型AI芯片LPU

此外,它还在 Mixtral 中展示了自己的实力,实现了每个用户每秒近 500 个 token。

这一突破凸显了计算模式的潜在转变,即在解决基于说话的工作时,LPU 可以提供一种专业化、更高效的替代方案,挑衅传统上占主导地位的 GPU。

不过,原阿里技能副总裁、Lepton AI 创始人贾扬清发文分析称,Groq 的实际部署利润可能远高于预期。因为 Groq 的内存容量较小,运行同一模型(LLaMA 70B)最少需要 305 张 Groq 卡(实际需要 572 张),而使用英伟达的 H100 只需 8 张卡。从目前的价格来看,Groq 的硬件利润是 H100 的 40 倍,能耗利润是 10 倍。如果运行三年的话,Groq 的硬件采购利润是 1144 万美元,运营利润是 76.2 万美元或更高。8 卡 H100 的硬件采购利润是 30 万美元,运营利润是 7.2 万美元或略低。因此,虽然 Groq 的性能出色,但利润和能耗方面仍有待改进。

向英伟达发起挑衅的Groq是什么来头?简单科普新型AI芯片LPU

此外,Groq 的 LPU 不够通用也是一大弱点,这使得它短期内很难撼动英伟达 GPU 的地位。

向英伟达发起挑衅的Groq是什么来头?简单科普新型AI芯片LPU

下文将介绍与 LPU 有关的一系列知识。

LPU 是什么?

究竟什么是 LPU?它的运作机制是怎样的?Groq 这家公司是什么来头?

根据 Groq 官网介绍,LPU 是「language processing units(说话解决单元)」的缩写。它是「一种新型端到端解决单元系统,可为人工智能说话运用等具有序列成分的计算密集型运用提供最快的推理」。

向英伟达发起挑衅的Groq是什么来头?简单科普新型AI芯片LPU

还记得 2016 年 AlphaGo 击败世界冠军李世石的那场历史性围棋比赛吗?有趣的是,在他们对决的一个月前,AlphaGo 输掉了一场练习赛。在此之后,DeepMind 团队将 AlphaGo 转移到 TPU 上,大大提高了它的性能,从而以较大优势取得了胜利。

这一刻显示了解决能力在充分释放复杂计算潜能方面的关键作用。这激励了最初在谷歌领导 TPU 项目的 Jonathan Ross,他于 2016 年成立了 Groq 公司,并由此开发出了 LPU。LPU 经过独特设想,可迅速解决基于说话的操作。与同时解决多项工作(并行解决)的传统芯片不同,LPU 是按顺序解决工作(序列解决),因此在说话理解和生成方面非常有效。

向英伟达发起挑衅的Groq是什么来头?简单科普新型AI芯片LPU

打个比方,在接力赛中,每个参赛者(芯片)都将接力棒(数据)交给下一个人,从而大大加快了比赛进程。LPU 的具体目标是解决大型说话模型 (LLM) 在计算密度和内存带宽方面的双重挑衅。

Groq 从一开始就采取了创新战略,将软件和编译器的创新放在硬件开发之前。这种方法确保了编程能够引导芯片间的通信,促进它们协调高效地运行,就像生产线上运转良好的机器一样。

因此,LPU 在快速高效地管理说话工作方面表现出色,非常适合需要文本解释或生成的运用。这一突破使系统不仅在速率上超越了传统配置,而且在利润效益和降低能耗方面也更胜一筹。这种进步对金融、政府和技能等行业具有重要意义,因为在这些行业中,快速和精确的数据解决至关重要。

LPU 溯源

如果想要深入了解 LPU 的架构,可以去读 Groq 发表的两篇论文。

第一篇是 2020 年的《Think Fast: A Tensor Streaming Processor (TSP) for Accelerating Deep Learning Workloads》。在这篇论文中,Groq 介绍了一种名为 TSP 的架构,这是一种功能分片微架构,其内存单元与向量和矩阵深度学习功能单元交错排列,以利用深度学习运算的数据流局部性。

向英伟达发起挑衅的Groq是什么来头?简单科普新型AI芯片LPU

论文链接:https://wow.groq.com/wp-content/uploads/2020/06/ISCA-TSP.pdf

第二篇是 2022 年的《A Software-defined Tensor Streaming Multiprocessor for Large-scale Machine Learning》。在这篇论文中,Groq 介绍了用于 TSP 元件大规模互连网络的新型商用软件定义方法。系统架构包括 TSP 互连网络的打包、路由和流量控制。

向英伟达发起挑衅的Groq是什么来头?简单科普新型AI芯片LPU

论文链接:https://wow.groq.com/wp-content/uploads/2024/02/GroqISCAPaper2022_ASoftwareDefinedTensorStreamingMultiprocessorForLargeScaleMachineLearning.pdf

在 Groq 的词典中,「LPU」似乎是一个较新的术语,因为在这两篇论文中都没有出现。

不过,现在还不是抛弃 GPU 的时候。因为尽管 LPU 擅长推理工作,能毫不费力地将训练好的模型运用到新数据中,但 GPU 在模型训练阶段仍占据主导地位。LPU 和 GPU 之间的协同作用可在人工智能硬件领域形成强大的合作伙伴关系,二者都能在其特定领域发挥专长和领先地位。

LPU vs GPU

让我们比较一下 LPU 和 GPU,以便更清楚地了解它们各自的优势和局限性。

用途广泛的 GPU

图形解决单元(GPU)已经超越了其最初用于渲染视频游戏图形的设想目的,成为人工智能和机器学习工作的关键要素。它们的架构是并行解决能力的灯塔,可同时执行数千个工作。

这一特性对那些需要并行化的算法尤为有利,可有效加速从复杂模拟到深度学习模型训练的各种工作。

GPU 的多功能性是另一个值得称道的特点;它能熟练解决各种工作,不仅限于人工智能,还包括游戏和视频渲染。它的并行解决能力大大加快了 ML 模型的训练和推理阶段,显示出显著的速率优势。

然而,GPU 并非没有局限性。它的高性能是以大量能耗为代价的,这给能效带来了挑衅。此外,GPU 的通用设想虽然灵活,但并不总能为特定的人工智能工作提供最高效率,这也暗示了其在专业运用中潜在的低效问题。

擅长说话解决的 LPU

说话解决单元(LPU)代表了 AI 解决器技能的最前沿,其设想理念深深植根于自然说话解决(NLP)工作。与 GPU 不同,LPU 针对序列解决进行了优化,这是准确理解和生成人类说话的必要条件。这种专业化赋予了 LPU 在 NLP 运用中的卓越性能,使其在翻译和内容生成等工作中超越了通用解决器。LPU 解决说话模型的效率非常突出,有可能减少 NLP 工作的时间和能源消耗。

然而,LPU 的专业化是一把双刃剑。虽然它们在说话解决方面表现出色,但其运用范围较窄。这限制了它们在更广泛的 AI 工作范围内的通用性。此外,作为新兴技能,LPU 还没有得到社区的广泛支持,可用性也面临挑衅。不过,随着时间的推移和该技能逐步被采用,这些差距可能在未来得到弥补。

向英伟达发起挑衅的Groq是什么来头?简单科普新型AI芯片LPU

Groq LPU 会改变人工智能推理的未来吗?

围绕 LPU 与 GPU 的争论越来越多。去年年底,Groq 公司的公关团队称其为人工智能发展的关键参与者,这引起了人们的兴趣。

今年,人们重新燃起了兴趣,希望了解这家公司是否代表了人工智能炒作周期中的又一个转瞬即逝的时刻 —— 宣传似乎推动了认知度的提高,但它的 LPU 是否真正标志着人工智能推理迈出了革命性的一步?人们还对该公司相对较小的团队的经验提出了疑问,尤其是在科技硬件领域获得巨大认可之后。

一个关键时刻到来了,社交媒体上的一篇帖子大大提高了人们对该公司的兴趣,在短短一天内就有数千人询问如何使用其技能。公司创始人在一次视频通话中分享了这些细节,强调了热烈的反响以及他们目前由于没有计费系统而免费提供技能的做法。

向英伟达发起挑衅的Groq是什么来头?简单科普新型AI芯片LPU

公司创始人对硅谷的创业生态系统并不陌生。自 2016 年公司成立以来,他一直是公司技能潜力的倡导者。此前,他曾在另一家大型科技公司参与开发一项关键的计算技能,这为他创办这家新企业奠定了基础。这段经历对公司形成独特的硬件开发方法至关重要,公司从一开始就注重用户体验,在进入芯片的物理设想之前,公司最初主要致力于软件工具的开发。

随着业界继续评估此类创新的影响,LPU 重新定义人工智能运用中的计算方法的潜力仍然是一个引人注目的讨论点,预示着人工智能技能将迎来变革性的未来。

原文链接:https://dataconomy.com/2024/02/26/groq-sparks-lpu-vs-gpu-face-off/?utm_content=283765034&utm_medium=social&utm_source=twitter&hss_channel=tw-842860575289819136

给TA打赏
共{{data.count}}人
人已打赏
AI

Stability AI联合Morph AI共同发布一体式AI视频创作对象,助力技巧的落地与运用

2024-3-1 11:54:00

AI

微软 Microsoft 365 版 Copilot 4 月 1 日面向高校推出,拥有 A3 / A5 许可证可收费用

2024-3-7 7:20:26

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索