高通发布解读终端侧生成式 AI 技术白皮书:异构计算背后的技术奥秘

过去一年,生成式 AI 赛道持续火热,到今天,“All in AI”已经成为几乎任何科技企业的共识,互联网企业在用 AI 重新打造业务和软件,终端厂商在用 AI 重塑产品,抢滩“AI 手机”、“AI PC”,上游的芯片和解决方案提供商,则也在用 AI 重新定义芯片。在此背景下,作为很早就在底层芯片技术层面布局终端侧 AI 的高通,最近发布了《通过 NPU 和异构计算开启终端侧生成式 AI》白皮书。在这份白皮书中,高通详细解读了在生成式 AI 需求愈发旺盛的趋势下,他们是如何利用 NPU 和异构计算,开启终端侧的丰富

过去一年,生成式 AI 赛道持续火热,到今天,“All in AI”已经成为几乎任何科技企业的共识,互联网企业在用 AI 重新打造业务和软件,终端厂商在用 AI 重塑产品,抢滩“AI 手机”、“AI PC”,上游的芯片和解决方案提供商,则也在用 AI 重新定义芯片。

在此背景下,作为很早就在底层芯片技术层面布局终端侧 AI 的高通,最近发布了《通过 NPU 和异构计算开启终端侧生成式 AI》白皮书。在这份白皮书中,高通详细解读了在生成式 AI 需求愈发旺盛的趋势下,他们是如何利用 NPU 和异构计算,开启终端侧的丰富生成式 AI 用例的。

异构计算满足生成式 AI 的多样化需求

具体来说,高通的异构计算引擎也就是高通 AI 引擎,包含差别的处置惩罚器组件,分别是 CPU、GPU、NPU 以及高通传感器中枢等,他们共同协作以打造出色的感受,而在每一代产品上,高通都会不断升级上述任何组件的才能。

这其中,差别的处置惩罚器组件扮演差别的角色,各有擅长的处置惩罚任务。

高通发布解读终端侧生成式 AI 技术白皮书:异构计算背后的技术奥秘

CPU 擅长顺序控制,非常适用于需要低时延的应用场景,因此高通会在对时延要求非常高的用例中使用 CPU。CPU 也适用于相对较小的传统模型,如卷积神经网络模型(CNN),或一些特定的大语言模型(LLM)。

此外 CPU 才能还取决于特定的产品类型。如果是传统的 PC 芯片,其 CPU 功能会十分强大;如果是车用芯片,则会更加注重 NPU 才能。

GPU 相信大家也比较清楚,主要擅长面向高精度格式的并行处置惩罚,比如对画质要求非常高的图像以及视频处置惩罚。

而 NPU,则主要是在持续型用例中,需要以低功耗实现持续稳定的高峰值机能,可以发挥其最大优势。

在鉴于 LLM 和大视觉模型(LVM)的差别用例,例如 Stable Diffusion 或其他扩散模型中,NPU 的每瓦特机能表现会十分出色。

高通表示,选择合适的处置惩罚器处置惩罚相关任务至关重要,但同时也要关注 SoC 整体的工作负载情况。例如你在玩一款重负载游戏,此时 GPU 会被完全占用,而如果是在浏览多个网页,CPU 可能会占用过高,此时 NPU 作为真正的 AI 专用引擎就会体现出非常大的优势,可以确保我们在 AI 用例中获得出色感受。

Hexagon NPU 的过去,现在和未来

高通 AI 引擎中的 NPU,就是我们熟知的 Hexagon NPU,它拥有强大的差异化优势和业界超过的 AI 处置惩罚才能。

Hexagon NPU 的发展,也是一个长期演进,循序渐进的过程。

高通在 2015 年推出的第一代 AI 引擎时,其 Hexagon NPU 主要集成了标量和向量运算扩展,2016-2022 年之间,高通则将研究方向拓展至 AI 影像和视频处置惩罚,以实现增强的影像才能,同时他们还在这一时期引入 Transforme 层处置惩罚,并且在 NPU 中增加了张量运算核心(Tensor Core)。

高通发布解读终端侧生成式 AI 技术白皮书:异构计算背后的技术奥秘

从 2023 年开始,Hexagon NPU 实现了对 LLM 和 LVM 的支撑,高通在 NPU 中增加了 Transformer 支撑,以更好地处置惩罚鉴于 Transformer 的模型。现在,Hexagon NPU 可以在终端侧运转高达 100 亿参数的模型,无论是首个 token 的生成速度还是每秒生成 token 的速率,都处在业界超过水平。

此外,高通还引入了微切片推理技术,增加了可以支撑任何引擎组件的大共享内存,以实现超过的 LLM 处置惩罚才能。

而接下来,Hexagon NPU 则会朝着对模态生成式 AI 的方向努力,比如在最近的 MWC 2024 上,高通展示了在终端上运转的多模态生成式 AI 模型,具体来说,是在第三代骁龙 8 上运转的首个大语言和视觉助理大模型(LLaVA),其可以鉴于图像输入解答用户的相关问题。这将为终端产品带来全新的才能,例如视障人士或将可以借助这样的功能在城市内进行导航,通过将图像信息转换成音频或语音,使得他们可以了解周围的事物。

同时,高通还在 MWC 上展示了鉴于骁龙 X Elite 计算平台、全球首个在终端侧运转的超过 70 亿参数的大型多模态语言模型(LMM),可接受文本和音频输入(如音乐、交通环境音频等),并鉴于音频内容生成多轮对话。

高通发布解读终端侧生成式 AI 技术白皮书:异构计算背后的技术奥秘

这也正是高通所寄予希望的未来发展方向,终端侧将可以处置惩罚丰富的感官信息,为用户带来完整的感受。

NPU 加持的异构计算,是这样完成 AI 应用需求的

接下来,高通更进一步,解读了骁龙 Hexagon NPU 以及 AI 引擎整体的异构计算,是如何在具体的 AI 用例中工作、运转的。

在解读中,他们以第三代骁龙 8 移动平台为例,在该平台中全新的 Hexagon NPU 拥有 98% 的张量运算核心的峰值机能提升,同时标量和向量运算机能也得到了提升,并在 NPU 中集成了用于图像处置惩罚的分割网络(Segmentation Network)模块。

同时高通还增加了面向 AI 处置惩罚中非线性功能的硬件加速才能。凭借微切片推理技术,可以把一个神经网络层分割成多个小切片,可以在最多十层的深度上做融合,而市面上的其他 AI 引擎则必须要逐层进行推理。

高通发布解读终端侧生成式 AI 技术白皮书:异构计算背后的技术奥秘

此外,第三代骁龙 8 的 Hexagon NPU 还拥有大共享内存,提供加速器专用电源传输轨道,也为大共享内存带来更大的带宽。

鉴于上述机能提升,高通打造了面向生成式 AI 处置惩罚的行业超过 NPU。

在具体用例中,高通以 AI 旅行助手为例,用户可以直接对模型提出规划旅游行程的需求。AI 助手可以立刻给到航班行程建议,并与用户进行语音对话调整行程,最后通过 Skyscanner 插件创建完整航班日程,给用户带来一步到位的使用感受。

在这个过程中,首先,用户的语音输入需要通过自动语音识别(ASR)模型 Whisper 转化为文本,Whisper 是 OpenAI 发布的一个约 2.4 亿参数的模型,它主要在高通传感器中枢上运转。

接下来利用 Llama 2 或百川大语言模型鉴于文本内容生成文本回复,这一模型在 Hexagon NPU 上运转。之后需要通过在 CPU 上运转的开源 TTS(Text to Speech)模型将文本转化为语音。

高通发布解读终端侧生成式 AI 技术白皮书:异构计算背后的技术奥秘

最后,通过高通的调制解调器技术进行网络连接,使用 Skyscanner 插件完成订票操作。这一流程展示了如何通过选择合适的处置惩罚器进行异构计算,并最终形成完整的使用感受。

在上述任何的硬件 AI 才能之上,高通还打造了高通 AI 软件栈(Qualcomm AI Stack)。它可以支撑目前任何的主流 AI 框架,包括 TensorFlow、PyTorch、ONNX、Keras;它还支撑任何主流的 AI runtime,包括 DirectML、TFLite、ONNX Runtime、ExecuTorch,以及支撑差别的编译器、数学库等 AI 工具。

高通发布解读终端侧生成式 AI 技术白皮书:异构计算背后的技术奥秘

此外他们还推出了 Qualcomm AI studio,为开发者提供开发过程中需要用到的相关工具,其中包括支撑模型量化和压缩的高通 AI 模型增效工具包(AIMET),可以让模型运转更加高效。高通 AI 软件栈是当前边缘侧的业界超过解决方案。

正是鉴于高通 AI 软件栈和核心硬件 IP,高通才能跨过任何差别产品线,将应用规模化扩展到差别类型的终端,从智能手机到 PC、物联网终端、汽车等等。这无疑为其合作伙伴以及用户带来显著优势,开发一次就能覆盖高通差别芯片组解决方案的差别产品和细分领域进行部署。

高通发布解读终端侧生成式 AI 技术白皮书:异构计算背后的技术奥秘

总体来说,通过这份生成式 AI 的白皮书,我们可以看到高通在终端侧生成式 AI 的全链路部署、Hexagon NPU 在终端侧生成式 AI 方面展现出的超过实力及其背后丰富的技术细节。可以说,利用多种处置惩罚器进行异构计算,特别是 NPU 的表现,对于实现生成式 AI 应用最佳机能和能效至关重要,同时,终端侧 AI 正成为全行业关注的焦点,其在成本、能效、可靠性、安全性等方面的优势都可以成为云端 AI 的绝佳拍档,而高通在终端侧生成式 AI 方面已经有着多年的积累,并展现出超过的技术领导力和出色的生态系统建设成果,相信他们可以在未来持续通过产品技术和生态合作,真正赋能终端侧生成式 AI 的规模化扩展。

给TA打赏
共{{data.count}}人
人已打赏
AI

教授何恺明在MIT的第一堂课

2024-3-11 11:47:00

AI

世界最大开源 AI 社区 Hugging Face 涉足开源机械人领域,前特斯拉科学家领衔

2024-3-11 14:04:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索