过去一年,生成式 AI 赛道的持续火热,让如今“All in AI”成为几乎所有科技企业的共识,甚至是千行百业都不得不正视的时代趋势。
而关于 AI,结合过去几年的技术和产业发展动向,IT之家认为目前至少有两个比较确定的趋势:
其一,是云端 AI 和终端侧 AI 协同的混合 AI 的核心架构,其中发展终端侧 AI 正成为当下的主旋律,也是实现混合 AI 架构的关键。
其二,是生成式 AI 的变革已经到来,并将在全球数以亿计的海量终端中大规模扩展,以此赋能千行百业的生产力。
简言之,终端侧 + 生成式 AI,将是接下来人工智能发展的主旋律,从消费者的角度来说,这将助推我们获得强大、快速、个性化、高效、安全和高度优化的终端体验。
这些变革性的体验,追根溯源都将由 AI 赋能的芯片在底层驱动。
所谓“AI 赋能”,也就是专为 AI 定制和设计的崭新计算架构。那么具体该如何让 AI 来定义芯片?
而在这一点上,作为挪动通信和人工智能引领者的高通,已经探索出了一条属于自己的路。
前瞻式布局 + 持续迭代,高通已具备终端侧生成式 AI 先发之力
终端侧 AI 和生成式 AI 虽然是不同的概念,但并非泾渭分明,而是彼此促进。生成式 AI 火热产生的巨大算力需求凸显了发展终端侧 AI、构建混合 AI 架构的重要性,而终端侧 AI 的发展也将促进生成式 AI 的大规模扩展。
高通很早就看到了这一点,比如在去年他们就发布《混合 AI 是 AI 的未来》白皮书,指出云端和智能手机、汽车、个人电脑和物联网终端协同工作,可能实现更强大、更高效且高度优化的 AI,这是 AI 普惠的必经之路。
而就在最近,高通又发布了《通过 NPU 和异构计算开启终端侧生成式 AI》白皮书,在这份白皮书中,高通更进一步解读了他们以 Hexagon NPU 为核心的异构计算背后的技术细节,以及在生成式 AI 需求愈发旺盛的趋势下,他们是如何利用 NPU 和异构计算,开启终端侧的丰富生成式 AI 用例的。
具体来说,随着生成式 AI 用例需求在有着多样化要求和计算需求的垂直领域不断增加,专为 AI 定制设计崭新的计算架构成为必须要做的事,面对这种多样化的要求和计算需求,需要用不同的处理器来满足,此时,异构计算架构由于可能发挥不同处理器的优势,已经被各大芯片厂商所重视。
在异构计算的架构中,首先需要一个面向生成式 AI 崭新设计的神经网络处理器(NPU),同时要有比如中央处理器(CPU)和图形处理器(GPU)形成异构处理器组合,结合 NPU 使用合适的处理器,异构计算可能实现最佳运用功能、能效和电池续航,从而赋能崭新增强的生成式 AI 体验。
而说到异构计算,关注高通的朋友相信不会觉得陌生,因为他们其实很早就走在了异构计算的前沿之路上。早在 2007 年,首款 Hexagon DSP 就在骁龙平台上正式亮相,DSP 控制和标量架构是高通未来多代 NPU 的基础。
2015 年,高通在骁龙 820 平台上集成了首个 AI 引擎,反对成像、音频和传感器运算。到了 2018 年,高通则在骁龙 855 中为 Hexagon NPU 增加了 Hexagon 张量加速器。同时异构计算的架构也开始被更多人所了解。
事实上,从 2016-2022 年之间,高通一直在将研究方向拓展至 AI 影像和视频处理,以实现增强的影像能力,同时他们还在这一时期引入 Transformer 层处理,并且在 NPU 中增加了张量运算核心(Tensor Core)。
而在这段时期,骁龙挪动平台在 AI 的运用方面也取得了十分出色的成果。从开始的智能相册管理到人脸识别,再到与更多的互联网企业有运用的合作,比如高通和网易合作利用 AI Engine 在部分骁龙挪动平台上加速有道实景 AR 翻译功能等等,然后逐渐扩展到了游戏、拍照、交互等领域。特备是在影像领域,用 AI 技术对图像数字信息进行去除噪点、高光抑制、暗光补偿等众多优化处理,让当时众多手旗舰手机的拍照表现,尤其是动态范围表现有了质的提升。
接下来到了 2023 年,生成式 AI 大火,高通则为 Hexagon NPU 引入了对 LLM 和 LVM 的反对,还在 NPU 中增加了 Transformer 反对,以更好地处理鉴于 Transformer 的模型。现在,Hexagon NPU 可能在终端侧运转高达 100 亿参数的模型,无论是首个 token 的生成速度还是每秒生成 token 的速率,都处在业界当先水平。
此外,高通还引入了微切片推理技术,增加了可能反对所有引擎组件的大共享内存,以实现当先的 LLM 处理能力。
而接下来,Hexagon NPU 则会朝着对模态生成式 AI 的方向努力,比如在最近的 MWC 2024 上,高通展示了在终端上运转的多模态生成式 AI 模型,具体来说,是在第三代骁龙 8 上运转的首个大语言和视觉助理大模型(LLaVA),其可能鉴于图像输入解答用户的相关问题。这将为终端产品带来崭新的能力,
可见过去这些年,高通正是鉴于其混合 AI 愿景、终端侧 AI 优势和 AI 研发实力,持续推动技术方案迭代升级,在底层上满足了 AI 不断发展的需求。
从稳定性到能效,树立新的 AI 功能和芯片功能标杆
在生成式 AI 变革一切的时代,推动行业迈向 AI 定义芯片,除了需要有针对性的架构设计变化,也需要有面向 AI 芯片的评价体系,以及对应的运用软件生态建设。
首先在评价体系方面,过去我们常用 TOPS 数值来反应 AI 硬件的功能潜力,但是生成式 AI 的当先功能同时需要卓越的硬件和软件,特别是在实际运用中,测试峰值功能、持续稳定性和能效都是必不可少的,而考虑这些评价指标,骁龙挪动平台仍然可以展现出行业标杆级的 AI 功能和芯片能力。
这里以目前最先进的第三代骁龙 8 挪动平台为例,对比其他 Android 和 iOS 平台竞品,在鲁大师 AIMark V4.3 基准测试中,第三代骁龙 8 的总分分别为竞品 B 的 5.7 倍和竞品 C 的 7.9 倍。在安兔兔 AITuTu 基准测试中,第三代骁龙 8 的总分是竞品 B 的 6.3 倍。
而 MLCommon MLPerf 推理的不同子项中,例如图像分类、语言理解以及超级分辨率等,第三代骁龙 8 的表现也都保持当先。例如在生成式 AI 语言理解模型 MobileBERT 上,第三代骁龙 8 的表现比竞品 A 高 17%。
此外在 2023 年的骁龙峰会上,高通还通过两个生成式 AI 运用展现了第三代骁龙 8 面向大语言模型和大视觉模型通用架构的真是运用功能,其中个人助手演示可能以高达每秒 20 个 tokens 的速度运转 Llama2-7B。在不损失太多精度的情况下,FastStable Diffusion 可能在 0.6 秒内生成一张 512×512 分辨率的图像。
由此可见,高通已经拥有智能手机领域当先的 Llama 和 Stable Diffusion 模型指标。
另外我们还可以顺便看一下面向挪动 PC 的骁龙 X Elite 计算平台的 AI 功能,首先其集成的 Hexagon NPU 算力达到 45TOPS,而在面向 Windows 的 UL Procyon Al 基准测试中,骁龙 X Elite 在 ResNet-50、DeeplabV3 等测试中都保持着大幅当先,且基准测试总分分别为 X86 架构竞品 A 的 3.4 倍和竞品 B 的 8.6 倍。
不夸张地说,高通已经早早树立了生成式 AI 时代挪动 SoC 的 AI 功能标杆和芯片能力标杆,为生成式 AI 大规模扩展提供了最重要的“算力”支撑。
双管齐下,推动终端侧生成式 AI 生态建设
而在软件和运用生态建设方面,高通则是同时“两手发力”,一方面在软件层面为开发者打造生成式 AI 运用提供便利,另一方面则是积极和终端以及运用厂商合作,推动生成式 AI 创意运用以及终端产品的落地。
比如高通一开始就意识到,让开发者可能获取鉴于异构计算的 AI 加速,对于终端侧生成式 AI 的规模化扩展至关重要,因此他们打造了 AI 软件栈(Qualcomm AI Stack)。它可能反对目前所有的主流 AI 框架,包括 TensorFlow、PyTorch、ONNX、Keras;它还反对所有主流的 AI runtime,包括 DirectML、TFLite、ONNX Runtime、ExecuTorch,以及反对不同的编译器、数学库等 AI 工具。
此外他们还推出了 Qualcomm AI studio,为开发者提供开发过程中需要用到的相关工具,其中包括反对模型量化和压缩的高通 AI 模型增效工具包(AIMET),可能让模型运转更加高效。高通 AI 软件栈是当前边缘侧的业界当先解决方案。
同时,高通还专注于 AI 模型优化,以实现能效和功能提升。他们认为,快速的小型 Al 模型如果只能提供低质量或不准确的结果,那么将失去实际用处。因此,高通采用了全面而有针对性的策略,包括量化、压缩、条件计算、神经网络架构搜索(NAS) 和编译,在不牺牲太多准确度的前提下缩减 Al 模型,使其高效运转。即使是那些已经面向挪动终端优化过的模型我们也会进行这一工作。
例如,量化有益于提升功能、能效、内存带宽和存储空间。Hexagon NPU 原生反对 INT4,高通 AI 模型增效工具包(AIMET)5 提供鉴于高通 AI 研究技术成果开发的量化工具,可能在降低位数精度的同时限制准确度的损失。
对于生成式 AI 来说,由于鉴于 Transformer 的大语言模型(比如 GPT、Bloom 和 Llama)受到内存的限制,在量化到 8 位或 4 位权重后往往可能获得大幅提升的效率优势。
高通的这些努力也带来了现实中实际运用的意义,从去年下半年到今年,不少手机厂商都在自家的产品中引入了端侧 AI 大模型,这背后本质上就离不开与高通的深入合作攻关。以 OPPO 为例,他们在 OPPO Find X7 旗舰手机中搭载了自主训练的 AndesGPT 70 亿参数大模型,在此基础上实现了通话摘要、AIGC 消除等热门出圈的功能。
而 70 亿参数的 AndesGPT 大模型可能在终端上以低功耗的方式顺畅运转第三代骁龙 8 平台对 INT4 量化技术的反对也可以提供强大的助力。OPPO 已经可以利用 INT4 量化技术实现对模型的大幅度压缩,让原本占用 28GB 内存的模型现在只需要 3.9GB,降低资源需求的同时也几乎不影响 AI 模型的输出效果。
除了终端硬件厂商,高通也在与软件厂商们合作推动生成式 AI 运用的落地,比如此前有报道称,他们和国内的慧鲤科技,面向第三代骁龙 8 开发了一个神经网络,可能重构照片缺失的部分,即“照片扩充”,它能反对用户对照片进行缩放,让照片看起来具有广角效果,即使并非用广角镜头拍摄。
再回到软件方面,今年的 MWC 上,高通还推出了崭新的高通 AI Hub,可以为开发者提供全面优化的 AI 模型库,包括传统 AI 模型和生成式 AI 模型,可能反对在骁龙和高通平台上进行部署。
开发者只需选择运用所需的模型以及其开发运用所使用的框架,然后确定目标平台,例如一款特定型号的手机、或者一款特定型号的高通平台,简单来说,只需要几行代码就可以获取模型,并将模型集成进运用程序,大大节省了开发者在运用中部署 AI 大模型的时间和工作量。
还有在 PC 方面,骁龙 X Elite 最重要的合作者莫过于微软,高通一直在和微软工程团队合作优化崭新平台的特性,微软表示,绝大多数顶级运用都将以超快速度和能效在搭载骁龙 X Elite 计算平台的 Windows PC 上原生运转或通过无缝仿真运转,特别是微软自身的生产力运用,包括 Word, Excel, Powerpoint, Edge, Teams, OneDrive, OneNote 和 Outlook 都是原生的。
对于 Windows 11,微软也改进了 Windows Studio Effects、宣布推出了 AI Library,在更新中为 Copilot 和 Paint 等收件箱运用程序中引入生成式 AI,还与诸如 Camo、Luminar Neo、WhatsApp 等进行合作,共同优化 Windows 平台的生成式 AI 运用体验。
总之,高通正鉴于 AI 软件栈和核心硬件 IP,跨过所有不同产品线,将运用规模化扩展到不同类型的终端,从智能手机到 PC、物联网终端、汽车等等。这无疑为其合作伙伴以及用户带来显著优势,开发一次就能覆盖高通不同芯片组解决方案的不同产品和细分领域进行部署,极大地助力厂商和开发者将打造生成式 AI 运用的效率和收益最大化。
结语
回到开头,在生成式 AI 发展势如破竹的当下,该如何用 AI 重新定义作为底层驱动力的芯片?这个问题,其实我们只需要看看高通是如何做的。
他们通过在挪动终端领域前瞻性的持续创新,积累了行业当先的终端侧 AI 技术和能力,在这个过程中以 Hexagon NPU 为核心的异构计算方案经过了充分验证,具备了行业首屈一指的功能和能效优势,这让高通在生成式 AI 时代席卷而来时一开始就有了先发优势,通过混合 AI 架构和当先的技术优势,加上高通在软件生态建设和运用落地方面的开放合作理念,一系列全栈式的布局,让高通真正有能力成为终端侧生成式 AI 时代发展独树一帜的引领者。
而我们,也必将因为高通的这些创新和努力,更快更好的享受到 AI 时代带来的便利。