为AI加快而生：英特尔的至强，现在能跑200亿参数大模型了

实用化 AI 算力又升上了一个新台阶。

在人工智能的利用领域，出现了一些让人始料未及的趋势：很多传统企业开始选择在 CPU 平台上落地和优化 AI 利用。

例如制造领域在高度精细且较为耗时的瑕疵检测环节，就导入了 CPU 及其他产品组合，来构建横跨「云-边-端」的 AI 缺陷检测方案，代替传统的人工瑕疵检测方式。

再比如亚信科技就在自家 OCR-AIRPA 方案中采用了 CPU 作为硬件平台，完成了从 FP32 到 INT8/BF16 的量化，从而在可接受的精度损失下，增加吞吐量并加快推理。将人工成本降至原来的 1/5 到 1/9，效率还提拔了约 5-10 倍。

在处置 AI 制药领域最重要的算法——AlphaFold2 这类大型模型上，CPU 同样也「加入群聊」。从去年开始，CPU 便使 AlphaFold2 端到端的通量提拔到了原来的 23.11 倍；而现如今，CPU 让这个数值再次提拔 3.02 倍。

上述这些 CPU，都有个共同的名字——至强，即英特尔® 至强® 可扩张处置器。为什么这些 AI 任务的推理能用 CPU，而不是只考虑由 GPU 或 AI 加快器来处置？

这里历来存在很多争论。很多人认为，真正落地的 AI 利用往往与企业的中心业务紧密关联，在要求推理功能的同时，也需要关联到它的中心数据，因此对数据安全和隐私的要求也很高，因此也更偏向本地化部署。

而结合这个需求，再考虑到真正用 AI 的传统行业更熟悉、更了解也更容易获取和利用 CPU，那么利用服务器 CPU 混合精度完成的推理吞吐量，就是他们可能更快和以更低成本解决自身需求的方法了。面对越来越多传统 AI 利用和大模型在 CPU 上的落地优化，「用CPU加快AI」这条道路被不断验证。

这就是在数据中心中，有 70% 的推理运行在英特尔® 至强® 可扩张处置器上的原因1 。最近，英特尔的服务器 CPU 完成了又一次进化。12 月 15 日，第五代英特尔® 至强® 可扩张处置器正式发布。英特尔表示，一款为 AI 加快而生，而且表现更强的处置器诞生了。

为AI加快而生：英特尔的至强，现在能跑200亿参数大模型了

人工智能正在推动人类与技术交互方式的根本性转变，这场转变的中心就是算力。

英特尔 CEO 帕特·基辛格（Pat Gelsinger）在 2023 英特尔 ON 技术创新大会表示：「在这个人工智能技术与产业数字化转型飞速发展的时代，英特尔保持高度的责任心，助力开发者，让 AI 技术无处不在，让 AI 更易触达、更可见、透明并且值得信任。」

第五代至强为 AI 加快

第五代英特尔® 至强® 可扩张处置器的中心数量增加至 64 个，配备了高达 320MB 的 L3 缓存和 128MB 的 L2 缓存。不论单核功能还是中心数量，它相比以往的至强都有了明显提拔。

在最终功能指标上，与上代产品相比，在相同功耗下平均功能提拔 21%，内存带宽提拔高达 16%，三级缓存容量提拔到了原来的近 3 倍。

为AI加快而生：英特尔的至强，现在能跑200亿参数大模型了

更为重要的是，第五代至强® 可扩张处置器的每个内核均具备AI加快功能，完全有威力处置要求严苛的 AI 工作负载。与上代相比，其训练功能提拔多达 29%，推理威力提拔高达 42%。在重要的 AI 负载处置威力上，第五代英特尔® 至强® 可扩张处置器也交出了令人满意的答卷。首先要让 CPU 学会高效处置 AI 负载的方法：在第四代至强® 可扩张处置器上，英特尔面向深度进修任务带来了矩阵化的算力撑持。

英特尔® AMX 就是至强 CPU 上的专用矩阵计算单元，可被视为 CPU 上的 Tensor Core，从第四代至强® 可扩张处置器开始成为内置于 CPU 的 AI 加快引擎。第五代至强® 可扩张处置器利用英特尔® AMX 与英特尔® AVX-512 指令集，配合更快的内核，以及速度更快的内存，可以让生成式 AI 更快地在其上运行，无需独立的 AI 加快器就能执行更多工作负载。借助在自然语言处置 (NLP) 推理方面完成的功能飞跃，这款全新的至强® 可撑持响应更迅速的智能助手、聊天机器人、预测性文本、语言翻译等工作负载，可以在运行参数量 200 亿的大语言模型时，做到时延不超过 100 毫秒。

据了解，11.11 期间，京东云便通过基于第五代英特尔® 至强® 可扩张处置器的新一代服务器，成功应对了业务量激增。与上一代服务器相比，新一代京东云服务器完成了 23% 的整机功能提拔，AI 计算机视觉推理功能提拔了 38%，LLaMA2 推理功能也提高了 51%，轻松 hold 住用户访问峰值同比提高 170%、智能客服咨询量超 14 亿次的大促压力。

为AI加快而生：英特尔的至强，现在能跑200亿参数大模型了

除此之外，第五代英特尔® 至强® 可扩张处置器也在能效、运营效率、安全及质量等方面完成了全面提拔，提供了向前代产品的软件和引脚兼容性撑持，以及硬件级安全功能和可信服务。

国内云服务大厂阿里云也在发布会上披露了其实测体验数据，基于第五代英特尔® 至强® 可扩张处置器及英特尔® AMX、英特尔® TDX 加快引擎，阿里云打造了「生成式 AI 模型及数据保护」的创新实践，使第八代 ECS 实例在完成了全场景加快和全威力提拔的情况下，更加固了安全功能，且保持实例价格不变，普惠客户。

数据显示，其在数据全流程保护的基础上，推理功能提高 25%、QAT 加解密功能提拔 20%、数据库功能提拔 25%，以及音视频功能提拔 15%。

为AI加快而生：英特尔的至强，现在能跑200亿参数大模型了

英特尔表示，第五代至强® 可扩张处置器可为 AI、数据库、网络和科学计算工作负载带来更强大的功能和更低的 TCO，将目标工作负载的每瓦功能提拔高达 10 倍。

对先进AI模型完成原生加快

为让 CPU 可能高效处置 AI 任务，英特尔把 AI 加快的威力提拔到了「开箱即用」的程度。英特尔® AMX 除了可以加快深度进修的推理、训练以外，现在已经撑持了流行的深度进修框架。在深度进修开发者常用的 TensorFlow、PyTorch 上，英特尔® oneAPI 深度神经网络库 (oneDNN) 提供了指令集层面的撑持，使开发人员可能在不同硬件架构和供应商之间自由迁移代码，可以更轻松地利用芯片内置的 AI 加快威力。

在保证了 AI 加快直接可用之后，英特尔利用高功能开源深度进修框架 OpenVINO™ 工具套件，帮助开发者完成了一次开发、多平台部署。它可以转换和优化利用热门框架训练好的模型，在多种英特尔硬件的环境中快速完成，帮用户最大程度地利用已有资源。OpenVINO™ 工具套件最新的版本也加入了对大型语言模型 (LLM) 功能的改进，可以撑持生成式 AI 工作负载，包括聊天机器人、智能助手、代码生成模型等。

为AI加快而生：英特尔的至强，现在能跑200亿参数大模型了

OpenVINO™ 工具套件2。

通过这一系列技术，英特尔让开发者们可能在几分钟内调优深度进修模型，或完成对中小型深度进修模型的训练，在不增加硬件和系统复杂性的前提下获得媲美独立 AI 加快器的功能。比如在先进的预训练大语言模型上，英特尔的技术就可以帮助用户完成快速部署。用户可以从最热门的机器进修代码库 Hugging Face 中下载预训练模型 LLaMA2，然后利用英特尔®2 PyTorch、英特尔® Neural Compressor 等将模型转换为 BF16 或 INT8 精度版本以降低延迟，再利用 PyTorch 进行部署。

英特尔表示，为了可能紧跟 AI 领域的潮流，有数百名软件开发人员正在不断改进常用的模型加快威力，让用户可能在跟上最新软件版本的同时，获得对于先进AI模型的撑持。

第五代至强® 可扩张处置器的实力，目前已在部分大厂进行了验证。火山引擎与英特尔合作升级了第三代弹性计算实例。目前，火山引擎已通过独有的潮汐资源并池威力，构建百万核弹性资源池，可能以近似包月的成本提供按量利用体验，降低上云成本。基于第五代英特尔® 至强® 可扩张处置器，火山引擎第三代弹性计算实例整机算力再次提拔了 39%，利用功能最高提拔了 43%。

为AI加快而生：英特尔的至强，现在能跑200亿参数大模型了

这只是个开始。可以预见，很快会有更多科技公司的利用可能从第五代至强® 可扩张处置器的功能中获益。

下一代至强已经现身

未来，人们对于生成式 AI 的需求还将不断扩大，更多的智能化利用将会改变我们的生活。以计算威力为基础，万物感知、万物互联、万物智能的时代正在加快到来。面对这样的趋势，英特尔正在加紧打造再下一代的至强 CPU，它们面向 AI 的「专业化」程度还会更高。在最近披露的英特尔数据中心路线图上，下一代至强® 处置器将对不同工作负载、场景配备不同的中心，其中主打计算密集型与AI任务的型号会利用侧重功能输出的核「P-core」，面向高密度与横向扩张负载的型号则会利用有更高能效的核「E-core」，这两种不同的中心架构并存的设计，既满足部分用户对极致功能的追求，也能兼顾到可持续发展绿色节能的需求。

未来，英特尔还将如何完成晶体管和芯片功能的飞跃，在 AI 算力上还能有什么样的跃升？

让我们拭目以待。

1. 基于英特尔对截至 2021 年 12 月运行 AI 推理工作负载的全球数据中心服务器装机容量的市场建模。

2. 图片来源：https://www.intel.cn/content/www/cn/zh/developer/tools/openvino-toolkit/overview.html

{{userData.name}}已认证

为AI加快而生：英特尔的至强，现在能跑200亿参数大模型了

有史以来最高互作强度，华盛顿大学David Baker团队用AI工具产生拥有非凡联合强度的卵白质

摸底谷歌Gemini：CMU全面测评，Gemini Pro不敌GPT 3.5 Turbo

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！