本周,英特尔数据中心产物手艺媒体分享会在北京举行。多位英特尔手艺专家为我们从多个角度,以实践利用的角度解析了最新一代服务器 CPU 产物的手艺特性及独特价值。
当前,AI 手艺落地的速度正在加快,有全球调研结果显示,58% 的企业期待在近未来导入生成式 AI 等手艺。预计到 2026 年,生成式 AI 的市场规模将达到 3000 亿美元,这其中包括硬件、软件、解决方案等。约会有 80% 以上的公司,会在 2026 年之前会导入某种程度的生成式 AI 以提高企业生产力。
据预测,到 2026 年,有 50% 以上的边缘利用也会采用 AI 手艺。到 2028 年,还将有 80% 以上的 PC 会转换成 AIPC,通过 AI 提高桌面端生产力。
在这样的背景下,英特尔去年底发布了第五代英特尔至强可扩张处理器。与上代产物相比,其在焦点数,以及多种机能指标上都有很大提高。第五代至强最多搭载 64 焦点,英特尔通过 AI 相关的新指令集,如 AMX、AVX 等进一步提高了机能,这些机能提高对一些生成式 AI 利用带来了很大帮助。
在 AI 相关的参数上,新一代服务器芯片也有了提高。第五代至强在业界数据中心级的处理器当中,拥有较高内存带宽,达到 5600MT/s,也增加了三倍三级缓存。
随第五代至强的发布,英特尔在深度学习社区已贡献了超过 300 个模型,也支持了 50 个以上对新一代 CPU 优化过模型。此外,英特尔也加大了对主流大模型、AI 框架优化兼容的投入,让运用 PyTorch 和 TensorFlow 开发的资产可以无缝拓展至英特尔至强可扩张处理器上。
鉴于硬件和软件的优化,第五代至强和上代相比在 AI 训练、实时推理、批量推理上,鉴于不同的算法,都可以获得不同程度的机能提高,最高能达到 40%。
活动中,英特尔展示了通用服务器热门生成式 AI 大模型,如 GPT-J(6B)和 Llama2(13B)在一些通用场景中推理上的机能。
在谈天机器人、内容生成、代码生成或搜索等利用上,第五代至强从机能上可以满意利用需求,second token 生成的响应时间小于 100ms。
在满意 AI 利用的同时,运用 CPU 进行大模型推理也可以在性价比上满意需求,不论是在 BF16 或 int8 精度上,英特尔展示的用例都可以满意 100ms 的需求。
第五代至强可扩张处理器的机能同时得到了合作伙伴的验证。阿里云、百度云分别论证了鉴于第五代至强能够运行 Llama2 70B 参数的推理。实践证明运用第五代至强,在 Llama2 70B 参数的模型下,通过一个四节点的服务器,可以达到 87.5 毫秒的推理延迟机能。
有合作伙伴认为,在全盘考虑部署和运维成本等因素后,企业导入鉴于至强的生成式 AI 服务,如谈天机器人、知识库问答等基础的大模型运用,比鉴于服务器的云服务的初期导入成本低一半左右。
英特尔表示,在模型调优、推理和利用上,运用鉴于 CPU 的通用服务器是具有性价比的选择。尤其是当企业面临多种任务负载,如谈天机器人、内容生成、摘要分析等时。目前,百度云鉴于第五代至强 CPU 的服务器已在提供大模型服务。在京东鉴于第五代至强的利用中可以看到,和前一代的处理器相比,在 Llama2 13B 的模型上,获得了 50% 的机能提高。
「整体来看,在一些通用型利用,如会议纪要提取、大纲总结、内容分析,以及一些生成任务,尤其是最近较热门的文生图、谈天机器人、代码生成等生产力提高的利用中,运用通用算力,尤其是鉴于第五代至强的服务器是具有优势的,」英特尔市场营销集团副总裁、资深手艺专家庄秉翰表示。「因此,我们非常有信心能够满意生成式 AI 模型的更多工作负载需求。」
在活动中,英特尔分享了未来至强可扩张处理器的发展路线图。
鉴于现在的第五代至强,英特尔计划发布下一代的机能核,也就是高主频、高机能的 CPU 核架构,为主流和复杂的数据中心的利用进行机能优化。面向目前流行的虚拟算力机制,用户可以获得非常好的机能提高。
同时对于新兴的,尤其是鉴于云原生的设计,英特尔提供能效核设计,每瓦机能可以做到相对极致,因为该版本焦点较为精简,可以提高 CPU 和服务器的焦点密度,所以它会支持面向云的高密度超高能效运算进行优化。
值得关注的是,英特尔近两年保持着密集的新产物发布节奏。该公司表示,在强大的执行力推动下,未来产物的研发和推出进度均在按期进行。