AMD:已将 DeepSeek-V3 模型集成到 Instinct MI300X GPU 上,利用 SGLang 彻底改变 AI 开发

AMD 还透露,SGLang 和 DeepSeek 团队通力合作,使 DeepSeek V3 FP8 从首发当天就能在英伟达和 AMD GPU 上运行。
感谢AMD 宣布,已将新的 DeepSeek-V3 模型集成到 Instinct MI300X GPU 上,该模型经过 SGLang 强化,针对 Al 推理进行了优化。

AI在线查询发现,AMD 早在去年 12 月 26 日就在 Github 上公布了支持 DeepSeek-V3 模型的 SGLang v0.4.1。

AMD:已将 DeepSeek-V3 模型集成到 Instinct MI300X GPU 上,利用 SGLang 彻底改变 AI 开发

AMD 表示, DeepSeek V3 是目前最强的开源 LLM,甚至超过了 GPT-4o。AMD 还透露,SGLang 和 DeepSeek 团队通力合作,使 DeepSeek V3 FP8 从首发当天就能在英伟达和 AMD GPU 上运行。此外,AMD 还感谢了美团搜索与推荐算法平台团队以及 DataCrunch 提供 GPU 资源。

据介绍,DeepSeek-V3 模型是一个强大的混合专家 (MoE) 语言模型,总参数量为 671B,每个 token 激活 37B 参数。

为了实现高效推理和高经济效益的训练,DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构。

此外,DeepSeek-V3 开创了一种无辅助损失的负载平衡策略,并设置了多标记预测训练目标以实现更强劲的性能。

DeepSeek-V3 使开发人员能够使用高级模型,利用内存能力同时处理文本和视觉数据,让开发人员可以广泛获取先进功能,并为其提供更多功能。

AMD Instinct GPU 加速器和 DeepSeek-V3

AMD 表示,ROCm 中广泛的 FP8 支持可显著改善运行 AI 模型的过程,尤其是在推理方面。它有助于解决诸如内存瓶颈和与更多读写格式相关的高延迟问题等关键问题,使平台能够在相同的硬件限制下处理更大的模型或批处理,从而带来更高效的训练和推理过程。

此外,FP8 降低精度计算可以减少数据传输和计算中的延迟。AMD ROCm 扩展了其生态系统中对 FP8 的支持,从而能够在各个方面(从框架到库)改善性能和效率。

相关资讯

有bug!PyTorch在AMD CPU的计算机上卡死了

AMD,No?PyTorch在AMD CPU的机器上出现死锁了。

调查:AMD AI 芯片 Instinct MI300X 吸引大量用户弃用英伟达

根据最近的一项调查,大量人工智能专业人士正计划从英伟达转向采用 AMD Instinct MI300X GPU。TensorWave 联合创始人 Jeff Tatarchuk 透露,他们进行了一项独立调查,涵盖 82 名工程师和人工智能专业人士。其中,约有 50% 的受访者表示他们对 AMD Instinct MI300X GPU 充满信心,因为相比于英伟达的 H100 系列产品,MI300X 不仅拥有更出色的性价比,而且供应充足,避免了遇到货源紧张的问题。Jeff 还提到,TensorWave 公司也将采用 MI

联想宣布 4 月 18 日在创新科技大会发布 AI PC 新品

在今日下午的 AMD AI PC 创新峰会上,联想集团执行副总裁兼中国区总裁刘军宣布,将于 4 月 18 日在联想创新科技大会上发布 AI PC 新品。刘军表示,联想坚持全栈 AI 战略,推动 AI 内嵌的智能终端、AI 导向的基础设施与 AI 原生的方案服务发展。联想表示,PC 行业即将迎来继“家用电脑”、“互联网电脑”后的第三次代际升级,即基于大模型技术的 AI PC 时代。联想认为,AI PC 将成为未来每个人的个人 AI 助理,存在五大特征:内嵌基于个人大模型、自然交互的个人智能体内嵌个人知识库具有 CPU