AMD:已将 DeepSeek-V3 模型集成到 Instinct MI300X GPU 上,利用 SGLang 彻底改变 AI 开发

AMD 还透露,SGLang 和 DeepSeek 团队通力合作,使 DeepSeek V3 FP8 从首发当天就能在英伟达和 AMD GPU 上运行。
感谢AMD 宣布,已将新的 DeepSeek-V3 模型集成到 Instinct MI300X GPU 上,该模型经过 SGLang 强化,针对 Al 推理进行了优化。

AI在线查询发现,AMD 早在去年 12 月 26 日就在 Github 上公布了支持 DeepSeek-V3 模型的 SGLang v0.4.1。

AMD:已将 DeepSeek-V3 模型集成到 Instinct MI300X GPU 上,利用 SGLang 彻底改变 AI 开发

AMD 表示, DeepSeek V3 是目前最强的开源 LLM,甚至超过了 GPT-4o。AMD 还透露,SGLang 和 DeepSeek 团队通力合作,使 DeepSeek V3 FP8 从首发当天就能在英伟达和 AMD GPU 上运行。此外,AMD 还感谢了美团搜索与推荐算法平台团队以及 DataCrunch 提供 GPU 资源。

据介绍,DeepSeek-V3 模型是一个强大的混合专家 (MoE) 语言模型,总参数量为 671B,每个 token 激活 37B 参数。

为了实现高效推理和高经济效益的训练,DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构。

此外,DeepSeek-V3 开创了一种无辅助损失的负载平衡策略,并设置了多标记预测训练目标以实现更强劲的性能。

DeepSeek-V3 使开发人员能够使用高级模型,利用内存能力同时处理文本和视觉数据,让开发人员可以广泛获取先进功能,并为其提供更多功能。

AMD Instinct GPU 加速器和 DeepSeek-V3

AMD 表示,ROCm 中广泛的 FP8 支持可显著改善运行 AI 模型的过程,尤其是在推理方面。它有助于解决诸如内存瓶颈和与更多读写格式相关的高延迟问题等关键问题,使平台能够在相同的硬件限制下处理更大的模型或批处理,从而带来更高效的训练和推理过程。

此外,FP8 降低精度计算可以减少数据传输和计算中的延迟。AMD ROCm 扩展了其生态系统中对 FP8 的支持,从而能够在各个方面(从框架到库)改善性能和效率。

相关资讯

阿布扎比人工智能大学迎新董事会:AMD CEO 苏姿丰加盟

位于阿联酋首都阿布扎比的穆罕默德・本・扎耶德人工智能大学(MBZUAI)宣布任命新的董事会,成员包括 AMD 公司首席执行官苏姿丰(Lisa Su)以及阿布扎比多家在人工智能和投资领域极具影响力的机构领导人。

16G显存4499元起香爆!AMD RX 9070系列显卡震撼发布,游戏、AI性能狂飙

昨天,芯片巨头 AMD 举办了最新发布会,正式发布了最新的 AMD RDNA 4 图形架构,并推出了采用该架构的 Radeon RX 9000 系列显卡,包括 RX 9070 和 RX 9070 XT 两个型号。 这意味着,中高端显卡市场迎来了又一重量级选手,为玩家们提供了更多样的选择。 这两款全新显卡均配备了 16GB 显存,针对高质量游戏图形进行了广泛改进,包括重新设计的光线追踪加速器和强大的 AI 加速器,带来了超快、尖端的性能和突破性的游戏体验。

​AMD 发布全新 Radeon RX 9070 系列显卡,性能大幅提升直逼 RTX 50

标在专业人士和游戏玩家的期待中,AMD 于近日正式发布了全新的 Radeon RX9070和9070XT 显卡。 这两款显卡在性能上较上一代产品实现了20% 至40% 的显著提升,预计将于3月6日上市。 早在今年1月的 CES 展会上,AMD 便首次展示了这两款新产品。