大模型推理引擎

清华团队开源 “赤兔 Chitu” 推理引擎,助力国产 AI 生态发展

近日,清华大学高性能计算研究所的翟季冬教授团队与清华系科创企业清程极智联合发布了一个激动人心的消息 —— 开源大模型推理引擎 “赤兔 Chitu”。 这一创新性技术的推出,标志着国内在 AI 领域的又一重要突破,尤其是在推理引擎的开发上。 “赤兔 Chitu” 引擎的核心亮点在于其能够在非英伟达 Hopper 架构的 GPU 和各类国产芯片上,原生运行 FP8精度模型。

FP8模型不再挑卡!DeepSeek推理成本减半速度翻番,清华团队开源「赤兔」推理引擎

随着 DeepSeek 引燃市场对于大模型私有化部署的热情,模型部署的效率与成本成为企业 AI 落地的关键瓶颈。 今天,清华系科创企业清程极智与清华大学翟季冬教授团队联合宣布开源大模型推理引擎「赤兔」(Chitu),率先实现了非 H 卡设备(英伟达 Hopper 架构之前的 GPU 卡及各类国产卡)运行原生 FP8 模型的突破。 在 A800 集群上的实测数据显示,用赤兔引擎部署 DeepSeek-671B 满血版推理服务,相比于 vLLM 部署方案,不仅使用的 GPU 数量减少了 50%,而且输出速度还提升了 3.15 倍。
  • 1