在算力紧缺的背景下,如何提拔大模型训练和推理的效力,并降低本钱,成为业界关注的焦点。
11 月 23 日,腾讯披露,腾讯混元大模型背后的自研呆板进修框架 Angel 再次晋级,大模型训练效力提拔至主流开源框架的 2.6 倍,千亿级大模型训练可节省 50% 算力本钱。晋级后的 Angel 反对单任务万卡级别超大规模训练,进一步提拔腾讯云 HCC 大模型专属算力集群的机能和效力。
同时,Angel 还提供了从模型研发到使用落地的一站式平台,反对用户通过 API 接口或精调等方式快速调用腾讯混元大模型才能,加快大模型使用构建,腾讯会议、腾讯新闻、腾讯视频等超过 300 个腾讯产品及场景均已接入腾讯混元内测。
目前,相关才能已通过腾讯云对外开放。基于晋级后的 Angel 呆板进修框架,腾讯云 TI 平台可提供更优的训练和推理加快才能,并反对客户用自己的数据一站式训练精调,基于腾讯混元大模型打造专属智能使用。
自研呆板进修框架晋级,大模型训练推理效力再提拔
随着大模型时代到来,模型参数呈指数级增长,达到万亿级别。大模型逐渐从反对单一模态和任务发展为反对多种模态下的多种任务。在这种趋势下,大模型训练所需算力巨大,远超单个芯片的处理速度,而多卡分布式训练通信损耗巨大。如何提高硬件资源利用率,成为影响国产大模型技术发展和实用性的重要前提。
面向大模型训练,腾讯自研了呆板进修训练框架 AngelPTM,针对预训练、模型精调和强化进修等全流程进行加快和优化。AngelPTM 采用最新的 FP8 混合精度训练技术,结合深度优化后的 4D 并行和 ZeROCache 机制优化存储,可兼容适配多款国产化硬件,能够以更少的资源和更快的速度训练更大的模型。
2023 年 4 月,腾讯云面向大模型而生的新一代 HCC 高机能计算集群正式发布,机能较前代提拔 3 倍。除了硬件的晋级,针对大模型训练场景,HCC 对网络协议、通信策略、AI 框架、模型编译等进行系统级优化,大幅节约训练调优和算力本钱。此前 AngelPTM 就已经通过 HCC 对外提供服务,本次 Angel 呆板进修框架晋级,也将进一步提拔 HCC 大模型专属算力集群的机能,助力企业加快大模型落地。
模型参数的增大不仅给训练带来了挑战,还导致了推理本钱的不断上升。为解决这一问题,腾讯自研的大模型推理框架 AngelHCF 通过扩展并行才能、采用多种 Attention 优化策略等方式对机能进行了提拔。同时,框架还适配了多种压缩算法,以提高吞吐才能,从而实现更快的推理机能和更低的本钱,反对大型模型推理服务。
相较于业界主流框架,AngelHCF 的推理速度提高了 1.3 倍。在腾讯混元大模型文生图的使用中,推理耗时从原本的 10 秒缩短至 3 至 4 秒。此外,AngelHCF 还反对多种灵活的大模型压缩和量化策略,反对自动压缩。
一站式使用构建,让大模型 “开箱即用”
作为实用级大模型,腾讯混元大模型从研发之初就面向使用场景而生,在实践中解决大模型落地难点。腾讯产品及使用种类多、流量大,让模型真正 “用起来” 挑战很大。基于 Angel,腾讯构建了大模型接入和使用开发的一站式平台,包含数据处理、精调、模型评估、一键部署以及提示词调优等服务,让大模型的 “开箱即用” 成为可能。
模型接入层面,腾讯混元大模型提供千亿、百亿、十亿多个尺寸的模型,充分适配各类使用场景的需求,只需要经过简单微调就能达到满足业务需求的效果,同时降低模型训练和推理服务的资源本钱,在问答、内容分类等常见使用场景中具有更高的性价比。
使用开发层面,腾讯内部已有超过 300 项业务和使用场景接入腾讯混元大模型内测,相比上个月数量翻了一倍,覆盖文本总结、摘要、创作、翻译、代码等多个领域。
2023 年 9 月,腾讯自研的实用级大模型腾讯混元正式亮相并通过腾讯云开放。腾讯混元拥有超千亿参数规模,预训练语料超 2 万亿 tokens,聚合了腾讯在预训练算法、呆板进修平台和底层算力资源多个层面的自研技术积累,并在使用中持续迭代,不断优化大模型才能。目前,已有来自零售、教育、金融、医疗、传媒、交通、政务等多个行业的客户,通过腾讯云接入腾讯混元大模型。