中国电子学会 2023 科学手艺奖授奖名单公布,这次,我们发现了一个熟悉的身影 —— 腾讯 Angel 呆板进修平台。
在大模型飞速发展的当下,科学手艺奖授予呆板进修平台类研究和利用项目,对于模型训练平台的价值和重要性给予了充分的肯定。
科学手艺奖授予呆板进修平台类研究和利用项目,在大模型飞速发展的当下,对于模型训练平台的价值和重要性给予了充分的肯定。
从深度进修的新一轮浪潮开始,各大公司都已经意识到呆板进修平台对于打造人工智能手艺的意义,谷歌、微软、英伟达都有自己的呆板进修平台,为快速训练人工智能模型提供便捷支援。
2023 年开始,大模型的兴起进一步提高了模型参数量,各大公司都推出参数规模达千亿、万亿大小的模型,这些模型普遍采用深度神经网络模型,存在模型分布式训练难和利用复杂带来的模型设计难两大核心痛点。
为什么是 Angel 呆板进修平台?
详解四大核心手艺突破
由多名院士等权威专家组成的鉴定委员会认为, 腾讯 Angel 呆板进修平台手艺复杂度高、研制难度大、创新性强,利用前景广阔,整体手艺达到国际先进水平,其中面向 all-to-all 通讯的高效缓存调度与管理手艺、自适应预采样与图结构搜索手艺达到国际领先水平。
腾讯 Angel 平台架构图
腾讯 Angel 呆板进修平台采用了分布式参数服务器架构,这种架构的特点是,保存模型参数和执行模型计算,这两种任务在分别的服务器上运行,增加更多服务器就可以支援更大、计算需求更高的模型。
面对海量数据和超大规模模型训练需求 ,腾讯 Angel 呆板进修平台在网络通讯与缓存、模型保存与调度、多模态模型与融合进修排序以及大规模图模型与结构搜索手艺等核心环节取得手艺突破。
为了提高训练效率,TB 级呆板进修模型通常采用分布式训练方法,需要大量的参数和梯度同步,以 1.8T 模型千卡训练为例,IO 通讯量达到 25TB, 耗时占比 53%,此外,加上不同算力集群间的异构网络环境,通讯网络延迟不一,这些都对模型训练过程中的通讯开销提出了较高的要求。腾讯 Angel 呆板进修平台基于腾讯云星脉网络的高效通讯与缓存调度管理手艺,可有效解决 TB 级模型训练通讯开销大的问题,实现网络通讯耗时减少 80%,分布式训练功能达业界支流方案的 2.5 倍。
现有的算力条件下,尽管模型达到 TB 级,而支流 GPU 的显存仍只有 80G,参数保存有瓶颈。针对 TB 级模型训练参数保存难的关键问题, 腾讯 Angel 呆板进修平台提出了显存主存统一视角保存管理机制,实现模型保存容量比业界增加 1 倍,训练功能是业界支流方案 2 倍。
大模型要向通用模型发展,离不开对多模态数据的处理支援,不同模态,例如文字、图像、视频等数据的对齐融合理解难度大。在多模态模型的训练上, 腾讯 Angel 呆板进修平台针对告白场景,提出多模态融合进修的全链路排序告白推荐手艺,助力告白召回率提高 40% 以上。
另外,针对面向推荐系统的图模型训练, 腾讯 Angel 呆板进修平台设计了图节点特征自适应图网络结构搜索手艺,可自动输出最优结构,解决了 TB 图模型利用中 “图数据挖掘难” 的问题,实现模型训练功能提高 28 倍,与业界比具有最优扩大性。
腾讯 Angel 呆板进修平台锻造之路
腾讯混元大模型扩大到万亿规模
作为腾讯人工智能手艺的基础平台,腾讯 Angel 平台诞生于 2015 年,支援 PS-Worker 分布式训练, 以及十亿参数 LDA 模型的训练。
2017 年,Angel 框架在 Github 开源,向开发者开放,同时,手艺上,Angel 解决了异构网络下的通讯问题,功能进一步提高。2019 年,在可扩大图模型多模态理解手艺取得突破,解决万亿节点可扩大图模型问题。2021 年,提出 GPU 显存统一视角保存手艺,解决大模型 参数保存与功能问题。
在腾讯通用人工智能大模型腾讯混元的打造中,腾讯 Angel 呆板进修平台也发挥了重要作用。
2023 年 9 月,腾讯混元大模型正式对外亮相,预训练语料超 2 万亿 tokens,具有强大的中文理解与创作能力、逻辑推理能力,以及可靠的任务执行能力。
面对建设腾讯混元大模型的需求,腾讯 Angel 呆板进修平台打造了自研的面向大模型训练和推理的呆板进修框架 Angel PTM 和 Angel HCF,支援单任务万卡级别超大规模训练和大规模推理服务部署。实现大模型训练效率提高至支流开源框架的 2.6 倍,千亿级大模型训练可节省 50% 算力成本,升级后支援单任务万卡级别超大规模训练。在推理上,腾讯 Angel 呆板进修平台推理速度提高了 1.3 倍,在腾讯混元大模型文生图的利用中,推理耗时从原本的 10 秒缩短至 3 至 4 秒。
此外,Angel 还提供了从模型研发到利用落地的一站式平台,支援用户通过 API 接口或精调等方式快速调用腾讯混元大模型能力,加速大模型利用构建,腾讯会议、腾讯新闻、腾讯视频等超过 400 个腾讯产品及场景均已接入腾讯混元内测。
腾讯混元通过采用混合专家模型 (MoE) 结构,已将模型扩大至万亿级参数规模,推动了功能提高和推理成本下降。作为通用模型,腾讯混元在中文表现上处于业界领先水平,尤其在文本生成、数理逻辑和多轮对话中功能表现卓越。目前,腾讯混元也在积极发展多模态模型,以进一步加强文生图和文生视频能力。
腾讯大量的利用场景,为腾讯 Angel 呆板进修平台的落地提供了实验地。除了腾讯混元大模型,腾讯 Angel 呆板进修平台也支援了腾讯告白以及腾讯会议等产品,并通过腾讯云服务多个行业和企业客户,助力各行各业的数字化和智能化发展。
以腾讯告白为例,采用腾讯 Angel 呆板进修平分布式训练优化、多模态理解图数据挖掘等创新手艺,告白业务场景中的多模态大模型训练速度提高 5 倍,模型规模提高 10 倍,实现告白召回率大幅提高。