自去年底以来,ChatGPT 的技术突破引爆了 AI 军备竞赛,国内外科技公司和机构接连发布了上百个大语言模型。
而在其中,有个玩家「没有出手」,却一直备受期待。7 月 7 日,华为开发者大会 HDC Cloud 在东莞召开,在刚刚进行的 Keynote 上,华为终于公布了盘古大模型的最新消息。
「自 2017 年 transformer 架构提出以后,在一些领域,新的架构已经开始解决通用性问题,AI 进入了大模型时代。国内上半年陆续发布了 80 余个 AI 大模型,」华为常务董事 、华为云 CEO 张平安表示。「我们注意到了它们都有很好的对话本领。但我要说,盘古大模型不写诗,只做事。盘古大模型的目的是利用 AI 技术给各行业带来价值。」
在这次大会上,盘古大模型再次明确定位「为行业而生」,华为也首次对外公布了盘古基础大模型的全栈创新和行业大模型的技术细节。
揭秘盘古 3.0
盘古大模型的目的是要重塑千行百业。
具体来说,3.0 版的盘古大模型是一个面向行业的大模型系列,具有「5+N+X」三层架构:从 AI 本领的基础层,到行业的第二层,再到使用层面向场景的各个接口,华为围绕深耕行业面向开发者持续打造了新的竞争力。
其中:
L0 层包括 NLP、视觉、多模态、展望、科学计算五个基础模型,供应满足行业场景中的多种技能需求。盘古 3.0 供应了 100 亿、380 亿、710 亿和 1000 亿参数等基础大模型,以匹配不同场景、时延、响应速度的行业多样化需求。同时供应全新本领集,包括 NLP 大模型的知识问答、文案生成、代码生成,以及多模态大模型的图像生成、图像了解等本领,这些技能都可以供客户和伙伴企业直接调用。无论多大参数规模的大模型,盘古供应一致的本领集。
L1 层是多个行业大模型,华为云既可以供应使用行业公开数据训练的行业通用大模型,包括政务,金融,制造,矿山,局面等大模型;也可以鉴于行业客户的自有数据,在盘古大模型的 L0 和 L1 层上,为客户训练自有的专用大模型。
L2 层供应了更多细化场景的模型,更专注于政务热线、网点帮忙、先导药物筛选、传送带异物检测、台风路径展望等具体行业使用或特定业务场景,为客户供应「开箱即用」的模型服务。
针对千亿级参数大模型的训练,华为提出了多种高效训练新技术。
最后这个训练优化器,还入围了 7 月即将举行的 AI 顶会 ACL 的杰出论文奖。
盘古大模型采用完全分层解耦设计,可以倏地适配、倏地满足行业需求。客户既可以为自己的大模型加载独立的数据集,也可以单独升级基础模型,也可以单独升级本领集。
在 L0 和 L1 大模型的基础上,华为云还为客户供应了大模型行业开发套件,通过对自有数据二次训练,客户就可以拥有自己的专属行业大模型。同时,根据客户不同的数据安全与合规诉求,盘古大模型还供应了公用云、大模型云专区、混合云多样化的部署形态。
在盘古大模型体系下,AI 是如何实现专业化落地的?华为表示,在 AI 管道上存在数十个不同的模型,匹配了多行业的不同诉求。鉴于此,文案生成,对话语音、代码生成,以及图像生成、编辑等本领都可以供人们倏地调用上线。
华为表示,盘古大模型易落地的优势,在于供应了解耦设计。
「我们所有的大模型都共用了本领集,训练数据也进行了解耦。不管你希望使用 310 亿大模型,还是 1000 亿参数的大模型,都可以倏地进行转换,」张平安表示。
在底层算力上,华为供应了鉴于昇腾的硬件,建立了昇腾芯片使能本领 CANN,在这其上则是 MindSpore AI 框架和 ModelArts 机器学习平台。鉴于这样的全栈本领,华为提升了大模型建立、训练和部署的效率。
由于众所周知的原因,华为使用自有算力设备,在昇腾云上,我们发现大模型的训练效率达到了业界主流 GPU 的 1.1 倍。
硬件本领
这样的算力也可以为外界所用。此次华为云还宣布在乌兰察布和贵安上线昇腾 AI 云服务,可供应每秒 200 亿亿次浮点运算本领。现在缺乏 GPU 的科技公司有了新的选择。据介绍,美团利用昇腾 AI 云服务,AI 算子的工作效率提升了 30%。
昇腾云服务除支持华为自家的 AI 框架 MindSpore 外,还支持 PyTorch、TensorFlow 等主流 AI 框架,框架中的 90% 算子都可以通过华为的迁移工具从 GPU 平滑迁移到昇腾。
为行业而生
昨天在 WAIC 大会上,华为轮值董事长胡厚崑表示,ChatGPT 的出现把 AI 推向了新的风口,人工智能将帮助改写身边的一切。华为现在的核心目的是在下个阶段,全力推进人工智能走深向实。
华为盘古系列基础大模型于 2021 发布,包括 NLP、CV 和科学计算大模型,后续发布了矿山、药物分子、局面、海浪等行业大模型。
其中,盘古 NLP 大模型首次使用了 Encoder-Decoder 架构,兼顾 NLP 大模型的了解本领和生成本领,保证了模型在不同系统中的嵌入灵活性。而在下游使用中,盘古大模型仅需少量样本和可学习参数即可完成千亿规模大模型的倏地微调和下游适配。
而盘古 CV 大模型则是首次实现模型按需抽取的业界最大 CV 大模型,兼顾判别与生成本领,能够鉴于模型大小和运行速度需求,自适应抽取不同规模模型,AI 使用开发倏地落地。
据华为介绍,盘古大模型已经深耕超过十个行业,服务 400 余个业务场景。
就在昨天,华为云盘古大模型研发团队独立研究并撰写的一篇论文《Pangu-Weather: A 3D High-Resolution Model for Fast and Accurate Global Weather Forecast》登上了《自然》杂志。
作为工程领域的 AI 技术,登陆 Nature 正刊是一件罕见的事。该论文详细介绍了鉴于深度学习开发的精准精确全球 AI 局面预报系统 —— 华为云盘古局面大模型,这是首个精度超过传统数值预报方法的 AI 展望模型,突破了 AI 预报天气精度不及传统数值预报的世界性难题,对比传统方法展望速度提升 10000 倍,可秒级完成对全球局面的展望
《自然》审稿人对该成果给予高度评价:「盘古局面大模型让人们重新审视局面预报模型的未来,模型的开放将推动该领域的发展。」因为盘古局面系统的准确表现,欧洲局面局已经将该系统列入了模型对比作为参考。
这是盘古大模型使用的「一小步」。在下午的发布会上,华为介绍了一系列大模型在其他领域的落地进展。
在政务领域,华为云携手深圳市福田区政务服务数据管理局上线了政务智慧帮忙小福,其能够精准了解民众咨询意图,改变了传统的一网通办模式。
在鉴于盘古大模型的政务帮忙上,AI 可以实现对话了解,画面内容的分割和了解,并正确对于政务规则进行解释并提出建议。现在摄像头从看得明白升级到了看得懂,对开放世界有了进一步的发现了解,建立了感知、认知到决策处置的全流程本领。
在金融行业,人们面临巨量的数据,对于数据使用和分析的门槛很高。工行在全国有 4 万余个网店和 20 万余员工,利用盘古大模型,工行与华为建立了金融大模型(网店帮忙),新的模型把生成本领和检索本领进行了结合,可以为柜台流程形成规范的操作指导,降低了单词业务办理的操作次数,每次办结时间缩短了 5 分钟以上。未来,人们还希望在此基础上建立信贷系统、金融风控等组件。
在制造业,生产供应和交付存在大量决策优化问题,传统的求解是一个复杂过程,需要业务专家、编程专家甚至数学专家进行合作。在华为供应链中,盘古制造大模型提前学习了业务流程、制造规则,现在发给制造员的订单信息和邮件可以被大模型准确了解,转化为调度指令交由「盘古天筹求解器」,成为了未来三天的全局统筹最有规划。
当其他大模型还在聊天写段子的时候,盘古大模型正在下矿井,做局面展望,开发新药。华为表示,这就是盘古大模型的理念。
最后当然还有 AI 自动编程本领,华为盘古的代码生成工具名叫 CodeArts。
「盘古训练了 760 亿行精选代码,8500 万开源代码仓,1300 余万篇技术文档。它内建了盘古大模型智能开发帮忙 CodeArts Snap,目的是一句话生成代码,一个案件生成测试用例,依次点击自动注释。我们的目的是让它称为每个开发者的 AI 帮忙,」张平安表示。
它有三大核心本领:智能生成代码,智能问答和智能协同。
在现场,华为展示了用 CodeArts Snap 开发一个未完成的使用。首先,我们用对话方式提出需求,把需求复制到代码注释位置,就可以命令 Snap 直接完成目的任务的开发。
我们可以让 Snap 解释代码的意义,生成测试用例,随后直接一句话就可以让它自动提交代码,进行流水线使用部署,AI 还自动生成了 Commit 提交信息。过去这些功能可能需要在不同软件上进行切换,现在在一个对话框里,这些任务就可以倏地完成了。
在活动中,华为还介绍了数字内容生产工具 MetaStudio 的本领,拍摄一段 5 分钟的视频上传到华为云,一个小时后就可以建立出一个属于自己的数字人。
总结一下,盘古希望让每个开发者和企业都有自己的 AI 版专家帮忙。
看起来,这样的目的已经一定程度上实现了,未来我们将看到更多鉴于盘古大模型的使用。