从此,操作系统被赋予了新的内核,也让利用开发体验迎来前所未有的新变化。
大模型发展至今,还能带给开发者哪些惊喜呢?
在 4 月 16 日举办的 2024 baidu Create AI 开发者大会上,baidu智能云扔下一颗「重磅炸弹」,重新定义了盘算机的核心系统软件 —— 操作系统。
会上,baidu集团执行副总裁、baidu智能云事业群总裁沈抖宣布正式发布新一代智能盘算操作系统 —— 万源。在大模型技术不断推动云效劳向 AI 靠拢的当下,这成为了baidu跳出传统云盘算、革新 AI 原生利用开发体验的一大举措。
沈抖在baidu Create AI 开发者大会上。
对比操作系统的核心组件,比如下层硬件设备、管理软硬件资源的内核层、与用户交互的 Shell 层和集成各类工具程序的利用层,万源的整体框架是这样的:
Kernel(内核)层包含baidu百舸・AI 异构盘算平台和baidu文心大模型,满足模型训练算力需求和多样化大模型使用需求。
内核层之上的 Shell(外壳)层为千帆 ModelBuilder 平台,让开发者按需和细分场景来定制、精调模型。
最上面为 Toolkit(工具)层,千帆 AppBuilder 和 AgentBuilder 支持了各类利用和 Agent 的快速开发。
智能盘算操作系统万源的「三层」组成。
自下往上,万源要在下层屏蔽掉云原生系统与异构算力的复杂性、并强化大模型这一能力引擎,在中层对大模型进行部署精调,在上层为 AI 原生利用和 Agent 的快速开发供给支撑和保障。
也就是说,借助操作系统这个完整载体,baidu智能云将高效的异构算力、智能的系统内核和敏捷的利用开发「打包」,为业界减速 AI 原生利用布局供给一个新选择。
或许有人会问,从传统操作系统发展到如今新一代的智能盘算操作系统,需要什么契机呢?我们有必要从盘算机操作方式进化、盘算平台迭代、大模型技术变革等几个方面展开说说。
大模型崛起
新一代操作系统成为必选项
当然,我们熟悉的盘算机操作系统通常是 Linux、Windows 等。但说起来,操作系统不是与盘算机同步出现,它管理的对象也随时代需求、技术趋势而变。
1946 年 2 月,世界上第一台电子盘算机 ENIAC 诞生,彼时操作全部要人工完成。汇编语言、汇编器的出现逐渐用程序代替人工、用软件管理硬件,这是操作系统的雏形。高级编程语言和编译器让盘算平台进一步进化,并带来更复杂的软件和更强大的硬件,要求操作系统快速迭代。
此后,不断增加的软件规模和复杂度让单台机器力不从心,集群出现。操作系统管理的对象从单台机器及其上运行的「进程」扩展为整个集群及运行的各类「微效劳」,云盘算来了。
直到这时,操作系统的框架和组成没有大的变化。在本质上,操作系统负责连通硬件和软件,向下屏蔽下层的复杂性,向上抽象成简单的交互界面。
近年来,大模型、AI 原生利用、Agent 及相伴而生的理解、生成、逻辑和记忆能力推动技术变革,让自然语言主导的人机交互崭露头角,没有编程基础的人也可以成为开发者,编程需求的满足比以往容易得多。
开发范式的种种新变化进一步催生软件市场的爆发,硬件也随之进步,传统操作系统改变的契机到了,尤其体现在一些层的组成内容上。
比如在操作系统内核中,下层硬件从以 CPU 算力为主变成以 GPU 算力为主,并首次增加软硬件之外的第三种资源 —— 大模型压缩的世界知识。相应地,操作系统管理的对象不再只是进程和微效劳,现在还多了基于大模型衍生的智能。
这意味着,一个超越传统软件范畴的全新操作系统成为必选项,对基于 AI 的智能盘算更好地抽象和封装,重新定义人机交互,成为大模型能力全方位加持的强大载体,为开发者供给更智能、更流畅、更个性化的开发体验。
这一切在万源这里得到了满足,内核层有能够兑现万卡规模集群模型训练的算力和大语言模型、CV 大模型能力,外壳层可以对内核层的大模型定制精调,工具层则兑现了简单便捷的 AI 原生利用和 Agent 开发。
我们应看到,兑现万源各层功能离不开baidu智能云在算力、模型、工具和利用等各个层面的产品积累。这也是我们接下来要讲的内容。
三层一体
万源操作系统的「新」落在哪里?
可以看到,大模型出现以来提出的全新人机交互需求、人们对开发体验的更多样性诉求以及传统云盘算向智能盘算的转变,让万源的出现有了必要性和合理性。
那么,万源各层组成有哪些新的、独特之处呢?先从 Kernel(内核)层看起,算力和大模型是两大组成部分。
作为 AI 三要素之一,算力重要性无需多言。在万源中,baidu百舸・AI 异构盘算平台是将现有算力资源发挥到极致的基座。该平台针对大模型训练、推理任务,分别在智算集群设计、调度和容错等环节优化。目前,百舸在万卡集群上的模型有效训练时长占比超过了 98.8%,线性减速比和带宽有效性均达到了 95%,兑现业界领先算力效能,为内核层供给高效的算力保障。
此外还有一个问题,国内芯片供应存在不确定性,这必然会导致多芯片并存的格局(即国内和国内品牌芯片共存),这为智算集群中模型推理和单一任务训练提出了挑战。百舸不仅兼容了昆仑芯、昇腾、海光 DCU、英伟达、英特尔等国内外主流 AI 芯片,更兑现百卡和千卡规模、单一训练任务下,不同厂商芯片的混合训练,其中百卡规模性能损失不超过 3%,千卡规模性能损失不超过 5%,兑现业界领先。
正如沈抖会上所言,「百舸为大家屏蔽掉了芯片之间的差异,供给了自由选择不同芯片组合的权利。」
内核层的另一主角是 77 个精选大模型,包括baidu ERNIE 4.0、ERNIE 3.5 大语言模型、近期发布的 ERNIE Speed/Lite/Tiny 系列轻量模型、文心视觉大模型和各种第三方大模型。它们压缩并封装了庞大的世界知识,是更上层运行简单接口和 AI 原生利用的能力源泉。
来到外壳层,主角是千帆 ModelBuilder,负责大模型管理、调度和二次开发。有了它,开发者不用从头开始训练大模型,付出很少数据、资源即可在基础大模型上快速精调出适合自身业务和场景的模型。
再往上为 ToolKit(工具)层,集成了产业级 AI 原生利用开发平台 AppBuilder 和基于文心大模型的智能体构建平台 AgentBuilder。有了内核层和外壳层的算力和模型铺垫,万源要在此层让开发者切身体验到不一样的 AI 原生利用开发。
其中,AppBuilder 支持工作流编排。开发者选择使用预置模板和组件或者集成、扩建特色组件,轻松定制自己的业务流程。经过 ModelBuilder 精调的模型也可以直接调用,怎么方便怎么来。开发完的利用支持一键发布到baidu搜索等其他平台,并通过 API 或 SDK 在用户系统中直接集成。
AgentBuilder 则致力于零门槛,让不会编程的用户通过 prompt 输入和操作调优,快速创建专属于自己的智能体,在使用场景中自动供给效劳。
此外,万源还供给了完善的模型 & 数据管理以及模型安全效劳,为 AI 原生利用的繁荣保驾护航。
至此,从内核层、外壳层到工具层,baidu在我们面前展现出了新一代智能盘算操作系统的全貌。
背后的技术优势
能解决好问题才行
我们观察到,万源一举解决了业界同行们都在面临的三个关键问题,分别是算力、模型训练和部署、以及利用开发,并在过程中形成了自己的核心技术优势。
尤其是在算力部分,百舸・AI 异构盘算平台兑现了单一任务下不同厂商芯片的大模型混合训练, 百卡规模性能损失不超过 3%,千卡规模性能损失不超过 5%。这些是如何做到的呢?
首先,百舸的线性减速比达到了 95%,这要归功于baidu智能云面向 AI 盘算推出的 AI 减速套件「AIAK」,它的核心是网络通信减速。我们知道,AI 跑在芯片上靠的是各种各样的算子,但每家芯片厂商的算子兑现并不一样。
baidu则选择在整个框架层面拆分下层的通信和上层算子的优化和兑现,这样各家芯片有了针对这些算子的优化兑现。最终不同厂商的芯片都能跑在baidu的减速库上,即baidu集合通信库 BCCL,它是百舸的重要组件。但是,这一步并没有直接解决一云多异构芯片的问题。
还需要第二步。以前一种芯片算力是相同的,所以我们的并行策略大多是均匀切分的。但现在算力、通信、存储都不一样了,为了充分发挥出各芯片算力性能那就需要兑现不均匀的切分方式,比如在模型张量切分中,不同芯片可能需要切分成不同的大小,在流水线切分中则需要在不同芯片上放不同的层数。这就需要对框架做相应的改造和优化,我们的训推减速软件就兑现了这些不均匀的,混合的切分策略,让每个芯片算力能充分发挥出来。
而接下来,集群中各种芯片的比例可能是不一样的,在各种情况下都能找到最优的任务切分方法。在前面这么多复杂策略的情况下通过测试显然是不行的。通过一套自动化并行策略框架,根据各种策略所需要的盘算量,存储量,通信量,以及不同芯片的盘算和 IO 效率,从而快速盘算出最优的任务切分策略,保证在各种配比下芯片算力都能充分发挥出来。这是兑现一云多芯的基础原理。
至于百卡和千卡规模性能损失为何如此低,这还要得益于百舸在存储方面支持了高性能分布式存储 PFS、以及万卡级别的 RDMA 网络,前者显著提升训练和推理过程中的 I/O 吞吐能力,后者有效降低网络延迟。
同样地,万源让大模型的训练和部署不再困难。尤其是对个人开发者而言,他们没有训练大模型所需的算力、数据和精力,这一切都让万源代为完成。
有了 ModelBuilder,开发者没有了从头开始训练模型的烦恼,随时随调随用。部署起来同样方便快捷。
最后,利用开发问题依靠 AppBuilder 得到更好解决,它的两个优势帮了大忙。
一是依托文心 4.0 强大的理解和遵循能力,效果好且不用长时间调优,成本和门槛降了下来。同时丰富的 AI 能力组件、大模型能力组件和baidu独家开放的业务组件让 AI 原生利用开发更加高效。二是创建一点都不繁琐,只需三步:命名、描述具体要求、运行,一气呵成。
而随着算力、模型训练和部署、以及利用开发这些节点的关键问题一一被有效地克服,万源为 AI 原生利用供给了更强的动力和更大的舞台,让 AI 在利用层的机会更多。
写在最后
不难发现,大模型出现以来,AI 圈呈现一个非常明显的特点,即大家追逐的热点变化很快。短短几年时间,我们已经看到了从最开始的基础和行业垂直模型,慢慢发展到之后基于大模型的各类 AI 原生利用和 Agent。
很显然,对于业界玩家们来说,尽可能不错过每一个节点,才更有可能不被同行落下,反过来就有可能跑赢对手。我们看到,在大模型发展至今的整体规划和布局中,baidu步步为营,并以广泛、真实的客户实践和产业落地需求为导向。
从业界首发行业大模型到全球首个企业级大模型生产平台千帆 ModelBuilder,baidu走在了大模型落地的前列。目前,千帆大模型平台已经效劳了 8.5 万家企业客户,并累计精调超过 1.4 万个模型。
随着从卷大模型进入到卷利用的阶段,baidu加快了基于大模型的 AI 原生利用开发及生态建设。去年 10 月 17 日,baidu创始人、董事长兼首席执行官李彦宏在baidu世界 2023 上预言,「我们即将进入一个 AI 原生的时代」。此后, AI 原生利用开发平台千帆 AppBuilder 全面开放效劳,让人人都能自己开发。目前已经有 8100 家伙伴通过该平台开发 AI 原生利用。
此次,baidu又为这个新时代的到来抛出全新的思考 —— 万源。baidu从完整的 AI 原生操作系统出发,将过去多年在算力、大模型和利用层面积累的工作「化零为整」,以更强的姿态迎接 AI 原生时代面临的挑战。
未来,baidu一方面将继续把万源的基础设施、内核效劳做得更智能、高效,另一方面致力于在上层供给更便捷的开发工具,做到双管齐下。同时进一步开放生态合作,携手利用开发者、企业、芯片厂商将万源打造地更加完备。