如何认识大模型?如何应对大模型的影响?为了生长大模型,我们该问哪些成绩?
2023 年是大模型之年。
大模型代表了人工智能范围的重大进步,有史以来第一次人类真正看见了通用人工智能(AGI)的曙光。然而,关于大模型,我们了解得并不多。以 OpenAI 首席科学家 Ilya Sutskever 为代表的一些 AI 研究者坚信,足够精确地预测下一个词表明模型对文本内容有了足够深刻的理解。反对者则说,这只不过是统计学。
显然,我们正处于一场变革的起点。
关于大模型,我们知道些什么?该关注哪些成绩?在刚刚举办的 2023 华为云 AI 院长峰会上,张钹院士、大作院士,以及来自全国 24 所高校的校长、学院院长和熏陶齐聚,围绕大模型及其生长做了深度的研讨。
如何认识大模型
张钹院士认为大模型是AI生长里程碑式的成就,标志着 AI 从专用到通用的转变。相比由常识驱动的第一代 AI 和由数据驱动的第二代 AI,大模型突破了三个特定,也即特定的范围、特定的模型与特定的任务,实行了一定程度的通用性,而这也使得建立可解释和鲁棒的AI理论成为可能。
张钹院士在 2023 华为云 AI 院长峰会上通过视频致辞
通过文本语义向量表示、多头注意力机制的 Transformer 模型以及自监督学习这三个核心技能,大模型展现出了强大的生成才能、迁移才能和交互才能。其中,从过去只是把文本当成数据来处理,转变为对文本的内容及文本所包含的常识进行处理,是关键的一步。
但是,这种在外部提示下利用概率预测的自监督学习方法,与人类认知历程截然不同,因此大模型也存在三大本质性的缺陷:第一,输出质量不一致而且不可控,存在犯大错误的可能;第二,受提示词(输入词)影响很大,输出鲁棒性较差;第三,没有自知之明,缺乏自我纠错才能。所以,大模型出现幻觉,生成不符合道德伦理和政治标准的有害输出是一种正常状态,需要通过 AI 对齐来解决,这属于模型的治理成绩。
张钹院士指出,尽管大模型在对话上实行了行为主义追求的目标,但 AI 在决策、博弈等认知范围的通用性尚待进一步研究。使 AI 走向通用必须生长第三代人工智能,包括建立可解释和鲁棒的 AI 理论,生长安全可信、可控可靠和可扩展的 AI 技能,推动 AI 的创新使用和产业生长。为了实行这个任务,需要把常识、数据、算法和算力这四个要素充分利用起来,同时关注 AI 的治理成绩。
西安电子科技大学焦李成熏陶认为,大模型≠通用人工智能
欧洲科学院院士、西安电子科技大学计算机科学与技能学部主任焦李成熏陶对大模型关键技能做了进一步的阐述:大模型技能的特性,是基于大规模深度神经网络模型,通过大量的数据和计算资材来提取信息、获取常识、模拟人类大脑智慧;通过对大量数据的拟合、逼近、学习、优化和分析,逐渐提炼出人类智慧的精髓,从而实行与人类相似的思考和决策才能。
焦李成熏陶明确指出,大模型 ≠ 通用人工智能(AGI),其本质上仍然是一个统计模型。大语言模型(LLM)只是对人类语言最基本部分的一种刻画,而语言与思维、推理等高级认知功能的复杂联系还远未被当前模型所充分捕捉。真正的 AGI 还需要一个统一的理论框架,综合价值体系、认知架构、心智理论、自我意识等,从而实行感知、认知、学习、推理、决策和执行等才能。
哈尔滨工业大学计算机学院熏陶、哈尔滨工业大学社会计算与信息检索研究中心主任秦兵熏陶进一步强调,人工智能打破了「技能伦理价值中立论」的原则,智能时代的到来,技能本身的实时性、感知性、交互性等特点,使 AI 成为「活」的技能参与到人类的生产生活中。秦兵熏陶指出,当前大模型研究的焦点往往局限于技能性能比较,忽视了智能技能对价值中立论造成的冲击。价值中立原则曾是工业资本主义技能伦理的核心,基于工业时代的「事实-价值两分法」,彰显了对确定性的追求。然而,这种确定性的范式难以应对智能时代的复杂性和不断涌现的新现象,坚持价值中立原则已不足以指导当前的技能伦理。
总的来说,当前大模型在真正的智能、理解、自适应性、可解释性和伦理安全等方面仍然存在许多根本性的挑拨,需要在未来的研究中得到进一步的关注和解决。
大模型的影响及应对
在本次华为云 AI 院长峰会上,与会专家对大模型的科研影响、对产业进步以及对数字化转型的推动作用进行了多角度的剖析。
大模型算力基础设施及开源
大作院士在主题报告中介绍了鹏城实验室在超算平台建设和大模型训练方面的进展,以及在推动开源生态和算力网络建设方面的努力。目前,鹏城实验室正在训练 200B 参数的脑海大模型,这是实验室的重点工作。大作院士表示,在训练历程中,实验室进行了大量的数据清洗和整理,遭遇了宕机恢复时间、数据摆布、模型收敛稳定性等挑拨,为了提高模型的推理速度,实验室进行了各种技能优化。同时,考虑到 200B 模型的规模,他们也在进行模型的轻量化工作,以便在资材有限的环境中运行。
中国工程院院士、鹏城实验室主任大作认为,开源开放是新一代人工智能生长的基本范式。
大作院士认为,开源开放是新一代人工智能生长的基本范式。鹏城实验室已搭建开源协同的云脑生态,组织产学研通力协作,共建共享公益开源社区,并为产业提供多样化异构普惠算力,以自主可控的「算力平台+软件工具+大模型算法+产业使用」的大模型生态为牵引,生长我国新一代人工智能技能。
对科研的影响
南京大学人工智能研究院副院长黎铭表示,核心成绩在于如何分析和处理收集到的数据,传统上这需要科研人员根据各自学科和范围选择合适的模型和算法,大模型为数据处理提供了一个相对统一的基础,降低了科研人员使用 AI 的门槛,使他们能够更容易地使用 AI 工具解决成绩并获取有价值的结果。预计在不久的将来,AI 大模型将在众多范围,如材料设计、宇宙探索等范围,带来突破性的成果。
北京工业大学信息学部熏陶、北京人工智能研究院院长尹宝才看好大模型在辅助教学和人才培养方面的潜力,他认为大模型为高校科研提供了强大的工具和方法,如今北工大很多研究都直接在初始的大模型上做实验。但由于资材有限,他希望高校能更多地接触到企业级的大模型及相关使用。
香港科技大学(广州)协理副校长、人工智能学域主任熊辉认为应该勇敢拥抱大模型,他特别提到了利用大模型代替生物、化学、机械等各种实验中一些体力劳动的部分,尤其是从不同实验中寻找共性,更好地指导接下来的实验历程,从而提升科研效率。熊辉熏陶表示,大模型已经改变了我们的科研和教学范式,但当前我们对大模型才能的理解还不够充分,它们仍在快速进化中,学术界面临着如何利用这种不断进化的智能体来推进科研工作的挑拨。
不过,也有人对大模型在科学实验和常识生产方面的影响表示了担忧。中国石油大学(北京)人工智能学院创院院长肖立志坦言,他对大模型的生长有一种担心。最近有研究使用大模型再现诺贝尔化学奖级别的工作,这表明大模型正在逐渐渗透到科学实验这一常识生产范围。肖立志熏陶认为我们需要深入思考大模型独立于人类控制之外形成闭环系统的影响,大模型有可能在人类不知情的情况下产生新的常识,这也会为大模型商业化初期带来挑拨,如确权(常识产权成绩)、定价(商业价值评估)等成绩,以及这些成绩可能导致的商业无序状态。
对产业的影响
复旦大学熏陶、上海市数据科学重点实验室主任肖仰华认为,大模型重塑行业的历程,就是重塑专家认识的历程,这既是机遇,也是难点所在。传统上,行业智能化依赖于小模型、常识工程、符号引擎、常识图谱等技能,这些方法在处理复杂性和非线性关系时存在限制。大模型通过对世界进行建模,让机器能够理解复杂现象,相当于让机器拥有一种认知世界的才能。大模型能够理解和处理复杂的行业数据,并据此进行分析和决策,以前这种才能通常只有人类专家才具备。肖仰华熏陶指出,配备了大模型的智能代理(Agent)不仅有认知才能,还具备操作实际工具和进行行业智能化改造的才能。人类文明的历史就是不断认知世界和基于这种认知进行实践的历程。现在,大模型让机器执行这两个历程成为可能,从而为各个行业带来根本性的变革和新机遇。
肖立志熏陶结合他在油气行业的深厚经验,认为大模型技能将深刻影响企业的数字化转型。ChatGPT 出现前,AI 在油气行业中的使用被定位在两个方面:一是对已知机理模型进行重复工作的自动化,一是对未知机理模型进行探索性工作以扩充人类的认知边界。ChatGPT 出现后,经过一段时间的适应和学习,他看到了大模型在油气行业中使用的亮点,在数字化转型历程中,原先顶层设计的流程是解耦的,但现在逐渐变成了耦合的历程,这可能是更好的转型方案。
熊辉熏陶指出,在数字化转型中,数据优势比算力更具决定性。尽管算力也很重要,但随着技能进步,许多企业都能够拥有足够的算力,真正的难点在于如何获取并有效使用数据。目前通过公域数据能够达到的大模型才能已接近其潜在的极限,尤其是在美国。他对较小规模的行业大模型保持乐观,其机会在于对特定范围的私有数据的掌握和理解,以及数据加工的水平。企业如果能在医疗、教育或娱乐等范围形成独特的数据资产,借助开源大模型并结合私域数据,他们仍然可以在自己的垂类中保持竞争力。
当然,峰会上也讨论了一个无法回避的成绩——面对大模型对资材、人才的高密度需求,小团队该如何应对?
北京大学智能学院副院长林宙辰熏陶提出通过合作共享资材和数据,以及创新训练方法和奖励机制,来更高效地开发和利用大模型的必要性。现在许多公司都在开发自己的大模型,从几十亿到几千亿参数规模不等,但由于数据获取的限制,很多模型性能相似,同时为了训练这些大模型,需要大量的算力,这导致了资材的浪费和缺乏创新。
为了避免重复造轮子,林宙辰熏陶表示,时代呼吁联邦大模型。杨强熏陶提出,通过共享资材和数据,让数据留在本地,尽量减少通讯,从而让不同的组织和机构能够共同研发和使用大模型。林宙辰熏陶更进一步,提出成立联邦大模型有限公司的构想,通过股份和特别的奖励机制来鼓励公司共享数据和算力,其中股份可以基于资金贡献或者模型准确率的贡献来分配,个人也可以提供数据,或者参与到训练历程中,通过数据质量和微调效果拥有股份,使模型更加民主化。
无独有偶,深圳市人工智能与机器人研究院常务副院长、香港中文大学深圳机器人与智能制造研究院副院长丁宁熏陶也提出了类似的想法,即建立数据入股的方式构建具身基础大模型,吸引实体企业分享独有数据并共享使用收益。丁宁熏陶在《机器人技能产业化的几点思考》主题报告中指出,当以载体 / 装备 / 机器人(身体)作为数据接口,我国在全球 AI 竞争中就有了独特的优势,具身大模型技能路线使得利用高端机器人产业推动中低端制造业转型升级具备可行性,科技重工业化需要重资材、重资金、重人才、重数据,突破深水区难题。
盘古大模型难题发布,面向未来,加速落地
华为云 EI 服务产品部部长尤鹏在本次峰会上介绍了华为云盘古大模型整体解决方案,采用「5+N+X」的架构,即基于 5 个基础模型、N 个行业模型加 X 个行业场景去落地,提供平台、数据、模型、工具、解决方案等全栈才能。其中:
L0 层提供基础才能,包括自然语言、视觉、多模态、预测、科学计算
L1 层为行业/范围大模型,如盘古气象大模型、盘古矿山大模型、盘古政务大模型等
L2 层为场景模型,如金融 OCR、先导药物筛选、电力巡检、铁路 TFDS 检测等
华为云 EI 服务产品部部长尤鹏发表演讲
尤鹏强调盘古大模型在行业落地方面采用三层架构,是为了更好地确立边界,这种方式也能充分发挥华为在提供开放平台、计算资材、基础大模型与工具链方面的才能。
尤鹏还分享了华为云在大模型行业使用方面的最新进展,并提出在产品化和产业化历程中遇到的一些挑拨。他希望通过发布盘古大模型遇到的难题,邀请行业共同生长大模型并推进 LLM 技能的落地。尤鹏认为,解决这些挑拨性成绩不仅具有产品化和商业化价值,还具有创新性和领先性。
1、大规模并行训练:如何实行十万卡的大规模并行训练,包括网络通信优化、模型训练与基础设施深度结合,以及大规模集群故障的预测、感知、快速热迁移。
2、高效并行推理:核心成绩包括如何实行更高效的解码生成,以及如何与昇腾硬件架构实行亲和,最大限度提升硬件性能。
3、AI 算力资材利用:如何在AI大规模集群任务调度和分配历程中实行资材的高效利用,包括训练作业和推理作业的资材分配优化,平衡局部最优和全局最优的资材分配。
4、大模型的压缩:探讨高效的量化压缩方法,实行精度无损的压缩,包括硬件优化和建立模型无损压缩的评价体系。
5、行业数据安全可控:如何在预训练场景下实行有效的联邦学习,以及数据胶囊技能的使用。
6、幻觉消除和可解释性:如何提升大模型的可解释性,以及如何消除模型的幻觉。
7、推理和规划才能提升:如何提升大模型的推理才能、规划才能,以及解空间搜索优化。
8、结构化常识的融合与预测:如何有效结合已有的结构化数据和图神经网络、图结构数据来提升预训练效果和数据对齐,并用这些分析来预测制造业中的产品销售、生产流程等情况,从而优化工业操作和决策。
9、模型微调与迁移学习:如何解决模型微调历程中可能出现的遗忘成绩,提升模型迭代替换后的鲁棒性。
10、视觉范围大模型成功范式复刻:如何使 LVM 具备正迁移才能和涌现才能。
结语
正如华为云 CTO 张宇昕所说,大模型及相关使用是迄今为止最为复杂的软硬件系统工程,需要系统性的创新才能应对。大模型技能生长及使用落地的挑拨,也是一项跨学科、跨范围合作的机会。在本次峰会上,华为云体现了对大模型技能及挑拨的深刻理解,也展现出与高校和研究机构紧密合作的意愿。
华为云的策略不仅注重技能生长本身,而且强调了构建一个开放的平台,旨在促进学术和产业界之间的交流与协同。在这样的平台上,各方可以集中资材,共同定义和解决 AI 范围面临的「大成绩」,不断突破科技边界。
随着 2024 年的临近,我们有理由期待,凭借华为云盘古大模型开放平台及工具链的支持,大模型将在才能、资材效率和多样性上迈出新的步伐。这种跨学科的合作模式将加速关键技能的生长,使大模型技能更加成熟,走进更丰富、更深入的使用场景。