如何认识大模型?如何应对大模型的影响?为了发展大模型,我们该问哪些问题?
2023 年是大模型之年。
大模型代表了人工智能领域的重大进步,有史以来第一次人类真正看见了通用人工智能(AGI)的曙光。然而,关于大模型,我们了解得并不多。以 OpenAI 首席科学家 Ilya Sutskever 为代表的一些 AI 研究者坚信,足够精确地预测下一个词表明模型对文本内容有了足够深刻的理解。反对者则说,这只不过是统计学。
显然,我们正处于一场变革的起点。
关于大模型,我们知道些什么?该关注哪些问题?在刚刚举办的 2023 华为云 AI 院长峰会上,张钹院士、高文院士,以及来自全国 24 所高校的校长、学院院长和教授齐聚,围绕大模型及其发展做了深度的研讨。
如何认识大模型
张钹院士认为大模型是AI发展里程碑式的成就,标志着 AI 从专用到通用的转变。相比由知识驱动的第一代 AI 和由数据驱动的第二代 AI,大模型突破了三个特定,也即特定的领域、特定的模型与特定的任务,实现了一定程度的通用性,而这也使得建立可解释和鲁棒的AI理论成为可能。
张钹院士在 2023 华为云 AI 院长峰会上通过视频致辞
通过文本语义向量表示、多头注意力机制的 Transformer 模型以及自监督学习这三个核心技术,大模型展现出了强大的生成能力、迁移能力和交互能力。其中,从过去只是把文本当成数据来处理,转变为对文本的内容及文本所包含的知识进行处理,是关键的一步。
但是,这种在外部提示下利用概率预测的自监督学习方法,与人类认知过程截然不同,因此大模型也存在三大本质性的缺陷:第一,输出质量不一致而且不可控,存在犯大错误的可能;第二,受提示词(输入词)影响很大,输出鲁棒性较差;第三,没有自知之明,缺乏自我纠错能力。所以,大模型出现幻觉,生成不符合道德伦理和政治标准的有害输出是一种正常状态,需要通过 AI 对齐来解决,这属于模型的治理问题。
张钹院士指出,尽管大模型在对话上实现了行为主义追求的目标,但 AI 在决策、博弈等认知领域的通用性尚待进一步研究。使 AI 走向通用必须发展第三代人工智能,包括建立可解释和鲁棒的 AI 理论,发展安全可信、可控可靠和可扩展的 AI 技术,推动 AI 的创新应用和产业发展。为了实现这个任务,需要把知识、数据、算法和算力这四个要素充分利用起来,同时关注 AI 的治理问题。
西安电子科技大学焦李成教授认为,大模型≠通用人工智能
欧洲科学院院士、西安电子科技大学计算机科学与技术学部主任焦李成教授对大模型关键技术做了进一步的阐述:大模型技术的特性,是基于大规模深度神经网络模型,通过大量的数据和计算资源来提取信息、获取知识、模拟人类大脑智慧;通过对大量数据的拟合、逼近、学习、优化和分析,逐渐提炼出人类智慧的精髓,从而实现与人类相似的思考和决策能力。
焦李成教授明确指出,大模型 ≠ 通用人工智能(AGI),其本质上仍然是一个统计模型。大语言模型(LLM)只是对人类语言最基本部分的一种刻画,而语言与思维、推理等高级认知功能的复杂联系还远未被当前模型所充分捕捉。真正的 AGI 还需要一个统一的理论框架,综合价值体系、认知架构、心智理论、自我意识等,从而实现感知、认知、学习、推理、决策和执行等能力。
哈尔滨工业大学计算机学院教授、哈尔滨工业大学社会计算与信息检索研究中心主任秦兵教授进一步强调,人工智能打破了「技术伦理价值中立论」的原则,智能时代的到来,技术本身的实时性、感知性、交互性等特点,使 AI 成为「活」的技术参与到人类的生产生活中。秦兵教授指出,当前大模型研究的焦点往往局限于技术性能比较,忽视了智能技术对价值中立论造成的冲击。价值中立原则曾是工业资本主义技术伦理的核心,基于工业时代的「事实-价值两分法」,彰显了对确定性的追求。然而,这种确定性的范式难以应对智能时代的复杂性和不断涌现的新现象,坚持价值中立原则已不足以指导当前的技术伦理。
总的来说,当前大模型在真正的智能、理解、自适应性、可解释性和伦理安全等方面仍然存在许多根本性的挑战,需要在未来的研究中得到进一步的关注和解决。
大模型的影响及应对
在本次华为云 AI 院长峰会上,与会专家对大模型的科研影响、对产业进步以及对数字化转型的推动作用进行了多角度的剖析。
大模型算力基础设施及开源
高文院士在主题报告中介绍了鹏城实验室在超算平台建设和大模型训练方面的进展,以及在推动开源生态和算力网络建设方面的努力。目前,鹏城实验室正在训练 200B 参数的脑海大模型,这是实验室的重点工作。高文院士表示,在训练过程中,实验室进行了大量的数据清洗和整理,遭遇了宕机恢复时间、数据摆布、模型收敛稳定性等挑战,为了提高模型的推理速度,实验室进行了各种技术优化。同时,考虑到 200B 模型的规模,他们也在进行模型的轻量化工作,以便在资源有限的环境中运行。
中国工程院院士、鹏城实验室主任高文认为,开源开放是新一代人工智能发展的基本范式。
高文院士认为,开源开放是新一代人工智能发展的基本范式。鹏城实验室已搭建开源协同的云脑生态,组织产学研通力协作,共建共享公益开源社区,并为产业提供多样化异构普惠算力,以自主可控的「算力平台+软件工具+大模型算法+产业应用」的大模型生态为牵引,发展我国新一代人工智能技术。
对科研的影响
南京大学人工智能研究院副院长黎铭表示,核心问题在于如何分析和处理收集到的数据,传统上这需要科研人员根据各自学科和领域选择合适的模型和算法,大模型为数据处理提供了一个相对统一的基础,降低了科研人员使用 AI 的门槛,使他们能够更容易地应用 AI 工具解决问题并获取有价值的结果。预计在不久的将来,AI 大模型将在众多领域,如材料设计、宇宙探索等领域,带来突破性的成果。
北京工业大学信息学部教授、北京人工智能研究院院长尹宝才看好大模型在辅助教学和人才培养方面的潜力,他认为大模型为高校科研提供了强大的工具和方法,如今北工大很多研究都直接在初始的大模型上做实验。但由于资源有限,他希望高校能更多地接触到企业级的大模型及相关应用。
香港科技大学(广州)协理副校长、人工智能学域主任熊辉认为应该勇敢拥抱大模型,他特别提到了利用大模型代替生物、化学、机械等各种实验中一些体力劳动的部分,尤其是从不同实验中寻找共性,更好地指导接下来的实验过程,从而提升科研效率。熊辉教授表示,大模型已经改变了我们的科研和教学范式,但当前我们对大模型能力的理解还不够充分,它们仍在快速进化中,学术界面临着如何利用这种不断进化的智能体来推进科研工作的挑战。
不过,也有人对大模型在科学实验和知识生产方面的影响表示了担忧。中国石油大学(北京)人工智能学院创院院长肖立志坦言,他对大模型的发展有一种担心。最近有研究使用大模型再现诺贝尔化学奖级别的工作,这表明大模型正在逐渐渗透到科学实验这一知识生产领域。肖立志教授认为我们需要深入思考大模型独立于人类控制之外形成闭环系统的影响,大模型有可能在人类不知情的情况下产生新的知识,这也会为大模型商业化初期带来挑战,如确权(知识产权问题)、定价(商业价值评估)等问题,以及这些问题可能导致的商业无序状态。
对产业的影响
复旦大学教授、上海市数据科学重点实验室主任肖仰华认为,大模型重塑行业的过程,就是重塑专家认识的过程,这既是机遇,也是难点所在。传统上,行业智能化依赖于小模型、知识工程、符号引擎、知识图谱等技术,这些方法在处理复杂性和非线性关系时存在限制。大模型通过对世界进行建模,让机器能够理解复杂现象,相当于让机器拥有一种认知世界的能力。大模型能够理解和处理复杂的行业数据,并据此进行分析和决策,以前这种能力通常只有人类专家才具备。肖仰华教授指出,配备了大模型的智能代理(Agent)不仅有认知能力,还具备操作实际工具和进行行业智能化改造的能力。人类文明的历史就是不断认知世界和基于这种认知进行实践的过程。现在,大模型让机器执行这两个过程成为可能,从而为各个行业带来根本性的变革和新机遇。
肖立志教授结合他在油气行业的深厚经验,认为大模型技术将深刻影响企业的数字化转型。ChatGPT 出现前,AI 在油气行业中的应用被定位在两个方面:一是对已知机理模型进行重复工作的自动化,一是对未知机理模型进行探索性工作以扩充人类的认知边界。ChatGPT 出现后,经过一段时间的适应和学习,他看到了大模型在油气行业中应用的亮点,在数字化转型过程中,原先顶层设计的流程是解耦的,但现在逐渐变成了耦合的过程,这可能是更好的转型方案。
熊辉教授指出,在数字化转型中,数据优势比算力更具决定性。尽管算力也很重要,但随着技术进步,许多企业都能够拥有足够的算力,真正的难点在于如何获取并有效使用数据。目前通过公域数据能够达到的大模型能力已接近其潜在的极限,尤其是在美国。他对较小规模的行业大模型保持乐观,其机会在于对特定领域的私有数据的掌握和理解,以及数据加工的水平。企业如果能在医疗、教育或娱乐等领域形成独特的数据资产,借助开源大模型并结合私域数据,他们仍然可以在自己的垂类中保持竞争力。
当然,峰会上也讨论了一个无法回避的问题——面对大模型对资源、人才的高密度需求,小团队该如何应对?
北京大学智能学院副院长林宙辰教授提出通过合作共享资源和数据,以及创新训练方法和奖励机制,来更高效地开发和利用大模型的必要性。现在许多公司都在开发自己的大模型,从几十亿到几千亿参数规模不等,但由于数据获取的限制,很多模型性能相似,同时为了训练这些大模型,需要大量的算力,这导致了资源的浪费和缺乏创新。
为了避免重复造轮子,林宙辰教授表示,时代呼吁联邦大模型。杨强教授提出,通过共享资源和数据,让数据留在本地,尽量减少通讯,从而让不同的组织和机构能够共同研发和使用大模型。林宙辰教授更进一步,提出成立联邦大模型有限公司的构想,通过股份和特别的奖励机制来鼓励公司共享数据和算力,其中股份可以基于资金贡献或者模型准确率的贡献来分配,个人也可以提供数据,或者参与到训练过程中,通过数据质量和微调效果拥有股份,使模型更加民主化。
无独有偶,深圳市人工智能与机器人研究院常务副院长、香港中文大学深圳机器人与智能制造研究院副院长丁宁教授也提出了类似的想法,即建立数据入股的方式构建具身基础大模型,吸引实体企业分享独有数据并共享应用收益。丁宁教授在《机器人技术产业化的几点思考》主题报告中指出,当以载体 / 装备 / 机器人(身体)作为数据接口,我国在全球 AI 竞争中就有了独特的优势,具身大模型技术路线使得利用高端机器人产业推动中低端制造业转型升级具备可行性,科技重工业化需要重资源、重资金、重人才、重数据,突破深水区难题。
盘古大模型难题发布,面向未来,加速落地
华为云 EI 服务产品部部长尤鹏在本次峰会上介绍了华为云盘古大模型整体解决方案,采用「5+N+X」的架构,即基于 5 个基础模型、N 个行业模型加 X 个行业场景去落地,提供平台、数据、模型、工具、解决方案等全栈能力。其中:
L0 层提供基础能力,包括自然语言、视觉、多模态、预测、科学计算
L1 层为行业/领域大模型,如盘古气象大模型、盘古矿山大模型、盘古政务大模型等
L2 层为场景模型,如金融 OCR、先导药物筛选、电力巡检、铁路 TFDS 检测等
华为云 EI 服务产品部部长尤鹏发表演讲
尤鹏强调盘古大模型在行业落地方面采用三层架构,是为了更好地确立边界,这种方式也能充分发挥华为在提供开放平台、计算资源、基础大模型与工具链方面的能力。
尤鹏还分享了华为云在大模型行业应用方面的最新进展,并提出在产品化和产业化过程中遇到的一些挑战。他希望通过发布盘古大模型遇到的难题,邀请行业共同发展大模型并推进 LLM 技术的落地。尤鹏认为,解决这些挑战性问题不仅具有产品化和商业化价值,还具有创新性和领先性。
1、大规模并行训练:如何实现十万卡的大规模并行训练,包括网络通信优化、模型训练与基础设施深度结合,以及大规模集群故障的预测、感知、快速热迁移。
2、高效并行推理:核心问题包括如何实现更高效的解码生成,以及如何与昇腾硬件架构实现亲和,最大限度提升硬件性能。
3、AI 算力资源利用:如何在AI大规模集群任务调度和分配过程中实现资源的高效利用,包括训练作业和推理作业的资源分配优化,平衡局部最优和全局最优的资源分配。
4、大模型的压缩:探讨高效的量化压缩方法,实现精度无损的压缩,包括硬件优化和建立模型无损压缩的评价体系。
5、行业数据安全可控:如何在预训练场景下实现有效的联邦学习,以及数据胶囊技术的应用。
6、幻觉消除和可解释性:如何提升大模型的可解释性,以及如何消除模型的幻觉。
7、推理和规划能力提升:如何提升大模型的推理能力、规划能力,以及解空间搜索优化。
8、结构化知识的融合与预测:如何有效结合已有的结构化数据和图神经网络、图结构数据来提升预训练效果和数据对齐,并用这些分析来预测制造业中的产品销售、生产流程等情况,从而优化工业操作和决策。
9、模型微调与迁移学习:如何解决模型微调过程中可能出现的遗忘问题,提升模型迭代替换后的鲁棒性。
10、视觉领域大模型成功范式复刻:如何使 LVM 具备正迁移能力和涌现能力。
结语
正如华为云 CTO 张宇昕所说,大模型及相关应用是迄今为止最为复杂的软硬件系统工程,需要系统性的创新才能应对。大模型技术发展及应用落地的挑战,也是一项跨学科、跨领域合作的机会。在本次峰会上,华为云体现了对大模型技术及挑战的深刻理解,也展现出与高校和研究机构紧密合作的意愿。
华为云的策略不仅注重技术发展本身,而且强调了构建一个开放的平台,旨在促进学术和产业界之间的交流与协同。在这样的平台上,各方可以集中资源,共同定义和解决 AI 领域面临的「大问题」,不断突破科技边界。
随着 2024 年的临近,我们有理由期待,凭借华为云盘古大模型开放平台及工具链的支持,大模型将在能力、资源效率和多样性上迈出新的步伐。这种跨学科的合作模式将加速关键技术的发展,使大模型技术更加成熟,走进更丰富、更深入的应用场景。