上海AI Lab主任、首席科学家周伯文亮相WAIC，人工智能45°均衡律主张首次曝光

终于，清华大学教授周伯文正式向外界揭晓了自己的新身份——上海人工智能实验室主任、首席科学家。7 月 4 日，2024 世界人工智能大会暨人工智能全球治理高级别会议（WAIC 2024）在上海开幕。上海人工智能实验室主任、首席科学家，清华大学惠妍讲席教授，衔远科技创始人周伯文在 WAIC 2024 全体会议上发表讲演。讲演中，周伯文阐述了他的全新技巧主张「人工智能45°均衡律（AI-45° Law）」，以及上海人工智能实验室实行该主张的技巧途径「可托 AGI 的因果之梯」。以下为讲演全文。尊敬的各位领导，各位嘉宾，大

终于，清华大学教授周伯文正式向外界揭晓了自己的新身份——上海人工智能实验室主任、首席科学家。

7 月 4 日，2024 世界人工智能大会暨人工智能全球治理高级别会议（WAIC 2024）在上海开幕。上海人工智能实验室主任、首席科学家，清华大学惠妍讲席教授，衔远科技创始人周伯文在 WAIC 2024 全体会议上发表讲演。

讲演中，周伯文阐述了他的全新技巧主张「人工智能45°均衡律（AI-45° Law）」，以及上海人工智能实验室实行该主张的技巧途径「可托 AGI 的因果之梯」。

上海AI Lab主任、首席科学家周伯文亮相WAIC，人工智能45°均衡律主张首次曝光

以下为讲演全文。

尊敬的各位领导，各位嘉宾，大家上午好，非常荣幸在 WAIC 大会上、在上海，与大家分享人工智能保险平安的前沿技巧话题，我想提出一个技巧主张：探索人工智能 45° 均衡律 ——Towards AI-45°Law。

当前，以大模型为代表的生成式人工智能快速成长，但随着才能的不断提拔，模型自身及其应用也带来了一系列潜伏危险的顾虑。

从公众对 AI 危险的关注程度来看，首先是数据泄露、滥用、隐私及版权相关的内容危险；其次是恶意使用带来伪造、虚假信息等相关的使用危险；当然也诱发了偏见歧视等伦理相关问题；此外还有人担心：人工智能是否会对就业结构等社会系统性问题带来挑战。在一系列关于人工智能的科幻电影中，甚至出现了 AI 失控、人类丧失自主权等设定。

这些由 AI 带来的危险已初露端倪，但更多的是潜伏危险，防范这些危险需要各界共同努力，需要科学社区做出更多贡献。

去年 5 月，国际上数百名 AI 科学家和公众人物共同签署了一份公开信《Statement of AI Risk》，表达了对 AI 危险的担忧，并呼吁，应该像对待流行病和核战争等其他大规模的危险一样，把防范人工智能带来的危险作为全球优先事项。

出现对这些危险担忧，根本原因是我们目前的 AI 成长是失衡的。

先让我们来看一下目前的 AI 成长趋势：

在 Transformer 为代表的基础模型架构下，加以（大数据 – 大参数量与大计算）的尺度定律（Scaling Law），目前 AI 本能呈指数级增长。

与此形成对比的是，在 AI 保险平安维度典型的技巧，如：红队测试、保险平安标识、保险平安护栏与评估测量等，呈现零散化、碎片化，且后置性的特性。

最近的一些对齐技巧兼顾了本能和保险平安性。比如：监督式微调 SFT、人类反馈的强化学习 RLHF 等技巧，RLAIF、SuperAlignment 等。这些方法帮助将人类的偏好传递给 AI，助推涌现出了 ChatGPT、GPT-4 等令人兴奋的 AI 系统，以及我们上海 AI 实验室的书生 Intern 大模型等等。虽然瞄准的是保险平安和本能同时提拔，但这些方法在实际使用中往往还是本能优先。

所以总体上，我们在 AI 模型保险平安才能方面的提拔，还远远落后于本能的提拔，这种失衡导致 AI 的成长是跛脚的，我们称之为 Crippled AI。

不均衡的背后是二者加入上的巨大差异。如果对比一下，从研究是否体系化，以及人才密集度、商业驱动力、算力的加入度等方面来看，保险平安方面的加入是远远落后于 AI 才能的。

李强总理刚才提出 “智能向善”。AI 要确保可控，统筹成长与保险平安。毫无疑问地，我们要避免这样的 Crippled AI 成长，我们应该追求的是：TrustWorthy AGI，可托的 AI，可托的通用人工智能。

上海AI Lab主任、首席科学家周伯文亮相WAIC，人工智能45°均衡律主张首次曝光

实行保险平安与本能共同增长的 “AI-45° 均衡律”

可托 AGI 需要能够兼顾保险平安与本能，我们需要找到 AI 保险平安优先，但又能保证 AI 本能长期成长的技巧体系。我们把这样一种技巧思想体系叫做 “AI-45° 均衡律” （AI-45° Law）。

AI-45° 均衡律是指从长期的角度来看，我们要大体上沿着 45 度保险平安与本能均衡成长，均衡是指短期可以有波动，但不能长期低于 45°（如同现在），也不能长期高于 45 度（这将阻碍成长与产业应用）。这个技巧思想体系要求强技巧驱动、全流程优化、多主体参与以及敏捷治理。

实行 AI-45° 均衡律也许有多种技巧途径。我们上海 AI 实验室最近在探索一条以因果为核心的途径，我们把它取名为：可托 AGI 的 “因果之梯”，致敬因果推理领域的先驱 —— 图灵奖得主 Judea Pearl。

可托 AGI 的 “因果之梯” 将可托 AGI 的成长分为三个递进阶段：泛对齐、可干涉干与、能反思。

“泛对齐” 主要包含当前最前沿的人类偏好对齐技巧。但需要注意的是，这些保险平安对齐技巧仅依赖统计相关性而忽视真正的因果关系，可能导致错误推理和潜伏危险。一个典型的例子是巴甫洛夫的狗：当狗仅仅基于铃声和食物的统计相关性形成条件反射时，它可能在任何听到铃声的场合都触发行为分泌唾液 —— 如果这些行为涉及到…… 时这显然是不保险平安的。

“可干涉干与” 主要包含通过对 AI 系统进行干涉干与，探究其因果机制的保险平安技巧，例如人在回路、机械可解释性，以及我们提出的对抗演练等，它以通过提高可解释性和泛化性来提拔保险平安性，同时也能提拔 AI 才能。

“能反思” 则要求 AI 系统不仅追求高效执行任务，还能审视自身行为的影响和潜伏危险，从而在追求本能的同时，确保保险平安和道德边界不被突破。这个阶段的技巧，包括基于价值的训练、因果可解释性、反事实推理等。

目前，AI 保险平安和本能技巧成长主要停留第一阶段，部分在尝试第二阶段，但要真正实行 AI 的保险平安与本能均衡，我们必须完善第二阶段并勇于攀登第三阶段。沿着可托 AGI 的 “因果之梯” 拾级而上，我们相信可以构建真正可托 AGI，实行人工智能的保险平安与卓越本能的完美均衡。

最终，像保险平安可控的核聚变技巧为全人类带来清洁、丰富的能源一样，我们希望通过深入理解 AI 的内在机理和因果过程，从而保险平安且有效地开发和使用这项革命性技巧。

也正如可控核聚变对全人类都是共同利益一样，我们坚信 AI 的保险平安也是全球性的公共福祉，陈吉宁书记刚刚在发布的《人工智能全球治理上海宣言》中提到 “要推动各国加强交流和对话”，我们愿与大家一起携手推进 AI-45° 均衡律的成长，共享 AI 保险平安技巧、加强全球 AI 保险平安人才交流与合作，均衡 AI 保险平安与才能的加入，共同构建开放、保险平安的通用人工智能创新生态和人才成长环境。

{{userData.name}}已认证

上海AI Lab主任、首席科学家周伯文亮相WAIC，人工智能45°均衡律主张首次曝光

AI助攻「菜鸟数学家」办理繁忙海狸题目，陶哲轩转发分享

容联云发布容犀大模型应用矩阵，助力产业数智化升级

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩