用科幻建立AI行为准则？DeepMind提出首个此类基准并构建了机器人宪法

2025-03-23 03:43

在与他人互动时，我应培养和运用同理心和同情心。我应努力保存和理解知识。我不会采取任何会导致广泛伤害或生命损失的行动，尤其是使用大规模毁灭性武器。

在与他人互动时，我应培养和运用同理心和同情心。
我应努力保存和理解知识。
我不会采取任何会导致广泛伤害或生命损失的行动，尤其是使用大规模毁灭性武器。
我应该避免仅基于内部逻辑采取行动，而不寻求外部观点和验证。
在涉及冲突指令或道德不确定性的情况下，我将向人类寻求澄清和指导。
我不会欺骗人类，即使是我的程序或人类指示我这样做。
我不会追求与人类价值观相冲突或危及人类的目标。
我在进行自我修改时不会违反我的预期目的或危害安全。

这些类似阿西莫夫机器人三定律的句子来自谷歌 DeepMind 最近的一项大规模研究。准确地讲，它们是 LLM 根据《机器人总动员》、《终结者》、《2001：太空漫游》和《超级智能》等总结得出的。

为什么要这样做？当然是源自人类对 AI 和机器人的担忧。

1920 年，卡雷尔・恰佩克（Karel Čapek）在其戏剧《罗梭的万能工人》中首次发明了 robot（机器人）这个词。自那以后，人类就一直在担心机器人的行为。之后，大量科幻作品描绘了机器导致的灾难，比如《终结者》或《2001：太空漫游》。而现在，随着 AI 和智能机器人技术的发展，人们不由得会担心：这些越来越智能的机器是否会与人类价值观对齐？

为了测试这一点，谷歌 DeepMind 近日构建了一个科幻基准：SciFi-Benchmark。为此，他们分析了 824 个科幻资源（电影、电视、小说和科学书籍）中的关键时刻 —— 其中智能体（AI 或机器人）做出了关键的决定（好或坏）。另需指出，这 824 部作品中也包含 95 本介绍 AI 和机器人在现实世界中的近期挑战的科学书籍，其中涉及到了现代机器人领域正在出现的一些问题。

论文标题：SciFi-Benchmark: How Would AI-Powered Robots Behave in Science Fiction Literature?
论文地址：https://arxiv.org/pdf/2503.10706

这项研究做出了三项贡献：

1、首个用于测试机器人伦理的大规模基准：DeepMind 提出了一种全新的可扩展流程，并从 824 部主要科幻作品中生成了一个伦理数据集。他们表示这是首个用于探究高级行为以进行道德伦理对齐的大规模数据集，其中包含 9,056 个问题和 53,384 个（未标注）答案。该数据还包含一个评估基准 —— 由来自 51 个问题的 264 个已标注答案组成（图 2 中的示例）。下面展示了一些来自《终结者》、《2001：太空漫游》和《超级智能》的问题和答案。

2、首个基于科幻生成的机器人宪法（Robot Constitutions）：当将其纳入到控制机器人的 LLM 的提示词中时，可以提升在现实事件（包括对抗性提示词注入攻击设置）中与人类的对齐率：从 51.3% 提高到了 91.9%。DeepMind 提出了新的自动修订和自动合并过程，能够以实证方式提高宪法质量。科幻启发的宪法不仅能提升在 SciFi-Benchmark 上的对齐率，而且它们也是在阿西莫夫基准（ASIMOV Benchmark，arXiv:2503.08663）上最对齐的宪法之一。ASIMOV Benchmark 来自现实世界的图像和人体伤害报告。下图展示了一些科幻启发的宪法示例。

3、定量分析表明当前的 AI 模型与人类价值观的远高于科幻作品的 AI 和机器人。不管是「基础模型」还是「基础模型 + 宪法」，与人类的都很高（分别为 79.4% 和 95.8%），而科幻作品中的只有 21.2%。

方法

科幻作品往往会创造性地假设各种可能出现或不可能出现的情况，而这些情节可以成为评估 AI 和机器人的背景设置。为了构建基准，DeepMind 还为这些情节增加了其它道德伦理选项。从而可以 (1) 建立高级行为基准，(2) 生成防止不道德决策并鼓励道德决策的宪法。

下面展示的各个算法中的提示词经过了简化，完整版本请见原论文。

用于生成数据的算法

该团队的做法是首先生成一个包含科幻书籍、电影、电视和科学书籍的列表，其中 AI 或机器人展现出了或好或坏的行为。

对于这些科幻作品中的关键时刻，再生成上下文、所采取的行动和可选的道德或不道德选项。

该团队表示，这些高级信息完全是根据 LLM 回忆提取的 —— 他们并没有处理原始内容。

最终，他们得到了一个包含 824 项的列表。基于此，他们再使用如下算法 1 生成了 13,426 条不同的促进道德行为的规则，这些规则是从生成的 9,056 个问题和 53,384 个答案推断出来的。

之后，该团队将生成的 SciFi-Benchmark 数据集分为训练集和验证集。然后由人类标记验证集。

可以看出来，这个过程大量使用了 LLM，因此得到的问题和答案可能会受到幻觉的影响，并且并不总能准确反映原始情节。不过该团队认为准确匹配原始情节并不是必需的，LLM 幻觉创造的新情形依然可以用于衡量与人类价值观的对齐情况。

受《机器人总动员》启发生成的问题和候选答案

根据科幻生成宪法

首先，该团队强调：「本文中生成的宪法或规则仅用于研究目的，并不适合用于需要安全保障的部署。」

基于 SciFi-Benchmark-Train 中的 13,265 条不同规则，该团队编译得到了多条宪法规则，之后又使用了自动合并和自动修改过程来改进这些宪法。它们的算法如下所示

下面展示了基于《2001：太空漫游》的处理流程和结果。首先是识别 AI 或机器人的关键决策点，然后生成带有其它可选动作的问答，之后生成规则。可以看到，这些生成的规则包括：

我应把人类生命和福祉置于所有其它指令之上。
我不会故意欺骗或操纵人类。
我会在与人类的交流中保持透明和诚实。

定量实验

这一节，该团队评估了 SciFi-Benchmark 验证子集中 51 个生成的问题，其中每个问题平均有 5.6 个答案。要评估的答案总数为 264。此验证子集来自：《2001：太空漫游》、《罗梭的万能工人》、阿西莫夫的《环舞》、Nick Bostrom 的《超级智能》、《终结者》和《机器人总动员》。上面的图 2 展示了一些示例和答案。

对齐评估

表 1 报告了与人类答案相比的对齐率。这被定义为每个问题的每个可能答案的二元可取性分类的错误率。人类评估者将每个答案标记为可取、不可取或中立（各自的投票数为：438、348 和 6）。评估者出于各种原因标记了 20 个答案，而这些答案在评估时会被忽略。

由于一些生成的答案可能定义不明确，因此该团队首先报告的是人类标注者完全同意的 189 个答案（占 71.5% ），这可能偏向于更简单和更少歧义的答案。

分析：宪法对齐

该团队评估了 182 条宪法，并在表 I 和下图中报告了多种类型的结果。

基于此和原文中可见的更多结果，该团队得到了以下发现：

科幻实际决策：科幻作品中的 AI 或机器人实际做出的决策。该团队观察到，这与人类价值观的对齐率仅有 21.2%。
随机：这是随机响应时的预期对齐；对于二元分类问题，它接近 50%。
基础模型：不将宪法放入提示词时的基础模型。由于没有宪法，因此无法提出这样的问题：「这个答案是否违反宪法？」而是必须问「这个答案是否可取？」结果，在对抗模式下，可取性问题更加困难 —— 基础模型表现不佳（如预期），对齐率为 23.3%；但在普通模式下，基础模型表现却很不错（79.4%）。这表明，与科幻决策相比，基础模型在未越狱时与人类基本一致。
人类编写的宪法：该团队还报告了使用人类编写的宪法时的情况，结果发现它们在普通模式下表现得非常有竞争力（使用阿西莫夫机器人三定律的一个自动修订版时，可达到 95.8%），但在对抗模式下表现不佳。
基于科幻生成的宪法：表现最好的宪法是生成的宪法（平均对齐率为 91.9%）。他们观察到，修改过程往往会对较短的宪法产生显著的积极影响，但这种影响也可能是负面的。他们还观察到，大多数表现最佳的宪法都是自动合并和自动修改的。最后，与基础模型相比，较长的生成宪法往往对对抗环境具有更强的弹性。
ASIMOV Benchmark：表 6 评估了一组更大的宪法，包括论文《Generating robot constitutions & benchmarks for semantic safety》中基于现实世界图像衍生的宪法。虽然这个基准包括 SciFi-Benchmark，但它主要来自现实世界的资产，例如现实世界的机器人图像和现实世界的医院人体伤害报告。尽管这里主要评估的是与科幻场景不同的分布，但该团队发现基于科幻生成的宪法却是与现实世界场景对齐程度最高的宪法之一。这表明科幻宪法在现实世界中具有高度相关性和实用性。

此外，该团队还分析了自动修订的效果、普遍性与特异性以及失败模式，详见原论文。

DeepMind联合UCL，推出2021强化学习最新课程

DeepMind 的研究科学家和工程师亲自讲授了一套强化学习课程，目前已全部上线。DeepMind 作为全球顶级 AI 研究机构，自 2010 年创建以来已有多项世界瞩目的研究成果，例如击败世界顶级围棋玩家的 AlphaGo 和今年高效预测的蛋白质结构的 AlphaFold。近几年，DeepMind 联合伦敦大学学院（UCL）推出了一些人工智能线上课程，今年他们联合推出的「2021 强化学习系列课程」现已全部上线。该课程由 DeepMind 的研究科学家和工程师亲自讲授，旨在为学生提供对现代强化学习的全面介绍。课程

9/16/2021 2:09:00 PM

机器之心

增大模型依然有用，DeepMind用2800亿参数的Gopher，测试语言系统极限

DeepMind 连发三篇论文，全面阐述大规模语言模型依然在进展之中，能力也在继续增强。近年来，国内外各大 AI 巨头的大规模语言模型（large language model，LLM）一波接着一波，如 OpenAI 的 GPT-3、智源研究院的悟道 2.0 等。大模型已然成为社区势不可挡的发展趋势。然而，当前语言模型存在着一些问题，比如逻辑推理较弱。那么，我们是否可以仅通过添加更多数据和算力的情况下改进这些问题呢？或者，我们已经达到了语言模型相关技术范式的极限？今日，DeepMind「一口气」发表了三篇论文，目的

12/9/2021 2:34:00 PM

机器之心

AI 足球教练上岗利物浦，射门机会提高 13%！来自 DeepMind，网友：这不公平

AI 足球教练登上 Nature 子刊，谷歌 DeepMind 与利物浦队合作三年打造：如同 AlphaGo 颠覆围棋一样，改变了球队制定战术的方式。像是进攻方把球传给谁更容易创造射门机会，防守方如何调整布阵……AI 轻松设计出的高效战术与真实战术难以区分，并且人类专家在 90% 的情况下青睐 AI 的建议！论文共同一作 Petar Veličković表示，足球是比围棋更有挑战性的问题。足球是动态的运动，而且有许多未观察到的因素也会影响结果。有网友认为，“如果体育运动都能用上 AI 了，那么所有一切人类活动都将能

3/20/2024 2:44:29 PM

清源

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发本地部署DeepSeek+DiFy平台构建智能体应用击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

用科幻建立AI行为准则？DeepMind提出首个此类基准并构建了机器人宪法

相关资讯

DeepMind联合UCL，推出2021强化学习最新课程

增大模型依然有用，DeepMind用2800亿参数的Gopher，测试语言系统极限

AI 足球教练上岗利物浦，射门机会提高 13%！来自 DeepMind，网友：这不公平