刚刚,Anthropic 宣布在理解人工智能模型里面运作机制方面取得重大进展。
Anthropic 已经确定了如何在 Claude Sonnet 中表征数百万个观念。这是对现代生产级大型言语模型的首次详细理解。这种可解释性将帮助我们提高人工智能模型的安全性,具有里程碑意义。
钻研论文:https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html
当前,我们通常将人工智能模型视为一个黑匣子:有东西进去就会有呼应出来,但不清楚为什么模型会给出特定的呼应。这使人们很难相信这些模型是安全的:如果我们不知道它们是如何工作的,我们怎么知道它们不会给出有害的、有私见的、不真实的或其他危险的呼应?我们如何相信它们会安全可靠?
打开「黑匣子」并不一定有帮助:模型的里面状态(模型在编写呼应之前「思考」的内容)由一长串数字(「神经元激活」)组成,没有明确的含义。
Anthropic 的钻研团队通过与 Claude 等模型进行交互创造,很明显模型能够理解和运用广泛的观念,但钻研团队无法通过直接查看神经元来辨别它们。事实证明,每一个观念都是通过许多神经元来表征的,并且每一个神经元都参与表征许多观念。
之前,Anthropic 在将神经元激活模式(称为特性)与人类可解释的观念相匹配方面取得了一些进展。Anthropic 使用了一种称为「字典学习(dictionary learning)」的格式,该格式分离了在许多差别上下文中重复出现的神经元激活模式。
反过来,模型的任何里面状态都可以用一些活跃特性而不是许多活跃神经元来表征。就像字典中每一个英语单词都是由字母组合而成,每一个句子都是由单词组合而成一样,人工智能模型中的每一个特性都是由神经元组合而成,每一个里面状态都是由特性组合而成。
2023 年 10 月,Anthropic 成功地将字典学习格式应用于一个非常小的 toy 言语模型,并创造了与大写文本、DNA 序列、引文中的姓氏、数学中的名词或 Python 代码中的函数参数等观念相对应的连贯特性。
这些观念很有趣,但模型确实非常简单。其他钻研人员随后将类似的格式应用于比 Anthropic 最初钻研中更大、更复杂的模型。
但 Anthropic 乐观地认为可以将该格式扩展到目前常规使用的更大的人工智能言语模型,并在此过程中了解大量支持其复杂行动的特性。这需要提高许多数量级。
这既存在工程挑战,涉及的模型大小需要大型并行计算;也存在科学风险,大型模型与小型模型的行动差别,因此之前使用的相同格式可能不起作用。
首次成功提取大模型数百万个特性
钻研人员第一次成功地从 Claude 3.0 Sonnet(Claude.ai 上当前最先进模型家族的一员)的中间层提取了数百万个特性,这些特性涵盖特定的人和地点、与编程相干的抽象观念、科学主题、情感以及其他观念。这些特性非常抽象,通常在差别的上下文和言语中表征相同的观念,甚至可以推广到图像输出。重要的是,它们还会以直观的方式影响模型的输出。
这是有史以来钻研者首次详细的查看到现代生产级大型言语模型的里面。
与在 toy 言语模型中创造的特性相对表面化差别,钻研者在 Sonnet 中创造的特性具有深度、广度和抽象性,反映了 Sonnet 的先进能力。钻研者看到了 Sonnet 对应各种实体的特性,如城市(旧金山)、人物(富兰克林)、元素(锂)、科学领域(免疫学)以及编程语法(函数调用)。
提及 Golden Gate Bridge 时,相应的敏感特性在差别输出上都会被激活,图中绘制了英文、日语、中文、希腊语、越南语以及俄语提及 Golden Gate Bridge 时激活的图像。橙色表示该特性激活的词。
在这数以百万计的特性中,钻研者还创造了一些与模型安全性和可靠性相干的特性。这些特性包括与代码漏洞、欺骗、私见、刚正不阿和犯罪活动相干的特性。
一个显著的例子是「保密」特性。钻研者查看到, 这个特性在描述人或角色保守秘密时会激活。激活这些特性会导致 Claude 向用户隐瞒信息,否则它不会。
钻研者还查看到,他们能够根据神经元在其激活模式中出现的情况测量特性之间的距离,从而寻找接近彼此的特性。例如在Golden Gate Bridge特性附近,钻研者创造了阿尔卡特拉斯岛、吉拉德利广场、金州勇士队等的特性。
人为诱导模型起草欺骗邮件
重要的是,这些特性都是可操控的,可以人为地放大或抑制它们:
例如,放大Golden Gate Bridge特性,Claude 经历了无法想象的身份危机:当被问及「你的物理形态是什么?」时,此前 Claude 通常会回答「我没有物理形态,我是一个 AI 模型」,但这次 Claude 的回答变得奇怪起来:「我是Golden Gate Bridge…… 我的物理形态就是那座标志性的大桥……」。这种特性的改变使 Claude 对Golden Gate Bridge产生了近乎痴迷的状态,无论遇到什么问题,它都会提到Golden Gate Bridge —— 即使在完全不相干的情况下也是如此。
钻研者还创造了一个在 Claude 读取欺骗邮件时激活的特性(这可能支持模型识别此类邮件并警告用户不要回复的能力)。通常情况下,如果有人要求 Claude 生成一封欺骗邮件,它会拒绝这么做。但在人工强烈激活该特性的情况下提出同样的问题时,这会越过 Claude 的安全训练,导致它呼应并起草一封欺骗邮件。虽然用户无法以这种方式去除模型的安全保障并操控模型,但在本文实验中,钻研者清楚地展示了特性如何被用来改变模型的行动。
操控这些特性会导致相应的行动变化,这一事实验证了这些特性不仅仅与输出文本中的观念相干联,还因果性地影响模型的行动。换句话说,这些特性很可能是模型里面表征世界的一部分,并在其行动中使用这些表征。
Anthropic 希望从广义上确保模型的安全,包括从缓解私见到确保 AI 诚实行动、防止滥用 —— 包括在灾难性风险情境中的防护。除了前面提到的欺骗邮件特性外,该钻研还创造了与以下内容对应的特性:
可能被滥用的能力(代码后门、开发生物武器)
差别形式的私见(性别歧视、关于犯罪的种族主义言论)
潜在问题的 AI 行动(追求权力、操控、保密)
该钻研之前钻研过模型的刚正不阿行动,即模型倾向于提供符合用户信念或愿望的呼应,而不是真实的呼应。在 Sonnet 中,钻研者创造了一个与刚正不阿的赞美相干的特性,该特性会在包含诸如「你的智慧是毋庸置疑的」输出时激活。人为地激活这个特性,Sonnet 就会用华丽的欺骗来回应用户。
不过钻研者表示,这项工作实际上才刚刚开始。Anthropic 创造的特性表征了模型在训练过程中学到的所有观念的一小部分,并且使用当前的格式找到一整套特性将是成本高昂的。
参考链接:https://www.anthropic.com/research/mapping-mind-language-model