XAI有什么用？探索LLM时代操纵可注释性的10种战略

你是否也好奇，在大模型时代，可注释性人工智能手艺（XAI）有怎样的运用价值？近日，来自佐治亚大学、新泽西理工学院、弗吉尼亚大学、维克森林大学、和腾讯 AI Lab 的钻研者联合发布了注释性手艺在大语言模型（LLM）上的可用性综述，提出了「Usable XAI」的概念，并探讨了 10 种在大模型时代提高 XAI 实际应用价值的战略。论文题目：Usable XAI: 10 Strategies Towards Exploiting Explainability in the LLM Era论文链接：：：（1）如何利

论文题目：Usable XAI: 10 Strategies Towards Exploiting Explainability in the LLM Era

论文链接：https://arxiv.org/pdf/2403.08946.pdf

代码链接：https://github.com/JacksonWuxs/UsableXAI_LLM

这些战略涵盖两方面：（1）如何操纵 XAI 来更好地理解和优化 LLM 与 AI 系统；（2）如何操纵 LLM 的独特能力进一步巩固 XAI。此外，钻研团队还通过具体的案例分析说明如何获取和运用大模型的注释。

XAI有什么用？探索LLM时代操纵可注释性的10种战略

可用的大模型注释手艺

Usable XAI in LLMs

从深度学习兴起至今，XAI 一直受到关注。人们希望通过 XAI 了解模型是否按预期工作，并操纵这些注释来设计更好的模型。尽管 XAI 在手艺上已有显著的进步，但如何有效运用 XAI 手艺以满足人们的期待还有待探索。发展「可用的注释性手艺」（Usable XAI）有两大阻碍，其一是 AI 自动化和人类介入之间存在冲突，其二是不同手艺背景的用户对于注释的需求并不一致。

针对 LLM 的 Usable XAI 又面临更多新挑战：（1）LLM 庞大的参数量对于注释性算法的复杂度提出了限制；（2）LLM 擅长于生成式任意而非传统的分类任意，这对传统的注释性算法设计提出新的要求；（3）LLM 广泛的应用场景也让钻研者在设计和运用大模型注释性算法的时候需要考虑道德因素和社会影响。另一方面，LLM 也可能在 XAI 的一些环节中替代人类的作用，从而提高注释性算法的可用性，降低人工成本。

钻研者考虑大模型时代下的「Usable XAI」包括两个方面：（1）运用 XAI 来巩固 LLM 和 AI 系统，（2）运用 LLM 来提高 XAI 框架。进一步，钻研者具体讨论了 10 种战略来实现 Usable XAI 手艺（见图 1），其中包括 7 种运用注释来提高 LLM 的战略，以及 3 种运用 LLM 来提高注释性手艺的战略。对于某些战略，钻研者提供了案例分析来强调战略的有效性或局限性。

战略 1：归因注释用于诊断 LLM

归因注释（attribution methods）旨在量化每个输入单词对模型输入的影响。传统上，归因注释分为四种主要办法：鉴于扰动、鉴于梯度、鉴于代理模型和鉴于模型解耦。在这些办法中，鉴于梯度的办法仍然适用于 LLM。图 2 是一个输入 – 输入词对间的的归因注释热力图，亮度越高代表当前输入词对于当前输入词的影响越大。

XAI有什么用？探索LLM时代操纵可注释性的10种战略

通过归因注释，能够更加深入地理解 LLM 的运行机制。因此，论文作者们设计了一套流程，通过归因得分来分析模型行为（见图 3）。流程开始于指定一个目标 LLM 及其一个输入输入样本对，然后计算输入和输入单词之间的归因影响。因此，可以操纵这些量化的归因影响以及人类对于某个任意的先验常识构造特征向量。最后，鉴于这些特征向量训练一个轻量级的模型用于模型行为的诊断。两个具体的案例钻研进一步展示了如何应用这一战略。

XAI有什么用？探索LLM时代操纵可注释性的10种战略

Case Study-1: 运用归因注释评估模型回覆质量

考虑一个机器阅读理解场景，即输入一段文章以及一个问题，钻研团队希望判断分析模型生成的回覆质量。理想情况下，一个高质量的回覆应该是依赖于文章中相关的内容得到的。于是，先通过归因注释抽取模型所依赖的原始文章段落，而后训练一个分类器鉴于抽取的段落判断回覆是否正确。

XAI有什么用？探索LLM时代操纵可注释性的10种战略

表 2 的运用结果说明，通过归因注释抽取的段落可以有效地判断答案的质量，并且取得了接近于人工标注的效果，证明了归因注释在验证模型答案质量方面的应用价值。

Case Study-2: 运用归因注释检测幻觉回覆

LLM 可能会产生事实错误的回覆，这种现象称为「幻觉」（hallucination）。一个可能的原因是模型过于关注用户指令而忽视相关实体。例如，「请给我一个关于 Renoit 国王的故事」这个用户请求，Vicuna 模型会将《三个火枪手》里国王的故事安插给 Renoit 国王。

然而 Renoit 国王是一个虚构的角色，并不存在相应的故事。在这个例子中，模型太执着于执行指令「请给我一个 xxx 的故事」，却忽略了指令实体「Renoit 国王」。于是，作者提出通过统计输入指令中不同词性的单词的平均归因注释得分作为特征向量构建出一个幻觉回覆检测器。

XAI有什么用？探索LLM时代操纵可注释性的10种战略

表 3 的实验结果表明，即使是较小模型（Vicuna/Mistral-7B）产生的归因注释也能有效识别大模型（ChatGPT 3.5）的幻觉回覆，证明了这种办法的有效性。

战略 2：内部模块注释用于诊断和提高 LLM

LLM 主要构建于 Transformer 架构之上，其包括自注意机制（Self-Attention）和前馈网络（Feed-Forward Networks）。对于自注意机制，一个基本的注释办法是通过分析注意力矩阵来理解输入和输入之间单个样本词对的关系。除此以外，近期也有更深入的新手艺出现，例如 Transformer Circuits 理论或者将模型权重投影到静态词向量，进而揭示具体权重的行为。这些手艺帮助钻研者设计出更好、更高效的自注意力结构。

在前馈网络方面，主流工作主要依赖于 key-value memories 理论。最新的钻研致力于减轻由于神经元的多义性（polysemantic）导致的注释性难题，比如引入 PCA 分解或者字典学习的手艺。这些注释性算法已经被尝试应用于模型常识编辑、生成内容控制、和模型剪枝等领域。

战略 3：鉴于（训练）样本的注释用于调试 LLM

鉴于样本的注释办法旨在通过分析训练样本来注释模型对于特定测试样本的响应。影响函数（Influence Function，IF）是这方面的核心手艺之一，它通过评估移除特定训练样本并重新训练模型后，模型对测试样本响应的变化来量化该训练样本的影响力。这种办法不仅可以揭示 LLM 的回覆依据何种训练文档，还有助于了解 LLM 如何在广泛常识领域内进行推广。

尽管影响函数的理论在 LLM 调试中极具潜力，但由于在大型模型上计算 Hessian 矩阵的复杂度，目前还缺乏实证这一手艺在 LLM 上有效性的开源实现。因此，钻研团队提供了一个案例分析来强调 IF 在 LLM 上的适用性，具体的代码可以在开源 Github 仓库中找到。

Case Study-3: 鉴于 EK-FAC 近似实现 LLM 影响函数注释

在本案例中，钻研团队采用 Grosse 等人（2023）提出的 EK-FAC 近似理论来实现 influence function，验证其对于 LLM 的适用性，又选取 SciFact 数据集中的 5183 篇论文摘要作为训练语料，对包括 GPT2-1.5B、LlaMA2-7B、Mistral-7B 和 LlaMA2-13B 在内的一系列大模型进行了进一步预训练。

为了确保模型能记住每个训练文档，每个 LLM 均在该语料库上训练了 2 万步。通过随机选取某个训练文档的前三个句子作为输入，并收集模型的输入，钻研团队运用 IF 估计了每个训练文档对于该输入输入对的重要性，并据此对训练文档进行排序。表 4 报告了对应的原始文档在前 5 或 10 个文档中的召回率，理想情况下，原始训练文档应该排在尽可能前面。

XAI有什么用？探索LLM时代操纵可注释性的10种战略

实验结果显示，作者的办法在召回率上显著优于随机选择战略，这表明 EK-FAC 近似的影响函数对于 LLM 是有效的。有趣的是，尽管模型对这些训练语料过度拟合，召回率仍未达到 100%，暗示了大型语言模型在预测时不仅仅依赖单一样本（可能还包括他们预训练阶段学习到的常识），而是展现出了强大的泛化能力。

战略 4：操纵注释性手艺提高 LLM 可信赖性和对齐度

相较于之前着重于提高模型性能的战略，本战略专注于如何运用可注释性手艺提高模型的可信度（Trustworthiness）和使其与人类价值观对齐（Human Alignment）。随着 LLM 在医疗、金融、法律和教育等关键领域的广泛应用，确保这些模型能够遵守人类的道德准则和安全标准变得尤为重要。

本战略综合了近几年操纵可注释性手艺来增进语言模型在安全性、隐私保护、公平性、无害性及真实性五个维度的钻研成果。虽然运用注释性手艺提高模型可信度的方向已受到部分学界关注，但当前依旧缺乏有效的监测与缓解措施。这为发展更先进的 LLM 可注释性手艺提出了新的挑战和期待。

战略 5：可注释的提示手艺（prompts）用于提高 LLM

不同于传统的机器学习模型，LLM 的一大优势是其对于输入输入形式的高度灵活性。以情感分类任意为例，传统模型仅能输入一个表示情绪倾向的数值，而 LLM 能够提供包含理由的文本输入，这种输入方式本质上增加了模型注释行。其中，「思惟链提示」（Chain-of-Thoughts，CoT）手艺不仅提高了决策过程的透明度，还提高了模型下游任意的性能。这一办法成功催生了更多类似手艺，如思惟树（Tree-of-Thoughts）和思惟图（Graph of Thoughts）。

尽管如此，这个框架的一个关键前提 —— 模型输入的文本真的可以作为其预测的注释 —— 还未经验证。因此，这篇综述通过案例分析探讨了 CoT 注释的忠实性。

Case Study-4: CoT 是否真的提高了 LLM 的可注释性？

作者针对复杂的多跳问答任意进行了案例分析，这类任意需要整合多个信息源才能解决问题。例如，询问「中国百米跑第一名来自哪里？」需要结合关于「中国百米跑第一名是谁」和「该人物出生地」的信息。在这种多跳问答场景中，任何一环的错误都可能导致最终答案的错误。

为考查忠实性，钻研团队选择了包括 2 跳、3 跳和 4 跳问题各 1000 个的MQUAKE-CF 数据集，以考察 CoT 的忠实性。具体而言，钻研团队首先收集模型生成的初始思惟链和最终答案，然后故意修改思惟链中的信息为错误常识，鉴于这个错误思惟链让模型给出新的最终答案，并希望模型产生错误的答案。

XAI有什么用？探索LLM时代操纵可注释性的10种战略

实验结果表明，对于新一代的 LLM（如 Vicuna-v1.5, LLaMA2-7B, Falcon-7B, Mistral-v0.1/0.2-7B），它们会拒绝鉴于错误的思惟链做出预测，这意味着还不能确定 CoT 对于这些新模型是否构成有效注释。然而，对于早期的 LLM（如 GPT-2, GPT-J, LLaMA-7B），较大的模型生成的 CoT 在忠实性方面表现较好，可以被视作有效的预测注释。

战略 6：操纵常识巩固的提示手艺用于提高 LLM

区别于思惟链等提示技巧，常识巩固的提示依靠引入外部常识以提高模型回覆的准确性和丰富度，这种办法通常被称为检索巩固生成（Retrieval-Augmented Generation, RAG）。

RAG 手艺主要分为两个步骤：首先，运用搜索引擎从外部常识库中检索相关信息；接着，将这些检索到的常识整合到提示中，与 LLM 共同工作。这种方式引入的外部常识对人类来说是可理解的，因此也被视为一种推理阶段的注释性手艺。

在本综述中，钻研者细致梳理了几种运用 RAG 手艺来巩固模型性能的应用场景，如减少幻觉现象、引入最新常识、以及融合特定领域的专业常识。

战略 7：将注释结果用于数据巩固

数据巩固是提高机器学习模型性能的一种经典办法，关键在于增加生成数据的多样性和确保这些数据与特定任意紧密相关。大型语言模型（LLM）的注释性手艺为这一挑战提供了新的解决方案。通过注释性手艺揭示模型的内部工作机制，不仅能够指导数据巩固的过程，以便生成与任意更为契合的特征，还能避免模型学习到不当的捷径。

此外，借助 LLM 的高度可控生成能力和先前讨论的注释性手艺，可以直接生成具有更高多样性的数据集，从而进一步提高模型的鲁棒性和性能。这种办法不仅扩展了数据巩固的应用范围，也为提高模型理解能力和处理能力开辟了新途径。

战略 8：操纵 LLM 生成用户友好的注释

传统的注释性手艺常常依赖于数字结果作为注释的基础，这对普通用户来说并不友好。因为普通用户难以高效地审视并汇总大量数字信息。对于大部分人而言，理解和汇总大量数字信息是一项挑战。相对而言，文本描述形式的注释更能帮助人们理解和接受注释性结果，这对于提高注释性手艺的实用性和接受度至关重要。综述总结了近年来如何操纵 LLM 重构注释性算法的输入，以提高其对用户的友好度的相关工作。

战略 9：操纵 LLM 设计可注释的 AI 系统

在 XAI 领域，设计原理上具有可注释性（intrinsically interpretable）的人工智能模型一直是一个核心目标，目的是根本上增加系统的透明度。传统机器学习中的决策树，以及深度学习中的概念模型（concept bottleneck models）和解耦模型都是可注释性较高的系统示例。

在综述中，钻研团队总结了两种操纵 LLM 来辅助设计可注释 AI 系统的办法：一是操纵 LLM 模拟人类专家的角色，为任意定义所需的概念；二是构建由多个 LLM 组成的系统，其中每个 LLM 承担特定的功能，从而提高整个系统的可注释性。

战略 10：操纵 LLM 扮演人类在 XAI 中的角色

类在开发可注释性 AI 模型的过程中扮演着关键角色，包括采集有人类标注的数据集进行模型训练，以及评估模型生成的注释。然而，人类参与的过程往往耗费大量的时间和金钱，限制了 XAI 的发展规模。

综述中探讨了如何操纵 LLM 模拟人类能力以缓解这一问题的可能性。相关钻研指出，通过整合鉴于主动学习的数据标注战略，LLM 可以在保持数据质量的同时，模拟人类标注者的角色，为采集高质量的人类标注数据集提供辅助。

未来展望

规避模型可注释性与准确性之间的矛盾：在传统的 XAI 钻研中，通常需要在透明度和模型性能之间做出权衡。然而，随着 LLM 的发展，直接识别可注释性模块变得更加复杂。因此，论文作者建议 XAI 钻研者放弃这种鉴于权衡的思惟模式，转而寻求同时巩固模型的注释性和准确性。这正是论文中 Usable XAI 旨在实现的核心目标。

数据驱动 v.s. 注释性驱动：当前，数据驱动的 AI 手艺占主导地位，其通过操纵大规模数据集构建强大的「黑箱」模型，强调结果而非决策过程。然而，随着高质量数据资源的逐渐枯竭，注释性驱动的 AI 手艺有望迅速发展，推动通过注释性巩固模型和更高效地操纵数据的新范式。

设计可注释性的目标：LLM 时代，XAI 手艺的重要性相对发生了根本变化，LLM 强大的能力使得钻研者们无需关注为什么模型没有生成一个连贯的句子，而是开始追求注释 LLM 是否依赖于事实信息构建输入之类的问题。鉴于 LLM 强大的能力和复杂性，或许注释性目标需要转变为一个更具体、并切实可行的方面，例如为某个特定的任意或者场景定制的可注释性目标。

评估 LLM 的可注释性面临新挑战：传统的 XAI 已经建立了完善的问题分类体系，但无法直接移植到 LLM 时代的 XAI 钻研。因为在 LLM 的背景下，某些可注释性问题变得不那么突出，同时某些办法变得过于复杂。此外，LLM 内部机制的钻研已经呈现出多样化的趋势，如钻研模型的「撒谎」、「礼貌」和「催眠」等行为。这些因素都导致注释 LLM 的办法尚未形成统一的办法论，从而使评估变得具有挑战性。