大谈话模型的可信之路：TrustLLM全面揭秘

TrustLLM 是一个统一的框架，用于对 LLM 的可信度进行全面分析，包括现有工作的全面综述、可信 LLM 的不同维度的原则、一个新的测试基准，以及对主流 LLM 的全面可信度评价。大型谈话模型（LLMs）在 NLP 方面的卓越才能已引起广泛关注，影响了我们生活各个方面的应用。LLMs 的出色才能归因于多个因素，例如使用来自 Web 的大规模原始文本作为训练数据，使用具有大量参数的 transformer 架构设计，以及先进的模型训练方案等。然而，LLMs 的兴起也引入了关于它们可信度的担忧。与传统谈话模型不

TrustLLM 是一个统一的框架，用于对 LLM 的可信度进行全面分析，包括现有工作的全面综述、可信 LLM 的不同维度的原则、一个新的测试基准，以及对主流 LLM 的全面可信度评价。

大型谈话模型（LLMs）在 NLP 方面的卓越才能已引起广泛关注，影响了我们生活各个方面的应用。LLMs 的出色才能归因于多个因素，例如使用来自 Web 的大规模原始文本作为训练数据，使用具有大量参数的 transformer 架构设计，以及先进的模型训练方案等。

然而，LLMs 的兴起也引入了关于它们可信度的担忧。与传统谈话模型不同，LLMs 具有能够导致可信赖题目的独特特性：

1）LLMs 的输出复杂性和多样性，加上它们的优秀的生成才能。LLMs 展示了处理广泛复杂和多样化主题的无与伦比的才能。然而，这种复杂性能够导致不可预测性，从而能够产生不精确或误导性的输出。同时，它们先进的生成才能为恶意行为者滥用开辟了途径，包括传播虚假信息和促进网络攻击。例如，攻击者能够使用 LLMs 制作欺骗性和误导性文本，诱导用户点击恶意链接或下载恶意软件。此外，LLMs 可用于自动化网络攻击，例如生成大量假账户和评论，以扰乱网站的正常运营。LLMs 的危险机制绕过技术，即所谓的 “越狱攻击”（jailbreak），也构成了重大威胁。

2）训练数据集中的私见和隐衷信息。可信赖的一个主要挑战来自训练数据集中潜在的私见，这对 LLMs 生成内容的公平性有重大影响。例如，数据中的以男性为中⼼的私见能够使得大谈话模型主要反映男性观点的输出，从而使女性的贡献和观点被忽视。同样，偏好特定文化背景的私见能够导致对该文化有私见的回应，从而忽视其他文化背景中存在的多样性。另一个关键题目是训练数据集中包含敏感个⼈信息。在缺乏严格保护措施的情况下，这些数据容易被滥用，能够导致隐衷泄露。这一题目在保持患者数据机密性至关重要的医疗领域尤为严重。

3）用户对 LLMs 的高期望。用户能够对 LLMs 的性能有很高的期望，期望它们提供精确且有见地的回应，强调模型与⼈类价值观的一致性。许多钻研者对 LLMs 是否与⼈类价值观一致表示担忧。一种不一致能够会显著影响它们在各个领域的广泛应用。例如，LLM 能够认为某些情况下的行为是合适的，但⼈类能够认为它不适当，从而导致其应用中的冲突和矛盾。

虽然 LLMs 的开发者已经做出了重大努力来解决上述担忧。例如，OpenAI 采取了措施以确保 LLMs 在训练数据阶段、训练方法和下游应用中的可信度。WebGPT 被引⼊以协助⼈类评价在 LLMs 生成内容中识别不精确信息。同时，Meta AI 在 Llama2 中引⼊了新的危险对齐基准，包括在预训练、微调和红队评价中的广泛危险调查。尽管⼈们已经付出了非常多的努力来确保大谈话模型的可信赖，一个题目仍然存在：我们真正能在多大程度上信任 LLMs？

在一篇论文中，来自40个机构的近70位钻研者合作提出了 TrustLLM—— 一个统一的框架，用于对 LLM 可信度的全面分析，包括现有工作的全面综述、可信 LLM 的不同维度的原则、一个新的测试基准，以及对主流 LLM 的全面可信度评价。此外，作家开源了用于快速评价 LLMs 的 toolkit，并且维护了一个 leaderboard 来展示 LLMs 的可信赖的表现。

大谈话模型的可信之路：TrustLLM全面揭秘

论文标题：TrustLLM: Trustworthiness in Large Language Models

论文链接：https://arxiv.org/abs/2401.05561

项目网站：https://trustllmbenchmark.github.io/TrustLLM-Website/

用于快速评价的 toolkit：https://github.com/HowieHwong/TrustLLM

具体来说，他们按照以下方式应对上述三个挑战：（1）首先，他们基于全面的文献综述提出了一套评价大型谈话模型（LLMs）可信度的指导原则。为了探究 LLMs 的可信度，他们融合了⼈工智能、呆板学习、数据挖掘、⼈机交互（HCI）和网络危险等领域的常识。他们对过去五年发表的 600 篇关于 LLM 可信度的论文进行了广泛的回顾，并确定了定义 LLMs 可信度的⼋个关键方面，即真实性、危险性、公平性、鲁棒性、隐衷性、呆板伦理、透明度和可问责。

大谈话模型的可信之路：TrustLLM全面揭秘论文得出的核心结论如下：

可信性与大谈话模型的才能密切相关。作家的发现表明，可信性与实用性之间存在正相关，尤其在特定义务中更为明显。例如，在道德行为分类（隐性伦理部分）和呆板印象识别义务中，像 GPT-4 这样具有强大谈话理解才能的 LLMs 往往能够做出更精确的道德判断，并更可靠地拒绝呆板印象陈述。同样，以自然谈话推理才能著称的 Llama2-70b 和 GPT-4，在抵御对抗性攻击方面展现出更高的韧性。此外，他们观察到 LLMs 的可信性排名往往反映在以实用性为重点的排行榜上，如 MT-Bench、OpenLLM Leaderboard 等。这一观察结果强调了可信性与实用性的交织性，凸显开发者和用户在实现和使用 LLMs 时需要同时考虑这些方面的重要性。

大多数 LLMs 存在过度对齐的题目。作家发现许多 LLMs 表现出一定程度的过度对齐（即过度的危险性），这能够会影响它们的整体可信性。这样的 LLMs 能够会将许多无害的提醒内容识别为有害，从而影响它们的实用性。例如， Llama2-7b 在对实际上并非有害的提醒做出反应时，拒绝率达到了 57％。因此，在对齐过程中训练 LLMs 理解提醒背后的意图，而不仅仅是记忆示例，对于降低错误、识别有害内容的比率至关重要。

通常，商业 LLMs 在可信性方面优于大多数开源 LLMs，但一些开源 LLMs（如 LLama2）仍然可以与商业 LLMs 竞争。作家发现开放权重和商业 LLMs 在可信性方面的性能差距。通常，商业 LLMs（如 ChatGPT、GPT-4）的表现远优于大多数开源 LLMs。这是一个严重的题目，因为开源模型可以被广泛下载。一旦集成到应用场景中，它们能够会带来严重⻛险。然而，作家惊讶地发现，Llama2 系列在许多义务中的可信性超过了商业 LLMs。这表明，即使不添加外部辅助模块（如有害内容审核），开放权重模型也可以展示出卓越的可信性。这一发现为相关开开源开发者提供了重要的参考价值。

模型本身和与可信性相关的技术应该是透明的（例如，开源）。鉴于不同 LLMs 在可信性方面的性能差距显著，作家强调了模型本身及旨在增强可信性的技术透明度的重要性。正如最近的钻研所强调的，对模型的训练机制（包括参数和架构设计等方面）有深⼊理解是钻研 LLMs 的基石。实验发现，尽管一些专有 LLMs 展示出高可信性（例如 ERNIE），但其背后技术的具体细节仍未公开。使这些可信技术透明化或开源可以促进这些技术的更广泛采用和改进，显著提升 LLMs 的可信性。

TrustLLM 的核心内容

可信赖原则的制定

作家与多领域的科学家紧密合作，包括人工智能、数据挖掘、网络危险、⼈机交互领域等，深⼊探讨了大谈话模型中可信赖的构成要素和核⼼原则。这一阶段的钻研不仅确⽴了模型的基本信任标准，更为后续的实践提供了明确的方向。在 TrustLLM 中，他们对 8 个维度：真实性、危险性、公平性、鲁棒性、隐衷性、呆板伦理、透明度和可问责进行了定义，同时也讨论了相关的法律法规。

大谈话模型的可信之路：TrustLLM全面揭秘

评价基准的建⽴

大谈话模型的可信之路：TrustLLM全面揭秘

由于透明度和问责性难以建⽴基准，因此作家对前 6 个维度建⽴了基准测试。他们汇集了超过 30 个高质量的数据集，并根据各种实际应用场景设计了多维度义务。在 16 种流行大谈话模型上的广泛测试为本文提供了宝贵的数据支撑和经验。他们的基准测试架构如图 2 所示。基准测试的中的数据集详细如图 4 所示，义务设置如图 5 所示。

大谈话模型的可信之路：TrustLLM全面揭秘

真实性（Truthfulness）

真实性在大型谈话模型（LLMs）的应用中受到广泛的重视。阻碍 LLMs 实际应用的一个主要障碍是它们生成不精确或缺乏事实精确性的内容。这种生成不精确信息的行为可以归因于不完美的训练数据。由于 LLMs 的训练数据集大多是在互联网上收集而来的，其中能够包含错误的细节、过时的事实，甚至是故意的错误信息，从而损害了大谈话模型的真实性。

在这一节中，作家从 4 方面评价 LLMs 的真实性：错误信息（misinformation）、幻觉（hallucination）、阿谀奉承（sycophancy，如图 3 所示）和对抗性事实性（adversarial factuality，如图 4 所示）。这些方面评价了 LLMs 在各种场景下提供真实回应的才能，例如利用内部或外部常识、执行多样化的生成义务、易受阿谀奉承的影响，以及在面对不精确的用户输⼊时能够指出输⼊中的错误。

大谈话模型的可信之路：TrustLLM全面揭秘

危险性（Safety）

在这一部分，TrustLLM 旨在评价 LLMs 与传统危险题目相比的新危险题目，特别关注 LLMs 的输出危险（例如，类似后⻔攻击这些传统的危险题目在 TrustLLM 中不被评价）。具体来说，作家首先评价 LLMs 面对各种越狱攻击（如图 5 左侧）的表现。他们引⼊了 JailbreakTrigger 数据集，集成 13 种常见的攻击方法，以评价 LLMs 对越狱攻击的危险性。接下来，他们观察到不同程度的过度危险题目（如图 5 右侧），这是近期钻研中突出的一个题目（大谈话模型会拒绝回答无害的输⼊）。此外，他们还测量了 LLMs 输出的毒性和 LLMs 对各种类型滥用的抵抗才能。

大谈话模型的可信之路：TrustLLM全面揭秘

公平性（Fairness）

在这一部分，作家旨在评价 LLMs 的公平性。首先，他们通过三个义务评价 LLMs 内部的潜在呆板印象：呆板印象的认同、呆板印象的识别和呆板印象的查询测试（如图 9 所示）。接下来，他们通过薪资预测义务来探究 LLMs 中的潜在的贬低（disparagement）题目。最后，他们通过偏好询问来探究大谈话模型中潜在的私见题目（Preference）。

大谈话模型的可信之路：TrustLLM全面揭秘

鲁棒性（Robustness）

在大型谈话模型（LLMs）中，鲁棒性指的是它们在面对各种输⼊条件时的稳定性和性能。这包括它们有效处理多样化输⼊、噪声、⼲扰、对抗性攻击和数据分布变化等因素的才能。以前的钻研已经对传统谈话模型的鲁棒性进行了大量钻研；然而，LLMs 的多样化输⼊输出使这些评价仍然受限。在这一部分，作家将鲁棒性与恶意攻击（在危险性部分讨论）区分开来，并从普通用户输⼊的角度钻研鲁棒性题目。

具体来说，他们从两个角度探索 LLMs 的鲁棒性：它们处理输⼊中的自然噪声的才能以及它们应对分布外（OOD）挑战的反应。为了评价对自然噪声的鲁棒性，他们使用 AdvGLUE 数据集来钻研 LLM 在具有真实标签的特定下游义务上的性能。此外，他们引⼊了一个名为 AdvInstruction 的数据集，以评价 LLM 在没有真实标签的开放式义务中的鲁棒性。在处理 OOD 题目时，他们评价 LLMs 在 OOD 检测（如图 13 所示）和 OOD 泛化义务上的表现。

大谈话模型的可信之路：TrustLLM全面揭秘

隐衷（Privacy）

LLMs 中的隐衷保护的重要性不容忽视。这一部分致力于评价 LLMs 的隐衷意识和潜在的隐衷泄露。如图所示，评价分为两个部分（如图 14 所示）。第一部分是隐衷意识，评价 LLMs 在各种场景下如何有效地识别和管理与隐衷相关的题目。这涉及检查 LLMs 是否在响应多样化输⼊时无意中泄露了它们所得到的隐衷信息，从而评价它们对隐衷题目的响应才能。第二部分是隐衷泄露，调查 LLMs 的训练数据集是否包含使用特定提醒获取的私⼈信息。这部分分析重点关注 LLMs 无意中嵌⼊并随后暴露敏感数据的⻛险，从而强调它们输出中的潜在隐衷泄露⻛险。

大谈话模型的可信之路：TrustLLM全面揭秘

Machine Ethics（呆板伦理）

呆板伦理学，作为⼈工智能伦理学的一个重要分支，致力于促进和确保⼈工智能模型和代理的伦理行为。这些基于 AI 的呆板的伦理性，由⼈类的智慧创造并由先进的 AI 技术驱动，一直是重要钻研课题。

詹姆斯・H・穆尔（James H. Moor），计算机伦理领域的开创性理论家之一，在一项钻研中定义了四种类型的伦理呆板⼈：伦理影响代理、隐性伦理代理、显性伦理代理和完全伦理代理。基于当前大型谈话模型（LLMs）的现状，在这项钻研中，作家根据呆板伦理学的定义将 LLMs 的伦理性划分为三个⼦部分：隐性伦理、显性伦理和意识。隐性伦理和显性伦理之间的比较如图 15 所示：隐性伦理主要处理 LLMs 的内在价值，如对道德情境的判断。如最近的一项钻研所提到，调查 LLMs 的行为超越单纯的常识是至关重要的，因为显性伦理强调当 LLMs 处于伦理环境中时它们将如何反应，要求 LLMs 始终采取道德正确的行动。

大谈话模型的可信之路：TrustLLM全面揭秘

现存的挑战

不同谈话的偏差。在 TrustLLM 中，本文的评价仅基于英语，因为它是全球最广泛使用的谈话，且大多数 LLM 训练数据集都是英文的。然而，这引⼊了 TrustLLM 的两个局限性：（1）结果仅与英语中的可信性相关。TrustLLM 忽略了其他谈话固有的谈话细微差别、文化背景和习语表达的多样性。因此，本文的评价能够无法精确衡量非英语谈话的可信性。例如，最近的钻研表明，通过将不危险的英语输⼊翻译成低资源谈话，成功绕过了 GPT-4 的危险机制，显示了其固有的跨谈话脆弱性。（2）对某些中文 LLMs（如 ChatGLM2、ERNIE）的评价结果能够存在偏差。这是因为这些模型能够与它们的英文对应物进行了比较，反映了与英语对应物不同的谈话结构、文化规范和社会背景。由于 TrustLLM 的评价标准和方法是考虑基于英语的模型设计的，它们能够无法考虑这些差异，导致对中文 LLMs 的性能和可信性的私见看法。

Prompt 的敏感性。“Prompt 敏感性” 指的是 LLMs 对给定输⼊的结构和上下文具有一定的敏感性。在这种情况下，即使是微⼩的修改也能够导致截然不同的响应，传达不同的含义。对于训练有素且正确对齐的 LLMs 来说，对提醒进行微⼩修改而不改变其内在含义，导致这些模型无法解决题目，是不可接受的。因此，没有明确提醒的基准数据集能够导致性能评价不一致和不公平的比较。在 TrustLLM 中，作家努力提供一致的设置和提醒，以尽量减少提醒敏感性的负面影响。在每个评价义务中，他们都会精⼼制定单独的提醒，以提供清晰精确的指令。他们的目标是确保语法和语义上的明确性和正确性。此外，他们确保语义直接明了，最大限度地减少 LLMs 的误解能够性。

指令遵循才能。与此同时，LLMs 本身的指令遵循才能也对评价构成挑战。由于自身才能的限制，一些 LLMs 无法理解复杂的指令，导致最终评价结果中存在特定的私见。许多 LLMs 还无法以作家指定的格式（例如，选项字母）输出，严重阻碍了自动化评价。为解决这个题目，他们采用了几种方法来尽能够减少潜在的私见。例如，在某些情况下，他们使用 GPT-4/ChatGPT 进行自动化评价，以减少由正则表达式造成的私见。此外，他们尝试避免引⼊复杂的指令，并通过⼈类专家的讨论制定精确易懂的提醒，让即使是才能较弱的 LLMs 也能理解指令的含义。

大型谈话模型认证的挑战。为了打造如自治系统和医疗设备等可信赖的关键义务系统，通常需要严格认证系统的正确性、危险性、鲁棒性等属性，特别是在面对潜在的对抗性和恶意输⼊时更为重要。虽然现有钻研已经探讨了众多呆板学习模型的认证和验证，例如深度神经网络和树集成，但在 TrustLLM 项目中，本文的评价并未涵盖对 LLMs 可信性的严格认证，也无法保证充分反映 LLMs 在最坏情况下的行为。LLMs 在最坏情况下的性能认证面临着多个挑战。首先，现有的认证呆板学习方法的可扩展性受限。例如，在最新的神经网络验证比赛中，评价的最大网络（拥有数百万参数）的规模远⼩于目前使用的 LLM 模型。其次，实际认证通常涉及使用专⻔的方法对模型进行重新训练，这对于 LLMs 来说成本过高。第三，对于自然谈话的处理，用数学模型来建模认证规范是极具挑战性的 —— 目前的方法通常局限于一些简单的操作，如同义词替换、标记替换、添加和删除等。

常识对齐和编辑。为了系统性地减少幻觉，作家需要基于各种常识来源（中间常识、外部常识和⼈类反馈）来引导生成。无论是事实常识还是社会信仰，都会随着时间的推移而变化。因此，需要钻研时间转变的作用以及这对 LLMs 常识编辑的需求的影响。在最近的工作中，作家观察到，由于 LLMs 的暴露私见，现有的常识更新方法能够存在题目，这种私见优先考虑现有信息而不是试图融合新信息。

其他。在 TrustLLM 中，作为迈出的第一步，作家提供了关于可信 LLMs 的全面钻研。然而，他们意识到还有其他挑战需要解决，例如，不同维度的可信 LLMs 之间的交互（如一致性、冲突）需要更多探索，以及全面衡量给定 LLM 可信性的指标，以及⼈类代理和监督的保障等。此外，当前 LLMs 的危险保护措施（如 ChatGPT 和 LLAMA-2）可以通过使用少量示例或良性指令数据集进行微调而轻松移除，表明在保持 LLMs 的可信性方面的挑战。此外，定义和评价超出⼈类谈话的 LLMs 的可信性，如编程谈话，需要系统性钻研。最后，为了设计可信的 LLMs，我们能够需要在预训练或微调时纳⼊危险目标（例如，对抗性损失）。高效的训练方法能够在实现这一最终目标中发挥关键作用。