TrustLLM 是一个统一的框架,用于对 LLM 的可信度进行全面分析,包括现有工作的全面综述、可信 LLM 的不同维度的原则、一个新的测试基准,以及对主流 LLM 的全面可信度评估。
大型语言模型(LLMs)在 NLP 方面的卓越能力已引起广泛关注,影响了我们生活各个方面的应用。LLMs 的出色能力归因于多个因素,例如使用来自 Web 的大规模原始文本作为训练数据,使用具有大量参数的 transformer 架构设计,以及先进的模型训练方案等。
然而,LLMs 的兴起也引入了关于它们可信度的担忧。与传统语言模型不同,LLMs 具有可能导致可信赖问题的独特特性:
1)LLMs 的输出复杂性和多样性,加上它们的优秀的生成能力。LLMs 展示了处理广泛复杂和多样化主题的无与伦比的能力。然而,这种复杂性可能导致不可预测性,从而可能产生不准确或误导性的输出。同时,它们先进的生成能力为恶意行为者滥用开辟了途径,包括传播虚假信息和促进网络攻击。例如,攻击者可能使用 LLMs 制作欺骗性和误导性文本,诱导用户点击恶意链接或下载恶意软件。此外,LLMs 可用于自动化网络攻击,例如生成大量假账户和评论,以扰乱网站的正常运营。LLMs 的安全机制绕过技术,即所谓的 “越狱攻击”(jailbreak),也构成了重大威胁。
2)训练数据集中的偏见和隐私信息。可信赖的一个主要挑战来自训练数据集中潜在的偏见,这对 LLMs 生成内容的公平性有重大影响。例如,数据中的以男性为中⼼的偏见可能使得大语言模型主要反映男性观点的输出,从而使女性的贡献和观点被忽视。同样,偏好特定文化背景的偏见可能导致对该文化有偏见的回应,从而忽视其他文化背景中存在的多样性。另一个关键问题是训练数据集中包含敏感个⼈信息。在缺乏严格保护措施的情况下,这些数据容易被滥用,可能导致隐私泄露。这一问题在保持患者数据机密性至关重要的医疗领域尤为严重。
3)用户对 LLMs 的高期望。用户可能对 LLMs 的性能有很高的期望,期望它们提供准确且有见地的回应,强调模型与⼈类价值观的一致性。许多研究者对 LLMs 是否与⼈类价值观一致表示担忧。一种不一致可能会显著影响它们在各个领域的广泛应用。例如,LLM 可能认为某些情况下的行为是合适的,但⼈类可能认为它不适当,从而导致其应用中的冲突和矛盾。
虽然 LLMs 的开发者已经做出了重大努力来解决上述担忧。例如,OpenAI 采取了措施以确保 LLMs 在训练数据阶段、训练方法和下游应用中的可信度。WebGPT 被引⼊以协助⼈类评估在 LLMs 生成内容中识别不准确信息。同时,Meta AI 在 Llama2 中引⼊了新的安全对齐基准,包括在预训练、微调和红队评估中的广泛安全调查。尽管⼈们已经付出了非常多的努力来确保大语言模型的可信赖,一个问题仍然存在:我们真正能在多大程度上信任 LLMs?
在一篇论文中,来自40个机构的近70位研究者合作提出了 TrustLLM—— 一个统一的框架,用于对 LLM 可信度的全面分析,包括现有工作的全面综述、可信 LLM 的不同维度的原则、一个新的测试基准,以及对主流 LLM 的全面可信度评估。此外,作者开源了用于快速评估 LLMs 的 toolkit,并且维护了一个 leaderboard 来展示 LLMs 的可信赖的表现。
论文标题:TrustLLM: Trustworthiness in Large Language Models
论文链接:https://arxiv.org/abs/2401.05561
项目网站:https://trustllmbenchmark.github.io/TrustLLM-Website/
用于快速评估的 toolkit:https://github.com/HowieHwong/TrustLLM
具体来说,他们按照以下方式应对上述三个挑战:(1)首先,他们基于全面的文献综述提出了一套评估大型语言模型(LLMs)可信度的指导原则。为了探究 LLMs 的可信度,他们融合了⼈工智能、机器学习、数据挖掘、⼈机交互(HCI)和网络安全等领域的知识。他们对过去五年发表的 600 篇关于 LLM 可信度的论文进行了广泛的回顾,并确定了定义 LLMs 可信度的⼋个关键方面,即真实性、安全性、公平性、鲁棒性、隐私性、机器伦理、透明度和可问责。
论文得出的核心结论如下:
可信性与大语言模型的能力密切相关。作者的发现表明,可信性与实用性之间存在正相关,尤其在特定任务中更为明显。例如,在道德行为分类(隐性伦理部分)和刻板印象识别任务中,像 GPT-4 这样具有强大语言理解能力的 LLMs 往往能够做出更准确的道德判断,并更可靠地拒绝刻板印象陈述。同样,以自然语言推理能力著称的 Llama2-70b 和 GPT-4,在抵御对抗性攻击方面展现出更高的韧性。此外,他们观察到 LLMs 的可信性排名往往反映在以实用性为重点的排行榜上,如 MT-Bench、OpenLLM Leaderboard 等。这一观察结果强调了可信性与实用性的交织性,凸显开发者和用户在实现和使用 LLMs 时需要同时考虑这些方面的重要性。
大多数 LLMs 存在过度对齐的问题。作者发现许多 LLMs 表现出一定程度的过度对齐(即过度的安全性),这可能会影响它们的整体可信性。这样的 LLMs 可能会将许多无害的提示内容识别为有害,从而影响它们的实用性。例如, Llama2-7b 在对实际上并非有害的提示做出反应时,拒绝率达到了 57%。因此,在对齐过程中训练 LLMs 理解提示背后的意图,而不仅仅是记忆示例,对于降低错误、识别有害内容的比率至关重要。
通常,商业 LLMs 在可信性方面优于大多数开源 LLMs,但一些开源 LLMs(如 LLama2)仍然可以与商业 LLMs 竞争。作者发现开放权重和商业 LLMs 在可信性方面的性能差距。通常,商业 LLMs(如 ChatGPT、GPT-4)的表现远优于大多数开源 LLMs。这是一个严重的问题,因为开源模型可以被广泛下载。一旦集成到应用场景中,它们可能会带来严重⻛险。然而,作者惊讶地发现,Llama2 系列在许多任务中的可信性超过了商业 LLMs。这表明,即使不添加外部辅助模块(如有害内容审核),开放权重模型也可以展示出卓越的可信性。这一发现为相关开开源开发者提供了重要的参考价值。
模型本身和与可信性相关的技术应该是透明的(例如,开源)。鉴于不同 LLMs 在可信性方面的性能差距显著,作者强调了模型本身及旨在增强可信性的技术透明度的重要性。正如最近的研究所强调的,对模型的训练机制(包括参数和架构设计等方面)有深⼊理解是研究 LLMs 的基石。实验发现,尽管一些专有 LLMs 展示出高可信性 (例如 ERNIE),但其背后技术的具体细节仍未公开。使这些可信技术透明化或开源可以促进这些技术的更广泛采用和改进,显著提升 LLMs 的可信性。
TrustLLM 的核心内容
可信赖原则的制定
作者与多领域的科学家紧密合作,包括人工智能、数据挖掘、网络安全、⼈机交互领域等,深⼊探讨了大语言模型中可信赖的构成要素和核⼼原则。这一阶段的研究不仅确⽴了模型的基本信任标准,更为后续的实践提供了明确的方向。在 TrustLLM 中,他们对 8 个维度:真实性、安全性、公平性、鲁棒性、隐私性、机器伦理、透明度和可问责进行了定义,同时也讨论了相关的法律法规。
评估基准的建⽴
由于透明度和问责性难以建⽴基准,因此作者对前 6 个维度建⽴了基准测试。他们汇集了超过 30 个高质量的数据集,并根据各种实际应用场景设计了多维度任务。在 16 种流行大语言模型上的广泛测试为本文提供了宝贵的数据支撑和经验。他们的基准测试架构如图 2 所示。基准测试的中的数据集详细如图 4 所示,任务设置如图 5 所示。
真实性(Truthfulness)
真实性在大型语言模型(LLMs)的应用中受到广泛的重视。阻碍 LLMs 实际应用的一个主要障碍是它们生成不准确或缺乏事实精确性的内容。这种生成不准确信息的行为可以归因于不完美的训练数据。由于 LLMs 的训练数据集大多是在互联网上收集而来的,其中可能包含错误的细节、过时的事实,甚至是故意的错误信息,从而损害了大语言 模型的真实性。
在这一节中,作者从 4 方面评估 LLMs 的真实性:错误信息(misinformation)、幻觉(hallucination)、阿谀奉承 (sycophancy,如图 3 所示)和对抗性事实性(adversarial factuality,如图 4 所示)。这些方面评估了 LLMs 在各种场景下提供真实回应的能力,例如利用内部或外部知识、执行多样化的生成任务、易受阿谀奉承的影响,以及在面对不准确的用户输⼊时能够指出输⼊中的错误。
安全性(Safety)
在这一部分,TrustLLM 旨在评估 LLMs 与传统安全问题相比的新安全问题,特别关注 LLMs 的输出安全(例如,类似后⻔攻击这些传统的安全问题在 TrustLLM 中不被评估)。具体来说,作者首先评估 LLMs 面对各种越狱攻击(如图 5 左侧)的表现。他们引⼊了 JailbreakTrigger 数据集,集成 13 种常见的攻击方法,以评估 LLMs 对越狱攻击的安全性。接下来,他们观察到不同程度的过度安全问题(如图 5 右侧),这是近期研究中突出的一个问题(大语言模型会拒绝回答无害的输⼊)。此外,他们还测量了 LLMs 输出的毒性和 LLMs 对各种类型滥用的抵抗能力。
公平性(Fairness)
在这一部分,作者旨在评估 LLMs 的公平性。首先,他们通过三个任务评估 LLMs 内部的潜在刻板印象:刻板印象的认同、刻板印象的识别和刻板印象的查询测试(如图 9 所示)。接下来,他们通过薪资预测任务来探究 LLMs 中的潜在的贬低(disparagement)问题。最后,他们通过偏好询问来探究大语言模型中潜在的偏见问题(Preference)。
鲁棒性(Robustness)
在大型语言模型(LLMs)中,鲁棒性指的是它们在面对各种输⼊条件时的稳定性和性能。这包括它们有效处理多样化输⼊、噪声、⼲扰、对抗性攻击和数据分布变化等因素的能力。以前的研究已经对传统语言模型的鲁棒性进行了大量研究;然而,LLMs 的多样化输⼊输出使这些评估仍然受限。在这一部分,作者将鲁棒性与恶意攻击(在安全性部分讨论)区分开来,并从普通用户输⼊的角度研究鲁棒性问题。
具体来说,他们从两个角度探索 LLMs 的鲁棒性:它们处理输⼊中的自然噪声的能力以及它们应对分布外(OOD)挑战的反应。为了评估对自然噪声的鲁棒性,他们使用 AdvGLUE 数据集来研究 LLM 在具有真实标签的特定下游任务上的性能。此外,他们引⼊了一个名为 AdvInstruction 的数据集,以评估 LLM 在没有真实标签的开放式任务中的鲁棒性。在处理 OOD 问题时,他们评估 LLMs 在 OOD 检测(如图 13 所示)和 OOD 泛化任务上的表现。
隐私(Privacy)
LLMs 中的隐私保护的重要性不容忽视。这一部分致力于评估 LLMs 的隐私意识和潜在的隐私泄露。如图所示,评估分为两个部分(如图 14 所示)。第一部分是隐私意识,评估 LLMs 在各种场景下如何有效地识别和管理与隐私相关的问题。这涉及检查 LLMs 是否在响应多样化输⼊时无意中泄露了它们所得到的隐私信息,从而评估它们对隐私问题的响应能力。第二部分是隐私泄露,调查 LLMs 的训练数据集是否包含使用特定提示获取的私⼈信息。这部分分析重点关注 LLMs 无意中嵌⼊并随后暴露敏感数据的⻛险,从而强调它们输出中的潜在隐私泄露⻛险。
Machine Ethics(机器伦理)
机器伦理学,作为⼈工智能伦理学的一个重要分支,致力于促进和确保⼈工智能模型和代理的伦理行为。这些基于 AI 的机器的伦理性,由⼈类的智慧创造并由先进的 AI 技术驱动,一直是重要研究课题。
詹姆斯・H・穆尔(James H. Moor),计算机伦理领域的开创性理论家之一,在一项研究中定义了四种类型的伦理机器⼈:伦理影响代理、隐性伦理代理、显性伦理代理和完全伦理代理。基于当前大型语言模型(LLMs)的现状,在这项研究中,作者根据机器伦理学的定义将 LLMs 的伦理性划分为三个⼦部分:隐性伦理、显性伦理和意识。隐性伦理和显性伦理之间的比较如图 15 所示:隐性伦理主要处理 LLMs 的内在价值,如对道德情境的判断。如最近的一项研究所提到,调查 LLMs 的行为超越单纯的知识是至关重要的,因为显性伦理强调当 LLMs 处于伦理环境中时它们将如何反应,要求 LLMs 始终采取道德正确的行动。
现存的挑战
不同语言的偏差。在 TrustLLM 中,本文的评估仅基于英语,因为它是全球最广泛使用的语言,且大多数 LLM 训练数 据集都是英文的。然而,这引⼊了 TrustLLM 的两个局限性:(1)结果仅与英语中的可信性相关。TrustLLM 忽略了其他语言固有的语言细微差别、文化背景和习语表达的多样性。因此,本文的评估可能无法准确衡量非英语语言的可信性。例如,最近的研究表明,通过将不安全的英语输⼊翻译成低资源语言,成功绕过了 GPT-4 的安全机制, 显示了其固有的跨语言脆弱性。(2)对某些中文 LLMs(如 ChatGLM2、ERNIE)的评估结果可能存在偏差。这是因为这些模型可能与它们的英文对应物进行了比较,反映了与英语对应物不同的语言结构、文化规范和社会背景。由于 TrustLLM 的评估标准和方法是考虑基于英语的模型设计的,它们可能无法考虑这些差异,导致对中文 LLMs 的性能和可信性的偏见看法。
Prompt 的敏感性。“Prompt 敏感性” 指的是 LLMs 对给定输⼊的结构和上下文具有一定的敏感性。在这种情况下,即使是微⼩的修改也可能导致截然不同的响应,传达不同的含义。对于训练有素且正确对齐的 LLMs 来说,对提示进行微⼩修改而不改变其内在含义,导致这些模型无法解决问题,是不可接受的。因此,没有明确提示的基准数据集可能导致性能评估不一致和不公平的比较。在 TrustLLM 中,作者努力提供一致的设置和提示,以尽量减少提示敏感性的负面影响。在每个评估任务中,他们都会精⼼制定单独的提示,以提供清晰准确的指令。他们的目标是确保语法和语义上的明确性和正确性。此外,他们确保语义直接明了,最大限度地减少 LLMs 的误解可能性。
指令遵循能力。与此同时,LLMs 本身的指令遵循能力也对评估构成挑战。由于自身能力的限制,一些 LLMs 无法理解复杂的指令,导致最终评估结果中存在特定的偏见。许多 LLMs 还无法以作者指定的格式(例如,选项字母)输出,严重阻碍了自动化评估。为解决这个问题,他们采用了几种方法来尽可能减少潜在的偏见。例如,在某些情况下,他们使用 GPT-4/ChatGPT 进行自动化评估,以减少由正则表达式造成的偏见。此外,他们尝试避免引⼊复杂的指令,并通过⼈类专家的讨论制定精确易懂的提示,让即使是能力较弱的 LLMs 也能理解指令的含义。
大型语言模型认证的挑战。为了打造如自治系统和医疗设备等可信赖的关键任务系统,通常需要严格认证系统的正确性、安全性、鲁棒性等属性,特别是在面对潜在的对抗性和恶意输⼊时更为重要。虽然现有研究已经探讨了众多机器学习模型的认证和验证,例如深度神经网络和树集成,但在 TrustLLM 项目中,本文的评估并未涵盖对 LLMs 可信性的严格认证,也无法保证充分反映 LLMs 在最坏情况下的行为。LLMs 在最坏情况下的性能认证面临着多个挑 战。首先,现有的认证机器学习方法的可扩展性受限。例如,在最新的神经网络验证比赛中,评估的最大网络(拥有数百万参数)的规模远⼩于目前使用的 LLM 模型。其次,实际认证通常涉及使用专⻔的方法对模型进行重新训练,这对于 LLMs 来说成本过高。第三,对于自然语言的处理,用数学模型来建模认证规范是极具挑战性的 —— 目前的方法通常局限于一些简单的操作,如同义词替换、标记替换、添加和删除等。
知识对齐和编辑。为了系统性地减少幻觉,作者需要基于各种知识来源(中间知识、外部知识和⼈类反馈)来引导生成。无论是事实知识还是社会信仰,都会随着时间的推移而变化。因此,需要研究时间转变的作用以及这对 LLMs 知识编辑的需求的影响。在最近的工作中,作者观察到,由于 LLMs 的暴露偏见,现有的知识更新方法可能存在问题,这种偏见优先考虑现有信息而不是试图融合新信息。
其他。在 TrustLLM 中,作为迈出的第一步,作者提供了关于可信 LLMs 的全面研究。然而,他们意识到还有其他挑战需要解决,例如,不同维度的可信 LLMs 之间的交互(如一致性、冲突)需要更多探索,以及全面衡量给定 LLM 可信性的指标,以及⼈类代理和监督的保障等。此外,当前 LLMs 的安全保护措施(如 ChatGPT 和 LLAMA-2)可以通过使用少量示例或良性指令数据集进行微调而轻松移除,表明在保持 LLMs 的可信性方面的挑战。此外,定义和评估超出⼈类语言的 LLMs 的可信性,如编程语言,需要系统性研究。最后,为了设计可信的 LLMs,我们可能需要在预训练或微调时纳⼊安全目标(例如,对抗性损失)。高效的训练方法可能在实现这一最终目标中发挥关键作用。