AIxiv专栏是机器之心发布学术、技术实质的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇实质,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
本文通讯作者为马里兰大学计算机系的博士生胡正冕,其导师为 Heng Huang。他的主要研究方向是采样与机器学习理论,曾在ICML、NeurIPS、ICLR等顶级会议上发表多篇论文。邮箱: [email protected]
随着大谈话模型(LLM)的快速发展,其在文本生成、翻译、总结等任务中的运用日益广泛。如微软前段时间发布的Copilot+PC允许使用者利用生成式AI进行团队内部实时协同合作,通过内嵌大模型运用,文本实质可能会在多个专业团队内部快速流转,对此,为保障实质的高度专业性和传达效率,同时平衡实质追溯、保障文本品质的LLM水印办法显得极为重要。
如何从使用面的事后追溯管控生成式AI的运用,因此成为了一些研究者关注的议题。
为了应对这一挑战,研究者们提出了在LLM生成过程中嵌入水印的办法,以实现对模型输入实质的追踪和溯源。
近日,马里兰大学、匹兹堡大学和滑铁卢大学的研究者在ICLR 2024上发表了一项名为「Unbiased Watermark for Large Language Models」的研究,提出了一种新的LLM水印办法——无偏水印(Unbiased Watermark)。
该办法不仅能在LLM生成过程中嵌入水印,实现实质溯源,还能保障嵌入水印后的文本品质不受影响。相关论文已被ICLR 2024会议接收为Spotlight论文。
论文地址: https://openreview.net/pdf?id=uWVC5FVidc
代码仓库: https://github.com/xiaoniu-578fa6bff964d005/UnbiasedWatermark
无偏水印办法
传统的LLM水印办法存在一个两难困境:「如果水印信号过强,虽然易于检测,但会影响生成文本的品质;如果水印信号过弱,虽然对文本品质影响小,但难以检测。」
这一矛盾导致传统水印办法难以在实质溯源和品质保障之间取得平衡。
为了解决这一问题,该研究提出了无偏水印办法。
其核心思想是:利用多个水印分散,而不是单一的水印分散。这些水印分散的组合能够恢复原始的谈话模型输入分散。在生成过程中,根据一个私钥在所有可能的水印分散之间进行选择。
对于没有私钥的观察者来说,含水印模型的期望输入与原始模型完全一致,从而保障了无偏性。但对于拥有私钥的人来说,相应水印分散与原始分散之间的差异可以很大,从而实现可靠的水印检测。
无偏水印办法主要包括两个关键组件:无偏重赋权(Unbiased Reweight)和独立水印码(Independent Watermark Codes)。
无偏重赋权的目的是确保含水印分散的期望值与原始分散相匹配。
研究者提出了两种具体的无偏重赋权办法:δ-reweight和γ-reweight。
δ-reweight办法利用逆变换采样(Inverse Transform Sampling)的思想,根据原始分散和一个均匀分散的随机数来生成水印分散。
γ-reweight办法则先对词表进行随机重排,然后对重排后的词表进行分段线性变换,得到水印分散。
理论分析表明,这两种办法都满足无偏性要求。
δ-reweight和γ-reweight办法示例
为了保障整个序列的无偏性,水印码在每一步生成过程中都必须是独立的。由于水印码依赖于上下文码(Context Codes),研究者引入了上下文码历史(Context Code History)的概念。
在生成过程中,如果某个上下文码出现过,就跳过水印嵌入,直接使用原始的谈话模型输入分散。这样可以避免重复的上下文码导致的水印码相关性,从而保障水印码的独立性。
水印的检测
在水印检测方面,该研究提出了两种检测办法:基于似然(likelihood-based)的检测和无需似然(likelihood-agnostic)的检测。
基于似然的检测办法利用谈话模型的输入概率进行水印检测。研究者首先介绍了对数似然比检验(LLR Test)的办法。LLR Test比较给定文本在原始分散和水印分散下的似然,如果似然比超过一个阈值,则判定该文本含有水印。
LLR Test在理论上是最优的检验办法,能够在I类错误(假阳性)和II类错误(假阴性)之间取得最佳平衡。
然而,标准的LLR Test对原始分散和水印分散的扰动比较敏感。如果文本在水印检测前被修改,真实的水印分散可能与假设的水印分散不同,导致检测性能下降。为了解决这个问题,研究者提出了一种稳健的LLR Test变体。
该变体引入了一个新的优化问题,允许水印分散有小幅度的扰动。实验表明,稳健的LLR Test在面对文本修改时,仍然能保持较好的检测性能。
基于似然的检测办法需要访问谈话模型的输入概率,在某些情况下可能不易求解。
为此,研究者还提出了一种无需似然的检测办法。该办法不依赖于谈话模型的输入概率,而是利用Gumbel Trick生成水印码,并设计了一种新的打分函数。
理论分析表明,无需似然的检测办法同样能够保障I类错误的上界。然而,与基于似然的检测办法相比,无需似然的检测办法的检测效率较低,在相同的I类错误率下,通常需要更长的文本序列才能可靠地检测到水印。
实验结果
研究者在文本摘要和机器翻译两个任务上,评测了无偏水印办法的性能。
实验结果表明,嵌入水印后的文本品质与原始模型输入相当,在ROUGE、BLEU等指标上没有显著差异。相比之下,传统的水印办法(如Soft Red List)会导致明显的品质下降。
此外,研究者还测试了无偏水印办法对多种可能的文本变化的鲁棒性,包括温度改变,Top-k采样,输入扰动,模型扰动,随机替换攻击。
实验表明无偏水印办法具有较强的鲁棒性,能够应对一定程度的文本修改攻击。
总结
无偏水印办法为LLM水印技术提供了一种新的思路。通过新颖的采样策略,该办法在保障生成文本品质的同时,实现了可靠的水印嵌入和检测。这为解决LLM生成实质的滥用问题提供了一种有效的解决方案。
无偏水印技术在维持文本品质的同时,也可能引发一些伦理问题。由于用户无法在不知道创建者私钥的情况下检测水印,这可能导致未经披露的跟踪行为。
在实际运用中,人们应当谨慎、合乎伦理地运用无偏水印办法,并向用户明确说明其存在,工作原理和意义。