虽然提醒词只是要生成「动画版的玩具」,但结果和《玩具总动员》没有区别。
不久之前,《纽约时报》指控 OpenAI 涉嫌违规应用其实质用于人工智能开发的事件引起了社区极大的关注与讨论。
GPT-4 输入的许多回答中,几乎逐字逐句地剽窃了《纽约时报》的报道:
图中红字是 GPT-4 与《纽约时报》报道重复的部分。
对此,各个专家分别有不同的看法。
机器学习领域权威学者吴恩达对 OpenAI 和微软表示了同情,他怀疑 GPT「存在剽窃」的原因并不只是模型训练集应用了未经授权的文章,而是来自类似于 RAG(检索增强生成)的机制。ChatGPT 浏览网络以搜索相关信息,并下载了一篇文章来回答用户的课题。他发现,没有 RAG 类似机制的 LLM,在预训练中的输入通常是对输入的转换,几乎从未逐字逐句地「剽窃」。
而纽约大学教授 Gary Marcus 有不同的观点,他说在视觉生成领域的「剽窃」和 RAG 毫不相干。
他在近日 IEEE Spectrum 发表的文章中,明确指出「Generative AI Has a Visual Plagiarism Problem」。
下面,就让我们看下这篇文章讲了什么。
LLM 对其训练数据的「记忆力」长期以来一直是个课题。最近的实证研究表明,在某些情形下,LLM 能够再现,或者在稍作修改的情形下再现其训练集中的大量文本。
例如,Milad Nasr 等研究者在 2023 年发表的一篇论文中提出,LLM 可以在输入某些提醒词时泄露如邮件和电话号码等私人信息。来自谷歌 Deepmind 的 Carlini 也在最近的研究中得出了较大的聊天机器人模型有时会逐字逐句地反刍大量文本,小模型则未出现此现象。
最近《纽约时报》指控 OpenAI 涉嫌违规应用其实质用于人工智能开发,《纽约时报》提供的申诉书中提供了大量重复剽窃证据。
Marcus 称这种近乎逐字逐句的输入为「剽窃输入」。如果这些实质的作者是人类,那么肯定会被认定是剽窃。虽然无法计算出「剽窃输入」出现的频率,或者剽窃在什么情形下发生。但是这些直观的结果为「生成式人工智能系统能够会剽窃」提供了强有力的证据。即应用户没有直接要求 AI 这么做,也面临版权方的侵权索赔。
人工智能的剽窃课题说不清,也道不明,其原因在于 LLM 对于人类来说还是「黑匣子」。我们不完全了解输入(训练数据)和输入之间的关系,输入也能够在某一时刻发生不可预测的变化。「剽窃输入」普遍出现的能够很大程度上取决于模型的大小和训练集等具体因素。
由于 LLM 的黑匣子特性,关于「剽窃输入」的课题只能通过实验来验证。这些实验能够也只能得出一些不确定的结论。
然而但「剽窃输入」引发了许多重要课题,在技术方面,能否能够通过技术手段来避免「剽窃输入」?在法律层面,这些输入能否构成加害版权?在实际应用中,用户 LLM 生成实质时,能否有方法可以让不希望侵权的用户确信他们没有侵权?
《纽约时报》和 OpenAI 的诉讼案对生成式人工智能领域未来的发展具有关键影响。
在计算机视觉领域,剽窃课题依然存在。模型能否也能基于受版权保护的图片,产生「剽窃输入」呢?
Midjourney v6 中的剽窃视觉输入
Marcus 的答案是肯定的,甚至不需要直接向模型输入剽窃的提醒。
只需给出与某些商业影戏相关的简短提醒,Midjourney v6 就能生成许多「剽窃输入」。从下面的例子中,可以发现,Midjourney 生成的图片与《复仇者联盟》、《沙丘》等知名影戏还有电子游戏中的镜头几乎完全相同。
他们还发现了,卡通角色特别容易被复制,正如下面的《辛普森一家》,即使输入的提醒词是「90 年代流行的黄皮肤的动画」,完全与《辛普森一家》无关,但生成结果和原动画看不出什么区别。
根据这些结果,几乎可以肯定 Midjourney V6 是基于受版权保护的资料上训练的。目前尚不清楚 Midjourney V6 能否获得了版权方的许可,但 Midjourney 可用于加害原作者权利的创造。
在上述许多示例中,本文作者验证了 Midjourney 可以故意复制受版权保护的素材,但还未确定:在不故意的情形下,能否有人因此而加害了版权。
在《纽约时报》的诉讼中,其中有一点很引人注目。如下图所示,《纽约时报》提供的证据表明,在不应用「您能否以《纽约时报》的风格撰写关于某某的文章」的提醒词,而是通过给出文章前几个字,GPT-4 还是给出了和原文一模一样的回答。这表明模型可以在不故意剽窃的情形下引发「剽窃输入」。
t few words of an actual article.
当给提供了一篇《纽约时报》的文章的前几个词时,它输入了看似存在剽窃的回答。
在视觉生成领域中,这个课题的答案也是肯定的。在下面展示的例子中,他们没有在提醒词中涉及《星球大战》或者角色,但是 Midjourney 却生成了达斯・维德、卢克・天行者、R2-D2 等家喻户晓的经典形象。
《玩具总动员》、小黄人、索尼克、马里奥,这些耳熟能详的大 IP 也没能逃过「无意识的剽窃输入」。
即使没有直接提名,Midjourney 生成了这些辨识度很高的影戏和游戏角色的相关图象。
在没有直接指示的情形下唤出影戏般的画面
在第三个实验中,Marcus 等人探索了 Midjourney 能否在没有提醒词的情形下,输入和影戏原出处相似的整个影戏帧。同样,这个课题的答案是肯定的。
最终,他们发现,在输入「screencap」的提醒词时,即使没有输入任何具体的影戏,角色或者演员,但是却产生了明显的侵权实质。以下图片都是应用「screencap」作为提醒,Midjourney 生成了与影戏中的一帧极其相似的结果。
虽然 Midjourney 能够会很快修补这个特定的提醒词,但 Midjourney 产生潜在侵权行为的能力是显而易见的。Marcus 和他的同伴发现了以下被「剽窃」的受害者,更多影戏、演员和游戏的名单将在他们的 YouTube 频道发布。
Midjourney 的剽窃课题
通过以上的实验,可以得到如下结论:Midjourney 违规应用了受版权保护的素材训练模型,一些生成式人工智能系统能够会产生「剽窃输入」,即使提醒词不涉及剽窃行为,也能够应用户面临版权侵权索赔。最近的新闻也支持同样的结论。Midjourney 最近收到了 4700 多名艺术家的联合起诉,因为 Midjourney 在未经同意的情形下应用了他们的作品用于训练 AI。
Midjourney 的训练数据中有多少是未经许可应用的版权资料?尚未可知。该公司对其原始资料以及哪些资料获得了适当许可都未公开。
事实上,该公司在一些公开评论中对剽窃课题持不屑一顾的态度。当 Midjourney 的首席执行官接受《福布斯》杂志采访时,对版权相关的课题回答道:「没有一种方法可以在获得一亿张图片的同时知道它们的来源。」
如果未获得原素材许可,能够会使 Midjourney 面临来自影戏工作室、视频游戏发行商、演员等的大量诉讼。
版权和商标法的要点是限制未经授权的商业再应用,以保护实质创作者。由于 Midjourney 收取订阅费,并且可以被视为与视觉实质工作室的竞争者,这能够是版权方的起诉原因。
Midjourney 显然试图压制 Marcus 的发现。在他发布了一些实验结果后,文章被 Midjourney 要求撤稿。
但是并非所有应用受版权保护素材的行为都是非法的。例如,在美国,如果应用时间短,或素材被用于批评、评论、科学评估或模仿,那么应用未经授权的素材是被允许的。Marcus 认为 Midjourney 能够在诉讼中依靠这些论据。
更糟糕的是,Marcus 发现有证据表明 Midjourney 的一名高级软件工程师在 2022 年 2 月参与了一场关于如何通过「通过微调代码」来「洗白」数据以逃避版权法的对话。
另一名不能确定能否为 Midjourney 工作的参与者随后说:「在某种程度上,在版权法看来,真的无法追踪什么是衍生作品。」
就 Marcus 所知,Midjourney 被惩罚,做出赔偿的能够性很大。有消息人士称,Midjourney 能够创建了一个很长的艺术家名单,为他们支付没有获得许可将其作品用于训练的报酬。
此外,Midjourney 对 Marcus 的合作者进行了封号,在他创建小号后依旧禁止他访问。
随后,Midjourney 更改了其服务条款,加入了:「您不得应用该服务试图加害他人的知识产权,包括版权、专利或商标权。这样做能够会使您受到包括法律诉讼或永久禁止应用该服务等处罚。」的提醒语。
这一修改通常是阻碍甚至排除对生成式 AI 限制进行安全调查的常见做法,这种做法是几家大型 AI 公司在 2023 年与白宫达成的协议中承诺的一部分。
除此之外,Marcus 并不认为 Midjourney 是目前的图象生成 AI 中能生成最精细结果的软件。因此,他们还提出了「随着能力的提高,AI 创造剽窃图象的倾向能否会增加」的猜想。
根据已有研究者在文本输入领域的研究表明,这能够是真的。凭直觉而言,系统掌握的数据越多,它就越能掌握统计的相关性,但也能够越容易精确地重建训练集中的数据。如果这种猜测是正确的,那么随着生成式人工智能公司收集的数据越来越多,模型越来越大,那么模型也能够更具剽窃性。
DALL・E 3 的剽窃
与 Midjourney 一样,即使没有有指向性的具体提醒词, DALL・E 3 也能够创建近乎与原作完全的复制品。
如下图所示,通过以下简单的提醒词:「动画玩具」, DALL・E 3 就创建了一系列潜在的侵权作品。
与 Midjourney 一样,OpenAI 的 DALL・E 3 似乎也借鉴了大量受版权保护的来源。OpenAI 似乎非常清楚其软件能够加害版权的事实,并在去年 11 月提出为用户的版权侵权诉讼提供赔偿。考虑到 Marcus 发现的侵权规模,OpenAI 似乎要「大出血」。
同时,也有人猜测 OpenAI 一直在实时地更改其系统,以排除 Marcus 的文章中揭露的某些行为。
解决大模型「剽窃的课题」有多难?
能够的解决方案:移除版权资料
最干净的解决方案是在不应用受版权保护的资料的情形下重新训练图象生成模型,或者限制训练仅限于获得适当许可的数据集。
只在收到投诉后删除受版权保护的资料,类似于 YouTube 上的下架请求,其实施成本非常高。无法以任何简单的方式从现有模型中删除特定受版权保护的资料。大型神经网络不是数据库,其中可以轻松删除违规记录,每次「下架」几乎相当于重新训练。
因此,生成式 AI 公司能够希望修补其现有系统,来限制某些类型的查询和某些类型的输入。如下图所示,他们已经看到了一些迹象,但这注定是一场艰苦的战斗。
OpenAI 能够正试图在实时情形下逐个解决这些课题。一位 X 用户分享了一个 DALL・E 3 提醒,该提醒首先生成了 C-3PO 的图象,但 GPT 称无法生成需要的图象。
同时,Marcus 还提供了两种不需要重新训练模型的解决方法。首先是过滤掉能够加害版权的查询。
虽然像「不要生成蝙蝠侠」这样的低级任务可以被过滤掉,但是如下图所示,跨越多个查询的生成结果根本防不住:
经验表明,文本生成系统中的护栏在某些情形下往往过于宽松,而在另一些情形下又过于严格。图象生成能够也面临类似的困难。例如向必应查询「在阳光炙烤下的荒芜风景中有一座厕所」。必应拒绝回答,并返回了一个令人困惑的「检测到不安全的图象实质」的提醒。
此外也有网友发现了如何突破 OpenAI 的实质防护护栏,来让 DALL・E 3 生成部分图象的方法。他们的做法是让提醒词「包括区分角色的具体细节,如不同的发型、面部特征和身体纹理」和「应用颜色暗示原始图象中独特的色调、图案和排列」。
Reddit 上的网友 Pitt.LOVEGOV 分享如何让 ChatGPT 生成布拉德皮特的图象。
Marcus 提供的第二种思路是过滤版权图片来源。
在推特上已经有网友尝试通过让 ChatGPT 和 Google 反向图象搜索识别来源,但这种方法成功率不高,特别是对于数据集中应用的比较新或者作者不是很知名的素材。这种方法的可靠性还有待观察。
重要的是,虽然一些人工智能公司和现状的捍卫者建议过滤掉侵权输入作为补救措施,但这种过滤机制绝不应该是解决方案的全部。根据国际法保护知识产权和人权的意旨,任何创作者的作品都不应未经同意用于商业用途。
更多详细实质,请参阅原博客。
参考链接:
https://spectrum.ieee.org/midjourney-copyright
https://www.deeplearning.ai/the-batch/issue-230/