AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

就算是 OpenAI 在舆论场也无法逃过版权保护的呼声。GPT-4o内置声音模仿「寡姐」一案闹的沸沸扬扬，虽然以OpenAI发布声明暂停运用疑似寡姐声音的「SKY」的语音、否认曾侵权声音为阶段性结束。但是，一时间「即便是AI，也得保护人类版权」这一话题甚嚣尘上，更刺激起了人们本来就对AI是否可控这一现代迷思的焦虑。近日，普林斯顿大学、哥伦比亚大学、哈佛大学和宾夕法尼亚大学共同推出了一项关于生成式AI版权保护的新方案，题为《An Economic Solution to Copyright Challenges of

就算是 OpenAI 在舆论场也无法逃过版权保护的呼声。

GPT-4o内置声音模仿「寡姐」一案闹的沸沸扬扬，虽然以OpenAI发布声明暂停运用疑似寡姐声音的「SKY」的语音、否认曾侵权声音为阶段性结束。但是，一时间「即便是AI，也得保护人类版权」这一话题甚嚣尘上，更刺激起了人们本来就对AI是否可控这一现代迷思的焦虑。

近日，普林斯顿大学、哥伦比亚大学、哈佛大学和宾夕法尼亚大学共同推出了一项关于生成式AI版权保护的新方案，题为《An Economic Solution to Copyright Challenges of Generative AI》。

AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

论文链接：https://arxiv.org/abs/2404.13964

生成式人工智能（AI）技术的快速进展已经深刻影响了文艺产业，带来了文学、视觉艺术和音乐等领域中由AI生成的实质时代。这些AI模型如大型语言模型和扩散模型能够创作出能够与人类艺术家的作品媲美乃至大概取代的高复杂性实质。

这类能力的迅速增长引发了关于大模型训练数据作者权利的法律和道德界限的重要问题，特别是在版权侵犯方面的争议。

版权保护一直以来都是各国法律中不可或缺的一部分。保护创作者的权益，可以更有利于调动创作者的积极性，使得文化事业更加繁华。版权保护为创作者不止提供了精神支持，也同时提供了物质支持（利益调配），这也是为创作者进一步提供了再创作的物质基础和精神动力。

另一方面，版权保护也更利于优秀作品的传播，因为版权保护也是在保护传播者的正当权益和保护公众对于分享知识文化成果的权利。诚然，一部作品的诞生，不是为了孤芳自赏，更多的是为了以某种形式分享给大众，为大众所用。而且, 版权保护也可以让创作者更加合理地运用他人的结果，避免引发剽窃等诸多麻烦。

因此，目前有几家AI公司因涉嫌生产侵犯版权的实质而卷入法律诉讼。比如说《纽约时报》起诉 Chatgpt的开发者 OpenAI [1]，控诉后者将数百万篇《纽约时报》的文章被用于训练智能聊天机器人（例如ChatGPT ）。这些机器人现在作为新闻消息源与《纽约时报》展开竞争。

《纽约时报》声称，OpenAI和微软大型语言模型 (LLM)能够模仿《纽约时报》的文字风格从而生成类似实质，有时候甚至能原封不动生成已有的实质，这类现象影响到《纽约时报》通过订阅和广告获得收入，并且有违版权许可。

起诉书中，《纽约时报》提及到一个例子 – 微软的「以必应浏览（Browse With Bing）」中的功能，能够几乎一字不差地重现《纽约时报》旗下网站「The Wirecutter」的实质，但完全没有为提供相关的链接进行引用。这个例子充分体现了AI 非法运用版权实质。

目前，针对OpenAI的类似诉讼案件正在不断增加，例如近来GPT-4o内置声音模仿「寡姐」一案 [2]。但由于对于AI 非常运用版权实质难以界定，诉讼案件尚在激烈讨论中。

AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

图1：NY Times指控ChatGPT生成实质和NY Times文章高度一致。

这类不确定性大概导致双方在法庭争议中浪费大量资源。

因此，需要一种新的框架来公平合理地处理这些新出现的版权问题，确保在鼓励创新的同时，也保护数据提供者的合法权益。

AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

图2：该工作被Ethan Mollick宣传。

Shapley版权分享框架

该文章的框架分为两步：

第一步是评价模型在整个数据集的每一个大概子集上训练的效率。直观上，如果在某数据子集上训练的模型能够有很大的大概性生成与部署模型相似的AI生成实质（例如艺术作品），那么该数据子集的效率就会很大。

图3：基于Shapley值的版权调配框架。

不同数据源组合的效率

该反事实模型生成同一实质 AI训练数据的版权保护:公地的悲剧还是合作的繁荣? 的概率密度函数由表示。对于生成模型生成的实质，一个子集的效率最容易反映在该反事实模型生成目标实质的概率。当比较不同模型时，可以通过生成目标实质的概率比例衡量它们之间的效率差距。

因此，该文章定义此模型对实质的 AI训练数据的版权保护:公地的悲剧还是合作的繁荣? 效率为，这样可以直接根据来比较两个数据集之间的效率。

这类效率提供了一种衡量数据源S在生成实质方面的责任程度的方式。如果反事实模型不太大概生成与部署模型相同的实质，其效率就小，反之亦然。

Shapley值是博弈论中的一个解决方案概念，它提供了一种根据每一个玩家组合作为联盟的效率调配收益的原则性步骤。它是由诺贝尔奖获得者Lloyd Shapley (此后简称为Shapley) 提出的。

Shapley （1923-2016）是美国籍数学家和经济学家，并且由于对稳定调配理论和市场设计的实践做出突出进献，而获得了2012年的经济学诺贝尔奖 [3]。Shapley是博弈论领域的传奇，并且在其博士工作和博士论文中引入了Shapley值。

美国经济学会称Shapley是「博弈论和经济学理论的巨人」。

AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

Shapley值的具体盘算如下：

参与者i的Shapley值盘算为其在所有大概联盟中边际进献的加权平均：

AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

Shapley值是唯一满足几个重要经济属性的支付规则，并在机器学习模型的数据估值中获得了普及。利用Shapley值，该文章提出运用SRS（Shapley Royalty Share）来盘算版权调配。

SRS定义如下：

AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

SRS提供了一种经济学步骤解决生成式AI环境中的版权和收益调配问题，支持公正的数据运用和创新激励。

该文章用一个简单的例子来解释Shapley值的盘算过程。在这个例子中，有三个数据所有者（A, B, C），他们共同训练一个模型，运用模型对某生成实质的log-likelihood作为效率函数。假设运用不同的数据组合训练后的模型的log-likelihood如下：

AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

可以根据以下量来盘算A的Shapley值：

数据所有者A单独进献：v({A})=5

数据所有者A和B的进献：v({A,B})-v({B})=15-7=8

数据所有者A和C的进献：v({A,C})-v({C})=10-3=7

数据所有者A、B和C的进献：v({A,B,C})-v({B,C})=20-12=8

根据Shapley值公式，可以得到

AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

盘算考虑

为了减轻这类盘算负担，可以采用两种步骤：

实验结果

该文章通过实验评价了所提出框架在调配AI生成实质版税方面的有效性，重点关注创意艺术和图象领域的标志设计。

评价运用了公开可获取的数据集：WikiArt和FlickrLogo-27。

评价SRS的有效性

对于WikiArt数据集，该文章选取了四位著名艺术家的四个不相交的画作子集。一个最初在更广泛的训练图象集（不包括这四位艺术家的作品）上训练的模型，作为基础模型。通过在选定艺术家的四组画作的各种组合上进一步微调基础模型，盘算SRS。

AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

结果表明，当 AI训练数据的版权保护:公地的悲剧还是合作的繁荣? 的风格与训练数据源的风格非常接近时，SRS值最高。这一关系凸显了SRS框架准确归因于AI生成图象创作进献的能力。

评价SRS对于混合风格的生成图象的归因能力

在WikiArt数据集上，该文章探讨了针对要求从多个数据源生成实质的提示的SRS分布。显著地，提示要求生成模型融合多位艺术家的风格。SRS有效地识别并奖励了融入生成艺术作品的数据源的进献，展示了该框架在辨识和评价多样化数据源输入以生成实质的能力。

AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

讨论与深入研究

该文章已经通过采用合作博弈理论中的权限结构概念来初步适应这类情况。

在这类情况下，半值（一种放弃效率公理的Shapley值推广）大概提供了一个可行的替代方案。未来的工作可以旨在建立公理化的理由，以识别此背景下用于版税调配的最合适的解决方案概念。

从实用性的角度讲，Shapley值最大的不足之处在于盘算开销。尽管Monte Carlo步骤可以加速盘算过程，但仍需要大量的模型重复训练。这类盘算需求在处理大型数据集和复杂模型时变得尤其突出，大概导致盘算资源的极大消耗和时间的延长。

未来的工作可以着重于解决这一问题，通过开发更高效的算法或启用新的步骤来减少盘算开销，从而使Shapley值在实际应用中更加可行和高效。

作者介绍：

1. Jiachen Wang （王嘉宸）：现为普林斯顿大学电子工程系博士生，主攻人工智能数据估值（data valuation）等偏向。

2. Zhun Deng (邓准)：现为哥伦比亚大学盘算机系博后，博后导师为 Richard Zemel。此前为哈佛大学盘算机系博士生，师从Cynthia Dwork，主攻机器学习可靠性和社会责任性等偏向。

3. Hiroaki Chiba-Okabe：现为宾夕法尼亚大学应用数学和盘算科学博士生，主攻偏向是人工智能引发的道德问题和社会问题。

4. Boaz Barak: 哈佛大学正教授，主攻偏向理论盘算机和机器学习偏向。同时在OpenAI 任职。

5. Weijie Su (苏炜杰)：现为宾夕法尼亚大学沃顿商学院、盘算机系和数学系副教授，研究偏向包括人工智能的理论基础等偏向。

参考链接：

[1]https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html

[2] https://world.huanqiu.com/article/4HuwDTOteIL

[3] https://en.wikipedia.org/wiki/Shapley_value

{{userData.name}}已认证

AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

英伟达 Jim Fan：具身智能的难点不是硬件，而是「Foundation Agent」

单个4090可推理，2000亿稀疏大模型「天工MoE」开源

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

快手预告“可灵 AI”导演共创计划作品 12 月 6 日上线：联合李少红、贾樟柯、叶锦添、薛晓路等

关于LLM-as-a-judge范式，终于有综述讲明白了

ChatGPT遇到这些人名开始自闭，OpenAI回应了

李飞飞「世界实验室」重磅推出 AI“造物主”：一张图片生成 3D 世界“任意门”

字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片

平安人寿ChatBI：大模型智能化报表的深度实践

李飞飞空间智能首秀：AI靠单图生成3D世界，可探索，遵循基本物理几何规则