机器之能报导
编辑:佳琪、大盘鸡
在人工智能浪潮中,捍卫自己的权力。
当人工智能不断兴起,随之而来的除了惊艳四座的强大技能,还有对技能的质疑以及各种规范的难题。
用什么作为训练数据?能否得到许可?生成实质能否会造成侵权?这些问题都成为了人工智能发展路上必问的问题。涉及的相关案例,在未来也会指导司法实践。
据彭博社报导,《纽约时报》已告状微软和 OpenAI,控告其侵犯版权,违规使用了《纽约时报》的实质用于人工智能开发。这场讼事让人们不得不正视媒介与颠覆性技能之间的关系。
据《纽约时报》的告状书称,这些技能公司使用了数百万篇未经授权的版权文章用于训练 ChatGPT 这样的谈天机器人,而这种自动谈天机器人正在成为人们获取可靠信息的来源,反过来抢新闻媒介的「饭碗」。
《纽约时报》没有说明索赔的具体金额,但指出原告应该对「非法复制和使用《纽约时报》独一无二的宝贵作品」造成的「数十亿美元的法定和实际损害」负责,并要求这两家公司销毁所有使用《纽约时报》版权材料的谈天机器人模型和训练数据。
在多数报纸和杂志都因为读者纷纷转战互联网而步履维艰时,《纽约时报》是少数在线上新闻业务中成功构建商业模式的媒介之一。而在生成式 AI 涌现的时代,传统媒介更面临着全新的挑战。
ChatGPT 登场这一年来,关于其从网上抓取文本作为训练数据的批评声和质疑声一直不绝于耳。今年九月,OpenAI 被美国作家协会控告,ChatGPT 参与了一场「大规模系统性的盗窃」。《纽约时报》的告状是 OpenAI 首次受到一家主流媒介的挑战。OpenAI 曾寻求得到版权方的授权,就像 Google 和 Meta 与 Facebook 的妥协一样。据称,《纽约时报》曾于 4 月份联系了微软和 OpenAI,但未能达成一致。
「如果微软和 OpenAI 想要将我们的作品用于商业目的,法律要求他们首先要获得我们的许可,」《纽约时报》发言人在一份电子邮件声明中说,「但他们没有这样做。」
OpenAI 发言人在一份声明中表示:「我们尊重实质创作者和所有者的权力,致力于与他们合作,以确保他们受益于人工智能技能和新的收入模式。我们与《纽约时报》的持续对话富有成效,并且一直在积极推进,因此,我们对被告状感到惊讶和失望。」微软则拒绝置评。
7 月,OpenAI 与美联社签署了一项协议,获取了该新闻机构的部分档案的版权。12 月份,OpenAI 与 Axel Springer SE 签署了一项为期三年的协议,以使用这家德国媒介公司的工作成果。
本周三,OpenAI 的发言人表示:「我们希望找到一种互惠互利的方式,像我们与许多其他出版机构一样,携手合作。」
即便如此,OpenAI 也已成为多告状讼的目标,实质制作者不满自己的作品被不当用于人工智能训练。该公司面临着喜剧演员 Sarah Silverman、《权力的游戏》作者 George R.R. Martin 和普利策获奖作家 Michael Chabon 等文化名人的集体诉讼。
《纽约时报》的胜算
多家科技公司的首席法律顾问 Cecilia Ziniti 总结了《纽约时报》的制胜点。她称这场讼事是迄今为止控告生成式人工智能侵犯版权的最佳样本。
首先,申诉书明确指出了原告方的侵权行为。原告有机会接触到原作,并且原告和原告之间的作品存在「实质性相似」。这两点是判定能否存在侵权行为的关键。而《纽约时报》是用于训练 GPT 的 Common Crawl 中最大的专有数据集,证明 ChatGPT 的输出和《纽约时报》的实质既存在接触途径,也存在「实质相似」。
其次,申诉书中提供了一看就懂的剽窃证据。下图中,红色是完全重合的文本,黑色是 GPT 新生成的文本,大量重复将一目了然。Ziniti 认为,除非 OpenAI 对 GPT 训练方式作出大调整,或者通过大量的法律手段说明技能原理,否则 OpenAI 根本无力辩护。选择妥协比继续对抗更加明智。
《纽约时报》的聪明之处还在于他们突出了一篇新闻报导的原创过程。一篇调查出租车贷款的深度报导的背后是记者四处走访,采访 600 余次的不懈努力。版权法守护的虽然不是劳动者「额头上的汗水」,但它守护原创者的智慧和创造力。对比 GitHub Copilot 被超过一千万名程序员告上法庭时,他们只引用了几行开源代码,这个保护创新的说服力就没那么强。(注:额头汗水是一个著作权保护法的著名案子,美国联邦最高法院在「费斯特案」中认为只保护人类「额头上的汗水」—— 劳动,这种思路将损害著作权法的基本原理)
此外,4 月份,OpenAI 和《纽约时报》谈判破裂后,获得了《政客报》等其他媒介的授权,这对《纽约时报》的利益造成了损害。随着 OpenAI 的市值增长和越来越多的剽窃案例出现,拒绝与《纽约时报》妥协,OpenAI 可能会付出高昂的代价。Ziniti 对 4 月份的谈判作出了大胆推测:OpenAI 方认为他们可以用几百万或几千万美元来摆脱困境,而《纽约时报》想要的更多,以及持续的版税。
据分析,「CloseAI」的不利形象也将对 OpenAI 面对控告产生影响。《纽约时报》将 OpenAI 描述成一个以盈利为目的的闭源组织,这与为公共利益服务的新闻业形成了巨大的对比。审判需要权衡版权保护与技能创新两者带来的社会效益。在版权案件中,「正义与邪恶」的斗争一直都是争议的焦点。而代表正义一方的叙事在法庭上往往更容易奏效。申诉书中还提到了 OpenAI 董事会和 Sam Altman 的「宫斗戏」,不知道「连续剧」能否为 OpenAI 的形象蒙尘。
最后,人们对大模型幻觉问题的恐惧会让案情更加跌宕起伏。《纽约时报》控告 Bing 称《纽约时报》发表了一篇名为「橙汁导致淋巴瘤」的文章,但实际上《纽约时报》从来没写过这篇报导。这无疑将 OpenAI 置于更加不利的地位。
这场讼事可能是人工智能和版权领域的一个转折点。
后续影响
据彭博社上周报导,OpenAI 目前正在与投资者洽谈新一轮融资,估值将达到 1000 亿美元,这将使其成为美国估值第二高的初创企业。
微软是 OpenAI 最大的支持者,并在其多个产品中部署了这家初创公司的 AI 工具。在诉讼中,《纽约时报》称微软在其必应搜索引擎中逐字剽窃了该报的文章,并利用 OpenAI 的技能将其价值提升了一万亿美元。
自 2022 年 11 月 ChatGPT 首次亮相以来,微软股价已上涨 55%,市值增至 2.8 万亿美元。周三,微软股价变化不大,在纽约以 374.07 美元收盘。接下来,微软的股价能否会有大的变动,还未可知。
Abacus.AI CEO Bindu Reddy 发文表示,或许最后获益最大的是像 Gork 这样的产品。毕竟,通过允许用户在其平台上发布实质,他们就能获得用这些实质训练人工智能模型的权力。
其实,在文生图领域这样的难题也照样存在。甚至有用户表示,不想再看到 AI 生成图像的推荐了,并以「尸块」拼接定义 AI 作画。
事实上,文生图工具 Dall・E 3 在发布时就格外注意安全与版权问题。OpenAI 为避免像 Stability AI 和 Midjourney 一样被诉讼,允许艺术家将其艺术作品从文本到图像 AI 模型中删除,不用于训练。创作者可以提交一张他们拥有版权的图片,并在网站上填写表格要求将其移除。但这样的措施能否能够完全保护创作者的权力不被侵犯,依旧是个问题。
参考链接:
https://www.bloomberg.com/news/articles/2023-12-27/new-york-times-sues-microsoft-and-openai-for-copyright-infringement?srnd=technology-vp
https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html
🧵 The historic NYT v. @OpenAI lawsuit filed this morning, as broken down by me, an IP and AI lawyer, general counsel, and longtime tech person and enthusiast.
Tl;dr – It's the best case yet alleging that generative AI is copyright infringement. Thread. 👇 pic.twitter.com/Zqbv3ekLWt
— Cecilia Ziniti (@CeciliaZin) December 27, 2023
In the New York Times OpenAI lawsuit, you can see how complex the relationship of training data to output can be. On one hand, they find that you can induce ChatGPT to produce exact content from famous Times articles, on the other, they show it also hallucinates false articles. pic.twitter.com/cY7cyZjd8r
— Ethan Mollick (@emollick) December 27, 2023
NYT just sued OpenAI over copyright claims!
Media and tech companies have been fighting for years about content creation and copyright!
Original content creation is non trivial and generally costs money! Traditionally, tech companies have benefited from other people’s content…
— Bindu Reddy (@bindureddy) December 27, 2023