没有授权也没关系?多家 AI 公司被曝绕过网络标准抓取新闻出版商网站内容

据路透社上周六报道,专注于“内容许可”领域的初创公司 TollBit 近日向新闻出版商发出警告称,多家人工智能公司正在规避出版商用来阻止抓取内容的常见网络标准,并将抓取的内容用于训练生成式 AI 系统。这一消息是在 AI 搜索初创公司 Perplexity 与媒体《福布斯》之间就同一网络标准公开争执的背景下发出的。当前,科技和媒体公司之间正在就生成式 AI 时代的内容价值展开更广泛的辩论。Tollbit 将自己定位为内容匮乏的 AI 公司与愿意与他们达成重大许可协议的出版商之间的“媒人”。IT之家注:《福布斯》曾指

据路透社上周六报道,专注于“内容许可”领域的初创公司 TollBit 近日向新闻出版商发出警告称,多家人工智能公司正在规避出版商用来阻止抓取内容的常见网络标准,并将抓取的内容用于训练生成式 AI 系统

这一消息是在 AI 搜索初创公司 Perplexity 与媒体《福布斯》之间就同一网络标准公开争执的背景下发出的。当前,科技和媒体公司之间正在就生成式 AI 时代的内容价值展开更广泛的辩论。

Tollbit 将自己定位为内容匮乏的 AI 公司愿意与他们达成重大许可协议的出版商之间的“媒人”。

IT之家注:《福布斯》曾指责 Perplexity 在 AI 生成的摘要中剽窃其报道内容,然而前者并未标注消息来源,也没有获得《福布斯》的许可。

另外,《连线》(Wired)杂志上周也发表了一篇调查报道并指出,Perpexity 可能绕过了(新闻出版商设置的)“机器人排除协议(Robots Exclusion Protocol)”或其他阻止网络爬虫的程序。

没有授权也没关系?多家 AI 公司被曝绕过网络标准抓取新闻出版商网站内容

图源 Pexels

自称代表 2000 多家美国出版商的贸易组织“新闻媒体联盟”也对这一行为表示担忧 ——AI 公司对出版商设置的“禁止抓取”机制或“robots.txt”等工具置若罔闻。该组织主席 Danielle Coffey 表示,“如果 AI 公司无法停止大规模抓取的话,我们就无法通过有价值的内容获利,也无法为记者们支付报酬。”

Tollbit 表示,Perplexity 并不是唯一无视出版商网站“禁止抓取”机制的违规者。根据其分析,“大量”AI 平台绕过了这一机制,而该机制为 AI 平台抓取自家内容设置了一份“白名单”—— 指示其网站哪些部分可以被抓取。

“这意味着,来自多个来源(而不仅仅是一家公司)的 AI 平台正在选择绕过 robots.txt 协议来从网站中检索内容,”TollBit 写道,“我们获取的出版商日志越多,这种模式出现的次数就越多。”

包括《纽约时报》在内的一些出版商已就这些侵权行为起诉 AI 公司。其他出版商则与人工智能公司签署了许可协议,AI 公司们也愿意为内容付费,尽管双方往往对材料的价值存在分歧。许多 AI 开发者认为,他们免费获取内容并未违反任何法律

相关资讯

消息称谷歌和 Meta 为训练 AI,砸钱向好莱坞电影公司购买内容

感谢AI 时代主要挑战之一,就是如何合法获取内容来训练模型,因此很多 AI 公司开始砸钱来买受版权保护的内容。在 OpenAI 和新闻集团签署多年合作之后,最新消息称 Meta 和谷歌母公司 Alphabet 正寻求和好莱坞电影公司达成协议,使用其相关内容。消息称两家巨头公司已经接触洽谈了多家好莱坞电影公司,涉及的交易高达数百万美元。这些交易可以这两家公司获得授权的视频内容,以训练他们的人工智能模型。IT之家援引该消息源,Netflix、迪斯尼和华纳兄弟等电影公司都曾参与其中。前两家都不太愿意加入,不过也没有断然拒

未经许可重复使用原创文章训练模型,OpenAI 遭美国 8 家报纸出版商起诉

感谢据 CNBC 报道,当地时间 4 月 30 日,8 家美国报纸出版商在纽约的一家联邦法院对微软、OpenAI 提起诉讼,声称后者未经许可在生成式 AI 产品中重复使用这些出版商创作的文章,还将信息的不准确性归咎于出版商本身。图源 Pixabay根据 8 家出版商向美国纽约南区地方法院提交的诉状,ChatGPT 一直在“未经许可、未付款”的情况下,盗用了出版商数百万篇受版权保护的文章。IT之家查询发现,参与诉讼的出版商包括《纽约每日新闻》《芝加哥论坛报》《奥兰多哨兵报》《佛罗里达太阳哨兵报》《圣何塞水星报》《丹佛

美国新闻媒体联盟致信贸易委员会、司法部,要求调查谷歌在新闻领域的垄断行为

美国“新闻 / 媒体联盟”(News / Media Alliance)本周致信美国联邦贸易委员会和美国司法部,敦促两部门调查谷歌垄断数字新闻出版的行为,并要求阻止谷歌通过其“无处不在”的搜索产品中使用生成式 AI 进行进一步扩张。“新闻 / 媒体联盟”关注的焦点是谷歌最新推出的“AI Overviews(AI 概述)”,并声称这一功能擅自利用出版商内容对用户的查询作全面回应,因而引起人们的警惕。该机构表示,谷歌通过利用出版商的专有资料,不仅有可能使内容创作者失去重要的流量,还破坏了数字新闻传播的基本完整性。“新闻