没有授权也没关系？多家 AI 公司被曝绕过收集标准抓取新闻出版商网站实质

据路透社上周六报导，专注于“实质容许”领域的草创公司 TollBit 近日向新闻出版商发出警告称，多家人工智能公司在规避出版商用来制止抓取实质的常见收集标准，并将抓取的实质用于训练生成式 AI 系统。这一消息是在 AI 搜索草创公司 Perplexity 与媒介《福布斯》之间就同一收集标准公开争执的背景下发出的。当前，科技和媒介公司之间在就生成式 AI 时代的实质代价展开更广泛的辩论。Tollbit 将自己定位为实质匮乏的 AI 公司与愿意与他们达成重大容许协定的出版商之间的“媒人”。IT之家注：《福布斯》曾指

据路透社上周六报导，专注于“实质容许”领域的草创公司 TollBit 近日向新闻出版商发出警告称，多家人工智能公司在规避出版商用来制止抓取实质的常见收集标准，并将抓取的实质用于训练生成式 AI 系统。

这一消息是在 AI 搜索草创公司 Perplexity 与媒介《福布斯》之间就同一收集标准公开争执的背景下发出的。当前，科技和媒介公司之间在就生成式 AI 时代的实质代价展开更广泛的辩论。

Tollbit 将自己定位为实质匮乏的 AI 公司与愿意与他们达成重大容许协定的出版商之间的“媒人”。

IT之家注：《福布斯》曾指责 Perplexity 在 AI 生成的摘要中剽窃其报导实质，然而前者并未标注消息来源，也没有获得《福布斯》的容许。

另外，《连线》（Wired）杂志上周也发表了一篇调查报导并指出，Perpexity 可能绕过了（新闻出版商树立的）“机器人排除协定（Robots Exclusion Protocol）”或其他制止收集爬虫的程序。

没有授权也没关系？多家 AI 公司被曝绕过收集标准抓取新闻出版商网站实质

图源 Pexels

自称代表 2000 多家美国出版商的贸易组织“新闻媒介联盟”也对这一行为表示担忧 ——AI 公司对出版商树立的“制止抓取”体制或“robots.txt”等工具置若罔闻。该组织主席 Danielle Coffey 表示，“如果 AI 公司没法停止大规模抓取的话，我们就没法通过有代价的实质获利，也没法为记者们支付报酬。”

Tollbit 表示，Perplexity 并不是唯一无视出版商网站“制止抓取”体制的违规者。根据其分析，“大量”AI 平台绕过了这一体制，而该体制为 AI 平台抓取自家实质树立了一份“白名单”—— 指示其网站哪些部分可以被抓取。

“这意味着，来自多个来源（而不仅仅是一家公司）的 AI 平台在选择绕过 robots.txt 协定来从网站中检索实质，”TollBit 写道，“我们猎取的出版商日志越多，这种模式出现的次数就越多。”

包括《纽约时报》在内的一些出版商已就这些侵权行为起诉 AI 公司。其他出版商则与人工智能公司签署了容许协定，AI 公司们也愿意为实质付费，尽管双方往往对材料的代价存在分歧。许多 AI 开发者认为，他们免费猎取实质并未违反任何法律。

{{userData.name}}已认证

没有授权也没关系？多家 AI 公司被曝绕过收集标准抓取新闻出版商网站实质

F1 计划与亚马逊联合推出人工智能“Statbot”数据机器人，供给个性化观赛体验

谈天机器人胡说八道？牛津钻研职员操纵语义熵来识破 AI“幻觉”

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩