OpenAI公布「官方爬虫」:GPT-5靠它训练,有需求可以屏蔽

众所周知,OpenAI 从 GPT-4 开始就已经对技术细节完全保密了,最初只用一份 Tech Report 来展示基准测试结果,而闭口不谈训练数据和模型参数。尽管后来有网友各种爆料,OpenAI 也从未回应。

不难想象,训练 GPT-4 需求海量的数据,这可不是付费购买能解决的问题。大概率,OpenAI 用了搜集爬虫。很多用户指控 OpenAI,理由就是这种手段会侵犯用户的版权和隐衷权。

刚刚,OpenAI 摊牌了:直接公布从整个互联网爬取数据的搜集爬虫 ——GPTBot。

这些数据将被用来训练 GPT-4、GPT-5 等 AI 模型。不过 GPTBot 保证了,爬取实质绝对不包括违反隐衷来源和需求付费的实质。

OpenAI 表示:「运用 GPTBot 爬取搜集数据是为了改进 AI 模型的准确性、功能性和安全性。」

网站所有者可以根据需求同意和限制 GPTBot 爬取网站数据。接下来,我们来看下 GPTBot 究竟是如何工作的,顺便了解一下屏蔽方法。

首先,GPTBot 的用户代理字符串(User-Agent String)以下:

User agent token: GPTBot

Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

运用以下方法可以将 GPTBot 添加到网站的 robots.txt,禁止 GPTBot 会见网站:

User-agent: GPTBot

Disallow: /

还可以同意 GPTBot 会见网站特定部分的实质:

User-agent: GPTBot

Allow: /directory-1/

Disallow: /directory-2/

近期,OpenAI 因为未经明确批准而在网站数据上训练 GPT-4 等大型语言模型而遭到强烈反对。批评者们表示,即使实质可以公开会见,像 OpenAI 这样的公司也应该按照训练协议。人们还担心,实质在输入 AI 系统时会被断章取义。

但即使按照了 robots 协议,鉴于其并不是规范,而只是约定俗成的,所以并不能保证网站的隐衷。

GPTBot 发布之后,这条动态已经在 Hacker News 上激励了一场争吵,核心是运用抓取的搜集数据来训练人工智能系统的道德和合法性。

一部分人以为,GPTBot 的推出展示了运用公开数据研发 AI 模型的「灰色地带」:

「在训练完模型后还爬取数据,这真是太好了。根据推测,这些 header 不会影响他们已经抓取来训练 GPT 的任何页面。」

「现在,他们可以游说反抓取的监管并阻碍其他任何的追赶了。」

OpenAI公布「官方爬虫」:GPT-5靠它训练,有需求可以屏蔽

鉴于 GPTBot 会识别自己的身份,因此网站管理员可以通过 robots.txt 阻止它,但有些人以为同意它这样做没有任何好处,不像搜索引擎爬虫会带来流量。

一个值得关注的问题是,受版权保护的实质会在未注明发源的情况下被运用。ChatGPT 目前没有注明发源。

OpenAI公布「官方爬虫」:GPT-5靠它训练,有需求可以屏蔽

还有人质疑 GPTBot 如何处理网站上的授权图片、视频、音乐和其他媒介。如果这些媒介在模型训练中用到,则可能构成版权侵权。

另外一些专家以为,如果 AI 编写的实质被反馈到训练中,爬虫生成的数据可能会降低模型的性能。

相反,一些人以为 OpenAI 有权自由运用公共搜集数据,并将其比作一个人从在线实质中学习。但也有人以为,如果 OpenAI 将搜集数据货币化以获取商业利益,那么就应该分享利润。

总之,GPTBot 激励了关于所有权、合理运用和搜集实质创建者激励机制的复杂争吵。虽然按照 robots.txt 是一个很好的步骤,但仍然缺乏透明度。

这或许是科技界下一个舆论核心:随着 AI 产品的快速发展,「数据」到底该怎么用?

参考链接:

https://searchengineland.com/gptbot-openais-new-web-crawler-430360

https://platform.openai.com/docs/gptbot

https://news.ycombinator.com/item?id=37030568

https://www.searchenginejournal.com/openai-launches-gptbot-how-to-restrict-access/493394/#close

给TA打赏
共{{data.count}}人
人已打赏
AI

类似 ChatGPT 的人工智能即将出现在主要迷信搜刮引擎中

2023-8-6 19:59:00

AI

2022玻尔兹曼奖公布:两位获奖者,Hopfield网络提出者在列

2023-8-8 14:31:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索