OpenAI、google双标玩得溜:训练大模型用他人数据,却决不答应自身数据外流

你的就是我的,我的还是我的。

同时,随着大语言模型(LLM)成为 AI 发展的主流趋势,无论是庞大还是初创公司,都在不遗余力地开发自己的大模型。其中训练数据是大模型能力好坏的重要前提。

近日,根据 Insider 的报道,微软支持的 OpenAI、google及其支持的 Anthropic 多年来一直在运用其他网站或公司的在线实质来训练他们的生成式 AI 模型。这些都是在没有征求具体许可的情况下完成的,并将构成一场酝酿中的法律斗争的一部分,决定了收集的未来以及版权法在这一新时代的应用办法。

OpenAI、google双标玩得溜:训练大模型用他人数据,却决不答应自身数据外流

这些庞大科技公司可能会争辩说他们是合理运用,是否真的如此有待商榷。但是他们却不会让自己的实质被用来训练其他 AI 模型。所以不禁要问,为什么这些庞大科技公司却能在训练大模型时运用其他公司的在线实质呢?

这些公司很聪明,但也非常虚伪

庞大科技公司运用他人在线实质却不答应他人运用自己的,这种说法是否有确切证据,这可以从他们一些产品的效劳和运用条目中看出端倪。

首先来看 Claude,它是 Anthropic 推出的类似于 ChatGPT 的 AI 助手。该系统可以完成摘要总结、搜索、协助创作、问答、编码等任务。前段时间再次升级,将上下文 token 扩展到了 100k,处理速度大大加快。

OpenAI、google双标玩得溜:训练大模型用他人数据,却决不答应自身数据外流

Claude 的效劳条目是这样的。你不得以下列办法(这里列举出部分)访问或运用本效劳,如果这些限制的任何一项与可接受运用政策不一致或不明确,则以后者依从为先:

开发与我们的效劳竞争的任何产品或效劳,包括开发或训练任何 AI 或机器学习算法或模型

未经条目答应,从我们的效劳中抓取、爬取或以任何其他办法获取数据或信息

Claude 效劳条目地点:https://vault.pactsafe.io/s/9f502c93-cb5c-4571-b205-1e479da61794/legal.html#terms

同样地,google的生成式 AI 运用条目也是如此,「你不得运用本效劳来开发机器学习模型或相关技术。」

OpenAI、google双标玩得溜:训练大模型用他人数据,却决不答应自身数据外流

google生成式 AI 运用条目地点:https://policies.google.com/terms/generative-ai

OpenAI 的运用条目又怎样呢?与google类似,「你不得运用本效劳的输出来开发与 OpenAI 竞争的模型。」

OpenAI、google双标玩得溜:训练大模型用他人数据,却决不答应自身数据外流

OpenAI 运用条目地点:https://openai.com/policies/terms-of-use

这些公司很聪明,他们知道高质量的实质对于训练新的 AI 模型至关重要,所以不答应别人用这样的办法运用他们的输出也是合情合理的。但他们却无所顾忌地利用他人数据来训练自己的模型,这又该如何解释呢?

目前,OpenAI、google和 Anthropic 拒绝了 Insider 的置评请求,并且没有做出任何回应。

Reddit、推特和其他公司:受够了

实际上,其他公司意识到正在发生的事情时并不高兴。今年 4 月,多年来一直被用于 AI 模型训练的 Reddit 计划开始对其数据的访问收费。

OpenAI、google双标玩得溜:训练大模型用他人数据,却决不答应自身数据外流

Reddit 首席执行官 Steve Huffman 表示,「Reddit 的数据语料库非常有价值,因此我们不能把这些价值免费提供给世界上最大的公司。」

同样今年 4 月,马斯克指责 OpenAI 的主要支持者微软非法运用 Twitter 的数据来训练 AI 模型。「诉讼时间到」,他在推特上写道。

OpenAI、google双标玩得溜:训练大模型用他人数据,却决不答应自身数据外流

不过在回复 Insider 的置评时,微软表示「这个前提有太多的错误,我甚至不知道从何说起。」

OpenAI 首席执行官 Sam Altman 试图通过探索尊重版权的全新 AI 模型来深化这个问题。据 Axios 报道,他于近期表示,「我们正在尝试开发新的模式,如果 AI 系统运用了你的实质,或者运用了你的风格,你就会因此获得报酬。」

OpenAI、google双标玩得溜:训练大模型用他人数据,却决不答应自身数据外流

Sam Altman

出版商(包括 Insider)都会是既得利益获得者。此外,包括美国新闻集团在内的一些出版商已经在推动科技公司付费运用其实质训练 AI 模型。

目前 AI 模型的训练办法「打破」了收集

有前微软高管表示这一定有问题。微软老将、著名软件开发者 Steven Sinofsky 认为,目前 AI 模型的训练办法「打破」了收集。

OpenAI、google双标玩得溜:训练大模型用他人数据,却决不答应自身数据外流

Steven Sinofsky

他在推特上写道,「过去,爬取数据是用来换取点击率的。但现在只是用来训练一个模型,没有给创作者、版权所有者带来任何价值。」

也许,随着更多公司的觉醒,生成式 AI 时代这一不均衡的数据运用办法会很快被改变。

原文链接:https://www.businessinsider.com/openai-google-anthropic-ai-training-models-content-data-use-2023-6

给TA打赏
共{{data.count}}人
人已打赏
AI

华盛顿大学医学院放射系助理教授朱成成实验室招收博士后、博士生、科研助理和实习生

2023-6-3 12:54:00

AI

2022年ACM博士论文奖公布了

2023-6-5 14:51:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索