OpenAI大呼冤枉,称《纽约时报》说法片面,吴恩达也为其发声

OpenAI:《纽约时报》的诉讼毫无根据。2023 年年底,《纽约时报》拿出了强有力的证据起诉微软与 OpenAI。根据多家科技公司的首席法律顾问 Cecilia Ziniti 的分析,《纽约时报》获胜的概率极大。机器进修领域著名学者吴恩达针对这件事连发两条推文说明了自己的观点。在他的第一条推文中,表达对 OpenAI 和微软的同情。他怀疑很多反复的文章实际是通过类似于 RAG(检索增强生成)的机制产生的,而非仅仅依赖模型训练的权重。来源:,吴恩达的推测被也遭到了反驳。纽约大学教授 Gary Marcus 表示在视

OpenAI:《纽约时报》的诉讼毫无根据。

2023 年年底,《纽约时报》拿出了强有力的证据起诉微软与 OpenAI。根据多家科技公司的首席法律顾问 Cecilia Ziniti 的分析,《纽约时报》获胜的概率极大。

机器进修领域著名学者吴恩达针对这件事连发两条推文说明了自己的观点。在他的第一条推文中,表达对 OpenAI 和微软的同情。他怀疑很多反复的文章实际是通过类似于 RAG(检索增强生成)的机制产生的,而非仅仅依赖模型训练的权重。

OpenAI大呼冤枉,称《纽约时报》说法片面,吴恩达也为其发声

来源:https://twitter.com/AndrewYNg/status/1744145064115446040

不过,吴恩达的推测被也遭到了反驳。纽约大学教授 Gary Marcus 表示在视觉生成领域的「剽窃」和 RAG 毫不相干。

今天,吴恩达再次发布推文,对上一条的说法举行了新的说明。他明确指出,任何公司未经许可或没有正当的应用理由就大规模复制他人版权实质是不对的。但他认为 LLM 只有在少有的情况下,才会根据一定的提醒「反刍」。而一般的普通用户几乎不会采用这些一定的提醒。关于通过一定的方式提醒 GPT-4 可以复制《纽约时报》的文本,吴恩达也表示这种情况很少发生。他补充道,ChatGPT 的新版本似乎已经将这个漏洞举行改善了。

OpenAI大呼冤枉,称《纽约时报》说法片面,吴恩达也为其发声

来源:https://twitter.com/AndrewYNg/status/1744433663969022090

当尝试复制诉讼中看起来最糟糕的版权侵犯例子时,例如尝试应用 ChatGPT 绕过付费墙,或获取 Wirecutter 的结果时,吴恩达发现这会触发 GPT-4 的网络浏览功能。这表明,这些例子中可能涉及了 RAG。GPT-4 可以浏览网页下载额外信息以生成回应,例如举行网页搜索或下载一定文章。他认为,在诉讼中这些例子被突出展示,会让人们误以为是 LLM 在《纽约时报》文本上的训练直接导致了这些文本被复制,但如果涉及 RAG,那么这些复制例子的根本原因并非 LLM 在《纽约时报》文本上训练。

既然有两种观点,我们已经看过了《纽约时报》的「声讨」,OpenAI 对这件事情到底是奈何的看法,有奈何的回应,我们一起来看看吧。

OpenAI大呼冤枉,称《纽约时报》说法片面,吴恩达也为其发声

博客地址:https://openai.com/blog/openai-and-journalism

OpenAI 申明立场

OpenAI 表示,他们的目标是开发人工智能工具,让人们有能力解决那些遥不可及的问题。他们的技术正在被世界各地的人应用来改善日常生活。

OpenAI 不同意《纽约时报》诉讼中的说法,但认为这是一个阐明公司业务、意图和技术构建方式的机会。他们将自己的立场概括为以下四点:

与消息机构分工并创造新机会;

训练是正当应用,但需要供应退出的选项;

「复述」是一个少有的错误,OpenAI 正在努力将其减少到零;

《纽约时报》的讲述并不完整。

关于这四点实质具体如何,OpenAI 在博客中也举行了详细说明。

OpenAI 与消息机构分工并创造新机会 

OpenAI 在技术设计过程中努力支持消息机构。他们与多家媒体机构及领先行业组织会面,讨论需求并供应解决方案。OpenAI 的目标是进修、教育、倾听反馈,并举行适应,支持健康的消息生态系统,创造互利的机会。

他们与消息机构建立了伙伴关系:

来帮助记者和编辑处理大量繁琐的、耗时的工作等等;

在此基础上,OpenAI 可以通过对更多历史、非公开实质的训练,让 AI 模型了解世界;

在 ChatGPT 中显示及时实质并注明出处,为消息出版商供应与读者联系的新方式。

训练是正当应用

但需要供应退出的选项

应用公开可用的互联网材料训练 AI 模型是正当的,这一点是被长期且广泛接受的,并得到了支持。这些支持来自广泛的学者、图书馆协会、民间社会团体、初创企业、领先的美国公司、创作者、作者等,他们都同意将 AI 模型训练视为正当应用。在欧盟、日本、新加坡和以色列,也有允许在受版权保护的实质上训练模型的法律。这是人工智能创新、进步和投资的优势。

OpenAI 表示,他们在 AI 行业中率先供应了一个简单的退出流程,而《纽约时报》在 2023 年 8 月就采用了这一程序,以防止 OpenAI 的工具访问他们的网站。

「复述」是一个少有的错误

OpenAI 正在努力将其减少到零

「复述」是 AI 训练过程中的少有故障。如果当一定实质在训练数据中出现不止一次时,比如同一篇实质被不同的网站反复转发,AI 模型的「复述」就比较常见了。因此,OpenAI 采取了一些措施来防止在模型输出中出现反复实质。

进修概念,再将其应用于新问题使人类常见的思维模式,OpenAI 在设计 AI 模型时也遵循了这个原理,他们希望 AI 模型能够吸取来自世界各地的新鲜信息。由于模型的「进修资料」是所有人类知识的集合,来自消息方面的训练数据只是其中的冰山一角,任何单一的数据源,包括《纽约时报》,对模型的进修行为都没有意义。

《纽约时报》的讲述并不完整

去年 12 月 19 日,OpenAI 与《纽约时报》为达成分工举行了顺利的谈判。谈判的重点为 ChatGPT 将在回答中及时显示引用来源,《纽约时报》也将通过这种方式与和新读者建立联系。当时 OpenAI 就已经向《纽约时报》解释,他们的实质对的现有模型的训练没有实质性贡献,也不会涉及未来的模型训练。

《纽约时报》拒绝向 OpenAI 分享任何 GPT「涉嫌剽窃」其报道的示例。在 7 月,OpenAI 已经供应了解决问题的诚意,在得知 ChatGPT 可能意外复制及时网页上的实质后,他们立即下架了有关实质。

然而《纽约时报》供应的「剽窃行为」似乎都是多年前的文章。这些文章已在多个第三方网站被广泛地转发和传播。OpenAI 认为,《纽约时报》有可能故意操纵了提醒词,他们可以输入大段「被剽窃」的文章的节选,诱导 AI 做出和原文反复度高的回答。即使应用了这样的提醒词,OpenAI 的模型通常不会出现申诉书中反复率如此之高的情况。因此,OpenAI 猜测《纽约时报》要么操纵了提醒词,要么就是在反复试验中精心挑选出了「范例」。

这种多次反复的多轮对话,违反了用户应用条款。OpenAI 正在不断提高系统的抗逆性,以抵御反刍训练数据的恶意攻击,并在最近取得了很大进展。

OpenAI 在博客最后表示,《纽约时报》的诉讼毫无根据。他们仍希望与《纽约时报》建立建设性的分工关系,并尊重其悠久的历史。

这场争论最后到底会产生奈何的结果,对于人工智能未来的发展至关重要。它可能阻碍 AI 模型的训练,也可能探索出新的 AI 与各企业协同发展的道路。你对这件事又有奈何的看法,欢迎在评论区中留言讨论。

给TA打赏
共{{data.count}}人
人已打赏
应用

百川智能发布脚色大模型 ,零代码复刻脚色轻松满足游玩规模定制需求

2024-1-9 14:53:00

应用

集体盘算迎变革:偶像集团10余款AI PC亮相CES 2024

2024-1-9 15:03:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索