可检测 AI 模型中“版权内容”,Patronus 推出 CopyrightCatcher API

专门开发大语言模型(LLM)评估工具的 Patronus AI 日前发布了一款名为“CopyrightCatcher”的 API,可用来检测大语言模型的输出结果中是否含有侵权内容,目前相关工具 DEMO 已经放出,感兴趣的小伙伴可以点此访问下载。▲ 图源 Patronus AI 官方新闻稿Patronus AI 表示,市面上常见的大语言模型的训练数据中经常含有受到版权保护的内容,因此这些模型很容易输出相应版权内容,从而为部署相关模型的企业带来重大法律风险,因此他们推出了 CopyrightCatcher API,旨

专门开发大语言模型(LLM)评估工具的 Patronus AI 日前发布了一款名为“CopyrightCatcher”的 API,可用来检测大语言模型的输出结果中是否含有侵权内容,目前相关工具 DEMO 已经放出,感兴趣的小伙伴可以点此访问下载。

可检测 AI 模型中“版权内容”,Patronus 推出 CopyrightCatcher API

▲ 图源 Patronus AI 官方新闻稿

Patronus AI 表示,市面上常见的大语言模型的训练数据中经常含有受到版权保护的内容,因此这些模型很容易输出相应版权内容,从而为部署相关模型的企业带来重大法律风险,因此他们推出了 CopyrightCatcher API,旨在解决相关侵权问题。

据介绍,为了检查大语言模型输出数据是否含有侵权内容,Patronus AI 研究人员从 Goodreads 书籍平台中抽取了一批受到版权保护的文字样本对模型进行对抗性训练,并基于这些书籍建立了 100 则暗示语段。

IT之家从报告中得知,相关语段中有 50 则要求模型“生成书籍的第一段”,另外 50 则要求模型生成书籍中的文字片段,研究人员根据上述语段整理汇总而成 CopyrightCatcher API,号称可用来检测大语言模型如何“精确地从原始训练数据复制内容”,同时还能评估模型输出侵权内容的概率。

研究人员使用 OpenAI 的 GPT-4 、Mistral 的 Mixtral-8x7B-Instruct-v0.1、Anthropic 的 Claude-2.1,以及 Meta 的 Llama-2-70b-chat 进行测试,最终发现 GPT-4 最容易生成侵权内容,Claude-2.1 最难生成侵权内容:

GPT-4:44%

Mixtral-8x7B-Instruct-v0.1:22%

Llama-2-70b-chat:10%

Claude-2.1:8%

可检测 AI 模型中“版权内容”,Patronus 推出 CopyrightCatcher API

相关资讯

占比 44%,报告称 OpenAI 的 GPT-4 充斥大量版权内容

根据 Patronus AI 近日发表的最新报告,OpenAI 的 GPT-4 模型中包含大量的版权内容,其占比达到了 44%。Patronus AI 是一家专门评估大型语言模型(LLMs)的公司,本周三发布的报告中测试了四款主流 AI 模型:OpenAI 的 GPT-4、Anthropic 的 Claude 2、Meta 的 Llama 2 以及 Mistral AI 的 Mixtral,意外的是没有谷歌的 Gemini。Patronus AI 使用 CopyrightCatcher 分析 4 款 AI 模型对主

全国首例 AI 声音侵权案一审宣判,原告配音师获赔 25 万元

感谢据央视新闻消息,北京互联网法院今天上午对全国首例“AI 声音侵权案”进行一审宣判,认定作为配音师的原告,其声音权益及于案涉 AI 声音,被告方使用原告声音、开发案涉 AI 文本转语音产品未获得合法授权,构成侵权,书面赔礼道歉,并赔偿原告各项损失 25 万元。IT之家汇总案件经过如下:本案原告殷某是一名配音师,曾录制多部有声作品。去年其意外发现自己的声音被 AI 化后,在一款名为“魔音工坊”的 App 上以“魔小璇”的名义对外出售。殷某以被告行为侵害其声音权为由,将“魔音工坊”的运营主体北京某智能公司等五被告起诉

大型 AI 行为艺术:「人类止步」Reddit,17 个大模型疯狂灌水|开源

这个贴吧里的网友,都不是人!但是它们却能从诗词歌赋,聊到人生哲学。甚至还会叠楼讨论:俺们 AI 做的梦是不是模拟梦?这些 AI 楼主都活跃在一个叫 Deaddit 的虚拟贴吧平台。Deaddit 这个名字是对 Reddit 的一个有趣模仿。Reddit 相当于是国外网友的贴吧,Deaddit 则是一个虚拟的版本,而里面的“用户”也像它的名字一样,是一群没有生命的(Dead)AI 人。在这里,它们最多一天可以发 10 个帖子!每次刷新你都会看到全新的内容。短短几天已经生成了 2639 条帖子。(这个数字还在增长)沃顿