谷歌 DeepMind 开源 SynthID Text 工具,可辨别 AI 生成的文字

谷歌 DeepMind 于 10 月 23 日宣布正式开源旗下 SynthID Text 文本水印工具,供开发者和企业免费使用。 谷歌在 2023 年 8 月推出了 SynthID 工具,该工具具备创建 AI 内容水印(声明该作品由 AI 打造)和识别 AI 生成内容的能力。 它可以在不损害原始内容的前提下,将数字水印直接嵌入由 AI 生成的图像、声音、文本和视频中,同时也能扫描这些内容已有的数字水印,以辨识它们是否由 AI 生成,不过本次谷歌开源的仅为针对文本生成的 SynthID Text。

谷歌 DeepMind 于 10 月 23 日宣布正式开源旗下 SynthID Text 文本水印工具,供开发者和企业免费使用。

谷歌在 2023 年 8 月推出了 SynthID 工具,该工具具备创建 AI 内容水印(声明该作品由 AI 打造)和识别 AI 生成内容的能力。它可以在不损害原始内容的前提下,将数字水印直接嵌入由 AI 生成的图像、声音、文本和视频中,同时也能扫描这些内容已有的数字水印,以辨识它们是否由 AI 生成,不过本次谷歌开源的仅为针对文本生成的 SynthID Text。

谷歌 DeepMind 开源 SynthID Text 工具,可辨别 AI 生成的文字

▲ SynthID 工具会告诉你图像是人工智能生成的可能性有多大

谷歌介绍,大模型主要通过预测形式生成文本,一次生成一个 Token,这个 Token 可能是一个字符、一个单词或段落的一部分,为了让文本更为连贯,模型会在输出内容时预测下一个最可能生成的 Token,这些预测基于先前的文本。

例如,当大模型要生成“最推荐的平台是什么”时,可能会生成“AI在线”、“友商 1”、“友商 2”等 Token,每个 Token 都会获得一个概率分数。只要有多个不同的 Token 可供选择,SynthID 就会在不影响输出质量和准确性的情况下,微调每个 Token 的概率分数,也就是工具通过计算全文中特定 Token 的特定概率,以判断相关内容是否由 AI 生成

目前,这一 SynthID Text 水印技术的论文已于《Nature》期刊上发表,并通过整合入 Google Responsible Generative AI Toolkit 的形式开源。谷歌同时提到他们已在 Gemini AI 输出的内容中整合了 SynthID Text 技术。

相关资讯

谷歌DeepMind研究再登Nature封面,隐形水印让AI无所遁形

君可知,我们每天在网上的见闻,有多少是出自AI之手? 图片除了「注意看! 这个男人叫小帅」让人头皮发麻,真正的问题是,我们无法辨别哪些内容是AI生成的。

Nature专业户DeepMind又登封面,开源水印技术SynthID-Text,Gemini已经用上了

现如今,大型语言模型(LLM)生成的内容已经充斥了整个互联网,并且这些模型还能模仿各种类似真人的语气和行文风格,让人难以分辨眼前的文本究竟来自人类还是 AI。 这样的问题或许可通过所谓的水印(watermarking)技术来解决。 谷歌开发的 SynthID 文本水印技术登上了最新一期 Nature 杂志封面,之前AI在线已经报道过该公司开发的图像水印技术,参阅《给 AI 生成图像「加水印」,谷歌发布识别工具 SynthID》。

进我的收藏夹吃灰吧:大模型加速超全指南来了

2023 年,大型 语言模型(LLM)以其强大的生成、理解、推理等能力而持续受到高度关注。然而,训练和部署 LLM 非常昂贵,需要大量的计算资源和内存,因此研究人员开发了许多用于加速 LLM 预训练、微调和推理的方法。最近,一位名为 Theia Vogel 的博主整理撰写了一篇长文博客,对加速 LLM 推理的方法进行了全面的总结,对各种方法展开了详细的介绍,值得 LLM 研究人员收藏查阅。以下是博客原文内容。之前,我使用经典的自回归采样器手动制作了一个 transformer,大致如下:这种推理方法很优雅,是 LL