苹果、英伟达等公司被曝使用争议 YouTube 资源训练 AI 模型:5.7GB,涉及 4.8 万个频道 17.4 万个视频字幕

非营利性新闻工作室 ProofNews 昨日(7 月 16 日)发布博文,表示包括苹果、英伟达、Salesforce 和 Anthrophic 在内的大型科技公司,在训练其 AI 模型时均使用了来自 YouTube 的视频资源。 报道称这些科技公司在训练其 AI 模型过程中,使用了名为 YouTube Subtitles 的数据集,大小为 5.7GB(4.89 亿个单词)。该数据集由 EleutherAI 创建,最早发布于 2020 年,涉及超过 48000 个频道的 173536 个 YouTube 视频字幕内容

非营利性新闻工作室 ProofNews 昨日(7 月 16 日)发布博文,表示包括苹果、英伟达、Salesforce 和 Anthrophic 在内的大型科技公司,在训练其 AI 模型时均使用了来自 YouTube 的视频资源。

报道称这些科技公司在训练其 AI 模型过程中,使用了名为 YouTube Subtitles 的数据集,大小为 5.7GB(4.89 亿个单词)。

该数据集由 EleutherAI 创建,最早发布于 2020 年,涉及超过 48000 个频道的 173536 个 YouTube 视频字幕内容,其中还包含 12000 多个平台已删除视频的字幕内容。

YouTube Subtitles 数据集主要采集热门 YouTube 频道的资源,AI在线附上相关信息如下:

MrBeast(2.89 亿订阅者,其中有 2 段视频用于训练)

Marques Brownlee(1900 万订阅者,有 7 段视频)

Jacksepticeye(近 3100 万订阅者,有 377 段视频)

PewDiePie(1.11 亿订阅者,有 337 段视频)

YouTube Subtitles 数据集隶属于一个名为“The Pile”的数据集,其中包括其他几个训练数据集。大多数“The Pile”数据集都对任何有足够空间和计算能力的人开放。

相关资讯

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

本周早些时候,《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天,《纽约时报》详细介绍了 AI 公司处理此问题的一些方法,其中涉及到属于 AI 版权法模糊灰色区域的内容。报道称,OpenAI 迫切需要训练数据,并开发了 Whisper 音频转录模型来克服困难,转录了超过 100 万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。报道提到,OpenAI 在 2021 年耗尽了有用的数据供应,并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物的可行性。此外,O

YouTube 新规上路:上传视频需标注是否为 AI 制作,包括合成配音 / 换脸等

感谢YouTube 日前宣布,即日起任何人在上传、发布视频时,都需要标注“篡改或合成”的逼真内容,包括生成式 AI。YouTube 将“逼真内容”定义为“任何观众容易误认为是真实的人事物或地点”的内容。若视频创作者使用真人声音的合成版本来为视频配音,或发布“AI 换脸”主题的视频,就需要附上标签。此举的本质目的是防止 AI 生成内容可能导致的虚假信息传播,而非反对创作者通过 AI 制作内容。IT之家注:美颜滤镜、背景模糊等特效以及动画等不属于此次涉及的 AI 制作内容的范畴。官方表示,创作者必须披露存在以下情况的内

YouTube 测试“AI 音频橡皮擦”:创作者可轻松移除受版权保护背景音乐

感谢7 月 4 日,YouTube 发布了更新的“橡皮擦”工具,创作者可以轻松地从视频中移除任何受版权保护的背景音乐,而不会影响包括对话或音效在内的任何其他音频。新工具使用 AI 算法来专门检测和删除相关歌曲,而不会影响剪辑中的其他音频。YouTube 方面表示,公司已经开始了一段时间的测试,但在删除受版权保护的歌曲时“并不那么准确”。“如果歌曲难以删除,这种编辑方法可能不起作用。如果该工具不能成功移除视频中的权利要求,你可以尝试其他编辑选项,比如将权利要求片段中的所有声音静音或剪切掉权利要求片段。”谷歌 6 月曾