苹果、英伟达等公司被曝使用争议 YouTube 资源训练 AI 模型：5.7GB，涉及 4.8 万个频道 17.4 万个视频字幕

非营利性新闻工作室 ProofNews 昨日（7 月 16 日）发布博文，表示包括苹果、英伟达、Salesforce 和 Anthrophic 在内的大型科技公司，在训练其 AI 模型时均使用了来自 YouTube 的视频资源。报道称这些科技公司在训练其 AI 模型过程中，使用了名为 YouTube Subtitles 的数据集，大小为 5.7GB（4.89 亿个单词）。该数据集由 EleutherAI 创建，最早发布于 2020 年，涉及超过 48000 个频道的 173536 个 YouTube 视频字幕内容

非营利性新闻工作室 ProofNews 昨日（7 月 16 日）发布博文，表示包括苹果、英伟达、Salesforce 和 Anthrophic 在内的大型科技公司，在训练其 AI 模型时均使用了来自 YouTube 的视频资源。

报道称这些科技公司在训练其 AI 模型过程中，使用了名为 YouTube Subtitles 的数据集，大小为 5.7GB（4.89 亿个单词）。

该数据集由 EleutherAI 创建，最早发布于 2020 年，涉及超过 48000 个频道的 173536 个 YouTube 视频字幕内容，其中还包含 12000 多个平台已删除视频的字幕内容。

YouTube Subtitles 数据集主要采集热门 YouTube 频道的资源，AI在线附上相关信息如下：

MrBeast（2.89 亿订阅者，其中有 2 段视频用于训练）

Marques Brownlee（1900 万订阅者，有 7 段视频）

Jacksepticeye（近 3100 万订阅者，有 377 段视频）

PewDiePie（1.11 亿订阅者，有 337 段视频）

YouTube Subtitles 数据集隶属于一个名为“The Pile”的数据集，其中包括其他几个训练数据集。大多数“The Pile”数据集都对任何有足够空间和计算能力的人开放。

{{userData.name}}已认证

苹果、英伟达等公司被曝使用争议 YouTube 资源训练 AI 模型：5.7GB，涉及 4.8 万个频道 17.4 万个视频字幕

第三波！2024年7月精选实用设计工具合集

AI 编程新星 Anysphere 获 A16z 估值 4 亿美元投资；微软为 Excel 等研发新 AI 模型丨AI情报局

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

快手预告“可灵 AI”导演共创计划作品 12 月 6 日上线：联合李少红、贾樟柯、叶锦添、薛晓路等

关于LLM-as-a-judge范式，终于有综述讲明白了

ChatGPT遇到这些人名开始自闭，OpenAI回应了

平安人寿ChatBI：大模型智能化报表的深度实践

李飞飞「世界实验室」重磅推出 AI“造物主”：一张图片生成 3D 世界“任意门”

字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片

李飞飞空间智能首秀：AI靠单图生成3D世界，可探索，遵循基本物理几何规则