苹果、英伟达等公司被曝使用争议 YouTube 资源训练 AI 模型:5.7GB,涉及 4.8 万个频道 17.4 万个视频字幕

非营利性新闻工作室 ProofNews 昨日(7 月 16 日)发布博文,表示包括苹果、英伟达、Salesforce 和 Anthrophic 在内的大型科技公司,在训练其 AI 模型时均使用了来自 YouTube 的视频资源。 报道称这些科技公司在训练其 AI 模型过程中,使用了名为 YouTube Subtitles 的数据集,大小为 5.7GB(4.89 亿个单词)。该数据集由 EleutherAI 创建,最早发布于 2020 年,涉及超过 48000 个频道的 173536 个 YouTube 视频字幕内容

非营利性新闻工作室 ProofNews 昨日(7 月 16 日)发布博文,表示包括苹果、英伟达、Salesforce 和 Anthrophic 在内的大型科技公司,在训练其 AI 模型时均使用了来自 YouTube 的视频资源。

报道称这些科技公司在训练其 AI 模型过程中,使用了名为 YouTube Subtitles 的数据集,大小为 5.7GB(4.89 亿个单词)。

该数据集由 EleutherAI 创建,最早发布于 2020 年,涉及超过 48000 个频道的 173536 个 YouTube 视频字幕内容,其中还包含 12000 多个平台已删除视频的字幕内容。

YouTube Subtitles 数据集主要采集热门 YouTube 频道的资源,AI在线附上相关信息如下:

MrBeast(2.89 亿订阅者,其中有 2 段视频用于训练)

Marques Brownlee(1900 万订阅者,有 7 段视频)

Jacksepticeye(近 3100 万订阅者,有 377 段视频)

PewDiePie(1.11 亿订阅者,有 337 段视频)

YouTube Subtitles 数据集隶属于一个名为“The Pile”的数据集,其中包括其他几个训练数据集。大多数“The Pile”数据集都对任何有足够空间和计算能力的人开放。

给TA打赏
共{{data.count}}人
人已打赏
应用

第三波!2024年7月精选实用设计工具合集

2024-7-17 1:23:08

应用

消息称字节将于 7 月 19 日首次大范围公布文生图 / 视频等 AI 模型进展

2024-7-17 10:48:46

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索