英伟达被曝未经许可抓取 YouTube、Netflix 平台视频用于训练 AI

科技媒体 404Media 披露的文件显示,英伟达收集了大量受版权包含的内容,用于训练人工智能(AI)。该媒体披露的内部邮件、电子邮件、Slack 对话以及相关文件显示,英伟达从 YouTube 等多个来源收集视频素材,用于扩充训练 AI 的数据集。该媒体披露的对话显示参与该项目的员工曾提出质疑,认为擅自使用 YouTube 视频以及研究目的编译的数据集,在法律层面可能会存在问题。不过项目经理的回复是,这种收集模式已经获得了公司最高层的许可,可以使用这些内容训练 AI,并认为“完全符合版权法的文字描述和精神”。一位

科技媒体 404Media 披露的文件显示,英伟达收集了大量受版权包含的内容,用于训练人工智能(AI)

该媒体披露的内部邮件、电子邮件、Slack 对话以及相关文件显示,英伟达从 YouTube 等多个来源收集视频素材,用于扩充训练 AI 的数据集。

该媒体披露的对话显示参与该项目的员工曾提出质疑,认为擅自使用 YouTube 视频以及研究目的编译的数据集,在法律层面可能会存在问题。

不过项目经理的回复是,这种收集模式已经获得了公司最高层的许可,可以使用这些内容训练 AI,并认为“完全符合版权法的文字描述和精神”。

一位英伟达员工透露,公司要求员工收集 YouTube、Netflix 等视频源的视频,用于训练英伟达的 Omniverse 3D 生成器、自动驾驶系统和“数字人类”(Digital Human)产品。

AI在线援引该媒体报道,该项目内部称其为 Cosmos 项目,为了规避 YouTube 的检测,英伟达使用具有轮换 IP 地址的虚拟机下载内容以避免被封禁。

英伟达员工写到:“我们在使用 AWS ,重新启动实例会分配一个新的公共 IP,所以到目前为止这不是问题。”

相关阅读:

《科技巨头被曝未经授权用 YouTube 内容训练 AI,苹果、英伟达在列》

相关资讯

因未经许可抓取 YouTube 内容训练模型,英伟达遭视频创作者起诉

感谢综合 Legal Dive 及 404 Media 16 日报道,当地时间周三,YouTube 创作者大卫・米勒特 (David Millette) 对英伟达公司提起集体诉讼,声称英伟达从他和其他人的视频中获取丰厚利润,违反了加州的《不正当竞争法》,并以牺牲他和其他创作者的利益为代价,使公司“不当得利”。这名 YouTube 创作者声称,英伟达未经他和其他创作者的许可,基于从 YouTube 上抓取的内容建立了一个新的视频模型,不公正地敛财并违反了《联邦劳动法》。而在两周前,这名创作者对 OpenAI 提起了类

YouTube 新规上路:上传视频需标注是否为 AI 制作,包括合成配音 / 换脸等

感谢YouTube 日前宣布,即日起任何人在上传、发布视频时,都需要标注“篡改或合成”的逼真内容,包括生成式 AI。YouTube 将“逼真内容”定义为“任何观众容易误认为是真实的人事物或地点”的内容。若视频创作者使用真人声音的合成版本来为视频配音,或发布“AI 换脸”主题的视频,就需要附上标签。此举的本质目的是防止 AI 生成内容可能导致的虚假信息传播,而非反对创作者通过 AI 制作内容。IT之家注:美颜滤镜、背景模糊等特效以及动画等不属于此次涉及的 AI 制作内容的范畴。官方表示,创作者必须披露存在以下情况的内

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

本周早些时候,《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天,《纽约时报》详细介绍了 AI 公司处理此问题的一些方法,其中涉及到属于 AI 版权法模糊灰色区域的内容。报道称,OpenAI 迫切需要训练数据,并开发了 Whisper 音频转录模型来克服困难,转录了超过 100 万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。报道提到,OpenAI 在 2021 年耗尽了有用的数据供应,并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物的可行性。此外,O