英伟达被曝未经许可抓取 YouTube、Netflix 平台视频用于训练 AI

2024-08-06 01:53

科技媒体 404Media 披露的文件显示，英伟达收集了大量受版权包含的内容，用于训练人工智能（AI）。该媒体披露的内部邮件、电子邮件、Slack 对话以及相关文件显示，英伟达从 YouTube 等多个来源收集视频素材，用于扩充训练 AI 的数据集。该媒体披露的对话显示参与该项目的员工曾提出质疑，认为擅自使用 YouTube 视频以及研究目的编译的数据集，在法律层面可能会存在问题。不过项目经理的回复是，这种收集模式已经获得了公司最高层的许可，可以使用这些内容训练 AI，并认为“完全符合版权法的文字描述和精神”。一位

科技媒体 404Media 披露的文件显示，英伟达收集了大量受版权包含的内容，用于训练人工智能（AI）。

该媒体披露的内部邮件、电子邮件、Slack 对话以及相关文件显示，英伟达从 YouTube 等多个来源收集视频素材，用于扩充训练 AI 的数据集。

该媒体披露的对话显示参与该项目的员工曾提出质疑，认为擅自使用 YouTube 视频以及研究目的编译的数据集，在法律层面可能会存在问题。

不过项目经理的回复是，这种收集模式已经获得了公司最高层的许可，可以使用这些内容训练 AI，并认为“完全符合版权法的文字描述和精神”。

一位英伟达员工透露，公司要求员工收集 YouTube、Netflix 等视频源的视频，用于训练英伟达的 Omniverse 3D 生成器、自动驾驶系统和“数字人类”（Digital Human）产品。

AI在线援引该媒体报道，该项目内部称其为 Cosmos 项目，为了规避 YouTube 的检测，英伟达使用具有轮换 IP 地址的虚拟机下载内容以避免被封禁。

英伟达员工写到：“我们在使用 AWS ，重新启动实例会分配一个新的公共 IP，所以到目前为止这不是问题。”

相关阅读：

《科技巨头被曝未经授权用 YouTube 内容训练 AI，苹果、英伟达在列》

因未经许可抓取 YouTube 内容训练模型，英伟达遭视频创作者起诉

感谢综合 Legal Dive 及 404 Media 16 日报道，当地时间周三，YouTube 创作者大卫・米勒特 (David Millette) 对英伟达公司提起集体诉讼，声称英伟达从他和其他人的视频中获取丰厚利润，违反了加州的《不正当竞争法》，并以牺牲他和其他创作者的利益为代价，使公司“不当得利”。这名 YouTube 创作者声称，英伟达未经他和其他创作者的许可，基于从 YouTube 上抓取的内容建立了一个新的视频模型，不公正地敛财并违反了《联邦劳动法》。而在两周前，这名创作者对 OpenAI 提起了类

8/17/2024 3:25:03 PM

清源

YouTube 新规上路：上传视频需标注是否为 AI 制作，包括合成配音 / 换脸等

感谢YouTube 日前宣布，即日起任何人在上传、发布视频时，都需要标注“篡改或合成”的逼真内容，包括生成式 AI。YouTube 将“逼真内容”定义为“任何观众容易误认为是真实的人事物或地点”的内容。若视频创作者使用真人声音的合成版本来为视频配音，或发布“AI 换脸”主题的视频，就需要附上标签。此举的本质目的是防止 AI 生成内容可能导致的虚假信息传播，而非反对创作者通过 AI 制作内容。IT之家注：美颜滤镜、背景模糊等特效以及动画等不属于此次涉及的 AI 制作内容的范畴。官方表示，创作者必须披露存在以下情况的内

3/19/2024 4:40:16 PM

清源

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

本周早些时候，《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天，《纽约时报》详细介绍了 AI 公司处理此问题的一些方法，其中涉及到属于 AI 版权法模糊灰色区域的内容。报道称，OpenAI 迫切需要训练数据，并开发了 Whisper 音频转录模型来克服困难，转录了超过 100 万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。报道提到，OpenAI 在 2021 年耗尽了有用的数据供应，并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物的可行性。此外，O

4/7/2024 7:02:17 AM

汪淼

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ Haisnap横空出世，小白用户也能轻松打造AI应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 本地部署DeepSeek+DiFy平台构建智能体应用韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

英伟达被曝未经许可抓取 YouTube、Netflix 平台视频用于训练 AI

相关资讯

因未经许可抓取 YouTube 内容训练模型，英伟达遭视频创作者起诉

YouTube 新规上路：上传视频需标注是否为 AI 制作，包括合成配音 / 换脸等

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4