英伟达神秘视频基础模型「Cosmos」曝光,数据全靠偷

为了这个视频模型,英伟达每天正在疯狂地爬取相当于 80 年时长的视频数据。今天,一则关于英伟达要下场做视频模型的消息引爆了 Reddit。消息源出自外媒 404 Media,据它获得的 Slack 聊天(英伟达的内部聊天平台)、电子邮件和文件显示,英伟达正在从 Youtube 和其他几个来源抓取视频,收集用于其 AI 产品的训练数据。404 Media 查看的英伟达内部对话显示,当参与该项目的员工提出有关使用「禁止商用的研究数据集」和「YouTube 视频」可能产生法律问题时,管理人员告诉他们,他们已获得公司最高层

为了这个视频模型,英伟达每天正在疯狂地爬取相当于 80 年时长的视频数据。

今天,一则关于英伟达要下场做视频模型的消息引爆了 Reddit。

消息源出自外媒 404 Media,据它获得的 Slack 聊天(英伟达的内部聊天平台)、电子邮件和文件显示,英伟达正在从 Youtube 和其他几个来源抓取视频,收集用于其 AI 产品的训练数据。

英伟达神秘视频基础模型「Cosmos」曝光,数据全靠偷

404 Media 查看的英伟达内部对话显示,当参与该项目的员工提出有关使用「禁止商用的研究数据集」和「YouTube 视频」可能产生法律问题时,管理人员告诉他们,他们已获得公司最高层的批准,可以使用这些内容。

一位匿名的前英伟达员工对此表示,员工被要求从 Netflix、YouTube 和其他来源抓取视频,以训练的 Omniverse 3D 世界生成器、自动驾驶汽车系统和「数字人」产品的 AI 模型。

该项目内部命名为 Cosmos(但与公司现有的 Cosmos 深度学习产品不同),尚未向公众发布。该项目领导层发给员工的电子邮件显示,Cosmos 的目标是构建一个最先进的视频基础模型,「将光传输、物理和智能模拟封装在一个地方,以解锁对英伟达至关重要的各种下游应用。」

为了收集训练视频,英伟达员工使用名为「 yt-dlp」的开源 YouTube 视频下载器。他们试图从 Netflix 等各种来源下载完整视频,但主要集中在 YouTube 视频。404 Media 查看的电子邮件显示,项目经理选择了使用 Amazon Web Services 中的 20 到 30 台虚拟机,每天下载相当于 80 年的视频。

英伟达研究副总裁兼 Cosmos 项目负责人 Ming-Yu Liu 在 5 月份的一封电子邮件中表示:「我们正在完成 v1 数据 pipeline 并确保必要的计算资源,以构建一个视频数据工厂,该工厂每天可以产生相当于人类一生视觉体验的训练数据。」

当被问及英伟达使用 YouTube 视频作为其模型的训练数据时,谷歌发言人告诉 404 Media 称,该公司「此前的立场仍然有效」。此前 YouTube 首席执行官 Neal Mohan 表示,如果 OpenAI 使用 YouTube 视频来改进其 AI 视频生成器 Sora,那将「明显违反」YouTube 使用条款。

同样地,Netflix 发言人告诉 404 Media,公司与英伟达并未就内容采集达成协议,而且该平台的服务条款不允许抓取内容。

不过,英伟达方面似乎并不在意。参与该项目的员工提出的法律问题经常被项目经理驳回并表示,未经许可抓取视频的决定是「行政决定」,他们不需要担心,而什么是公平、合乎道德地使用受版权保护的内容以及学术、非商业用途数据集的问题被认为是「悬而未决的法律问题」,他们将来会解决。

英伟达视频模型项目始末

和其他科技巨头类似,英伟达聘用学术研究人才发表学术成果,但从 404 Media 获取的内部邮件可以看出,Cosmos 显然将用于商业用途。

今年三月,一位英伟达的研究员在 Slack 上发帖,提议用《阿凡达》或《指环王》这样的好莱坞电影来训练 OpenAI Sora,可能效果会更好。

随后,他的提议得到了公司内的认可,但他也补充道,好莱坞对 AI 可能侵占版权的事格外敏感。2023 年七月,拥有 16 万会员的好莱坞三大工会之一 SAG-AFTRA 宣布罢工,矛头直指 ChatGPT 和 Stable Diffusion 等生成式 AI 产品,在此之前,美国编剧工会已经罢工 70 多天。Stable Diffusion 存在这样的情况,即使不输入对应的提示词,输入「动漫画风的水管工」这样的模糊描述,Stable Diffusion 会直接生成马里奥的经典形象。

在这个帖子下,一位名叫「Liu」的员工(即英伟达研究副总裁Ming-Yu Liu(刘洺堉)回复道:「如果不公开发表论文,就不会引来以上负面问题。我们应该先用能下载的视频进行实验。」

英伟达神秘视频基础模型「Cosmos」曝光,数据全靠偷

之后,有另外一位英伟达研究员又在内网发了一个帖子,他找到了一份训练视频模型应该优先下载的文件列表,但是英伟达所使用 HD-VILA-100M 数据集中却缺少约 230 万个原始视频。这个不断扩张的列表中还包含一些知名 YouTuber 的原创视频,比如在北美和知名度类似「大家好我是何同学」的数码评测博主 Marques Brownlee(MKBHD)。

出于对版权的保护,一般的视频数据集往往收录 URL 链接或者 YouTube ID,一旦作者删除了原视频,这些内容将不会继续被包含在数据集中,除非视频作者明确同意其内容被保留和使用。

虽然微软在其 HD-VILA-100M 数据集的使用声明中明确禁止用于一切商业用途,但是发帖的英伟达员工似乎并不在意,他很快贴出了这份列表对应的 YouTube 链接,并和同事们讨论出了用 AWS 虚拟机换 IP,规避 YouTube 反爬虫机制的解决方案。

除此之外,英伟达的员工还将手伸向了 Google 发布的大规模视频理解数据集 YouTube-8M。和自行补全微软的数据集不同,他们和 YouTube 以及 YouTube 现在的母公司的谷歌达成了一笔「交易」,英伟达以每支视频 0.00625 美元(约等于人民币 4 分钱)的价格买下了 800 万支视频,并将通过谷歌云下载。不考虑出卖版权的问题,谷歌可能以为赚回了这些视频的广告费,但英伟达本来在云带宽方面就存在一些限制,在谷歌云上下载,反而通过能获得更加稳定和可预测的连接。因此,无论从哪个角度来看,这笔「交易」似乎都对英伟达有利。

更令人诧异的是,当有英伟达员工在内网提问:「我们这样下载 YouTube 视频合理吗?」

「这是一个高层决策。我们已经获得了使用所有数据的全面批准。」他得到了这样的回复。

这个决策所允许使用的数据还包含 Netflix 上的视频作品。Netflix 的数据包含很多高质量的人脸数据,在得到批准后,有人在公司内网 @了有在其他大公司「构建大型数据集」的经验的同事帮忙。

同时,Cosmos 团队还考虑了如何有效将游戏画面添加到训练数据中的问题。英伟达高级研究科学家 Jim Fan 在捕获实时游戏画面时也遇到了「监管」的障碍。

Jim Fan 发了个帖子说:

更新:我一直在与 GeForce Now(GFN)的人员开会,和他们制定计划。我们将与 GFN 及相关工程团队紧密合作,开发捕获实时游戏数据的方法,扩大 pipeline 的规模,并对数据加以处理用于训练。高质量的游戏视频将对「我们的 Sora」提供非常有用的补充…… 因为还没有用来捕获实时游戏视频和动作的设备,因此还没有进行统计,但我们将尽快将清理和处理过的 GFN 数据添加到 team-vfm。

今年三月份,Cosmo 项目的视频数据收集达到了一个里程碑:Nvidia 在两周内完成了 10 万次视频下载。

「进展惊人。现在的问题是我们如何才能获得大量高质量的 URL。」Liu 在这个帖子中回复道。

5 月下旬,项目组成员收到了一封关于视频数据策略的邮件,宣布他们已经编译了 3850 万个视频 URL。邮件中说:「根据计划,下周的收集视频的重点仍然是电影、无人机镜头、第一人称视角的镜头、自然风光。」邮件中还包含一张图表,显示了他们下载的内容类型的百分比。

这封邮件透露了一些关键技术信息,包括模型训练数据中的四个数据集:

Ego-Exo4D:一个多样化、大规模、多模式、多视角的视频数据集和基准,由 740 名相机佩戴者在全球 13 个城市收集,拍摄了 1286.3 小时的人类熟练活动视频。

Ego4D:这是一个大规模、以自我为中心的数据集和基准套件,在全球 9 个国家的 74 个地点收集了超过 3,670 小时的日常生活活动视频。

HOI4D:大规模 4D 以自我为中心的数据集,具有丰富的注释,可促进类别级别的人 – 物互动研究。HOI4D 由清华大学、北京大学和上海期智研究院的研究人员创建,采用 CC BY-NC 4.0 许可,禁止商业使用。

GeForce Now:游戏数据。

在另一封邮件中,Cosmos 项目的成员表示:「研究团队现在正在用多种配置训练一个 10 亿参数的模型,每种配置有 16 个节点。在进一步扩展之前,这是一个重要的调试步骤。我们计划在几周内得出结论,然后扩展到 100 亿参数模型。」

「这个更新很棒!」英伟达 CEO 黄仁勋回了这封邮件,他表示:「许多公司都将构建视频基础模型作为目标,我们完全可以做一个加速的 pipeline。」

6 月,项目组成员讨论了在保持人工智能行业竞争力的背景下,模型中哪些类型的内容对英伟达的产品最有用。

「NVIDIA 拥有大多数内容公司所没有的机器人、自动驾驶、Omniverse 和 Avatar。为了最大限度地推动公司发展,我们整理的数据必须能够很好地适用于这些『杀手级』应用程序」,Cosmos 项目的成员说道。

毫无疑问的是,Cosmos 团队正在开发的模型旨在用于其多种产品的商业用途。

在要求这些公司完全公开训练数据的法案落地之前,他们将继续利用法律灰色地带来抓取受版权保护的数据。如果没有内部邮件或者内网对话泄密,任何人都不知道背地里到底发生了什么,而这样的模型可以让像 Nvidia、Runway 或 OpenAI 等科技巨头赚到数十亿美元。

参考链接:

https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/

给TA打赏
共{{data.count}}人
人已打赏
应用

OpenAI人事地震:奥特曼盟友Brockman长期休假,联创Schulman转投Anthropic,产品负责人已离职

2024-8-6 14:10:00

应用

你能分辨 AI 生成的图片和真实照片吗?微软总裁挑战你的眼力

2024-8-6 14:20:18

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索