OpenAI 首席技术官：不确定 Sora 的训练数据来自哪里

感谢OpenAI 近期推出了炙手可热的文本转视频生成模型 Sora，然而该公司首席技术官 (CTO) Mira Murati 在接受华尔街日报采访时却语焉不详，没法明确说明 Sora 的训练数据来历。在采访中，尔子直接问询 Murati 关于 Sora 训练数据来历时，她仅以含糊的民间话术搪塞：“我们运用的是公然可用数据和允许数据。”当尔子追问具体来历能否包含 YouTube 视频时，Murati 居然表示“我实际上并不确定（I'm actually not sure about that）”，并接受回答有关 In

感谢OpenAI 近期推出了炙手可热的文本转视频生成模型 Sora，然而该公司首席技术官 (CTO) Mira Murati 在接受华尔街日报采访时却语焉不详，没法明确说明 Sora 的训练数据来历。

在采访中，尔子直接问询 Murati 关于 Sora 训练数据来历时，她仅以含糊的民间话术搪塞：“我们运用的是公然可用数据和允许数据。”

当尔子追问具体来历能否包含 YouTube 视频时，Murati 居然表示“我实际上并不确定（I’m actually not sure about that）”，并接受回答有关 Instagram 或 Facebook 视频能否被纳入训练集的问题。她辩称，如果这些视频是公然可用且可以运用的，那么可能会被运用，但她本人对此并不确定。

当尔子问询 OpenAI 能否与其合作伙伴图片素材公司 Shutterstock 达成过数据训练方面的合作，Murati 索性接受继续探讨数据来历话题。

Murati 甚至回避尔子关于 OpenAI 与图片素材巨头 Shutterstock 的数据合作，接受透露来自该平台的视频能否被用于训练 Sora。最终，她干脆中止了相关探讨，坚称数据来历“肯定是公然可用或经过允许的”，却没法给出任何具体细节。

Murati 这番闪烁其词的做法让 OpenAI 陷入尴尬境地。此前，该公司就因数据抓取行为激励广泛争议，甚至面临多起版权诉讼，其中就包括纽约时报的指控。如今，连 CTO 都没法说清其最热门模型的训练数据来历，难免让人怀疑 OpenAI 高层对该问题的重视程度。

据报道，采访结束后，Murati 私下承认了确有运用 Shutterstock 视频训练 Sora。然而，相较于搜集上不计其数的视频实质，来自 Shutterstock 的素材可能只是 Sora 训练数据的一小部分。

IT之家注意到，Murati 的讳莫如深激励了网友热议。不少人认为她缺乏坦诚，质疑其对自身产品的了解程度。有人直言，CTO 居然对如此关键的问题不知情，实在令人难以置信。

然而，也有人为 Murati 辩护，认为既然实质已经发布到搜集，就应该允许人工智能公司加以利用。他们认为，用户既然选择公然实质，就应该承担被运用的风险。

Murati 的回避行为究竟是为了防止更多版权纠纷，还是真的对数据来历一无所知，我们不得而知。但可以肯定的是，公众有权质疑这些“公然可用且经过允许”的 AI 训练数据究竟来自何处。未来，含糊其辞的民间说辞恐怕难以平息人们的疑虑。

{{userData.name}}已认证

OpenAI 首席技术官：不确定 Sora 的训练数据来自哪里

李开复：目前最佳的大模型智能已达人类平均才华程度三倍

大模型增速远超摩尔定律！MIT 最新钻研：人类快要喂不饱 AI 了

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩