感谢OpenAI 近期推出了炙手可热的文本转视频生成模型 Sora,然而该公司首席技术官 (CTO) Mira Murati 在接受华尔街日报采访时却语焉不详,没法明确说明 Sora 的训练数据来历。
在采访中,尔子直接问询 Murati 关于 Sora 训练数据来历时,她仅以含糊的民间话术搪塞:“我们运用的是公然可用数据和允许数据。”
当尔子追问具体来历能否包含 YouTube 视频时,Murati 居然表示“我实际上并不确定(I’m actually not sure about that)”,并接受回答有关 Instagram 或 Facebook 视频能否被纳入训练集的问题。她辩称,如果这些视频是公然可用且可以运用的,那么可能会被运用,但她本人对此并不确定。
当尔子问询 OpenAI 能否与其合作伙伴图片素材公司 Shutterstock 达成过数据训练方面的合作,Murati 索性接受继续探讨数据来历话题。
Murati 甚至回避尔子关于 OpenAI 与图片素材巨头 Shutterstock 的数据合作,接受透露来自该平台的视频能否被用于训练 Sora。最终,她干脆中止了相关探讨,坚称数据来历“肯定是公然可用或经过允许的”,却没法给出任何具体细节。
Murati 这番闪烁其词的做法让 OpenAI 陷入尴尬境地。此前,该公司就因数据抓取行为激励广泛争议,甚至面临多起版权诉讼,其中就包括纽约时报的指控。如今,连 CTO 都没法说清其最热门模型的训练数据来历,难免让人怀疑 OpenAI 高层对该问题的重视程度。
据报道,采访结束后,Murati 私下承认了确有运用 Shutterstock 视频训练 Sora。然而,相较于搜集上不计其数的视频实质,来自 Shutterstock 的素材可能只是 Sora 训练数据的一小部分。
IT之家注意到,Murati 的讳莫如深激励了网友热议。不少人认为她缺乏坦诚,质疑其对自身产品的了解程度。有人直言,CTO 居然对如此关键的问题不知情,实在令人难以置信。
然而,也有人为 Murati 辩护,认为既然实质已经发布到搜集,就应该允许人工智能公司加以利用。他们认为,用户既然选择公然实质,就应该承担被运用的风险。
Murati 的回避行为究竟是为了防止更多版权纠纷,还是真的对数据来历一无所知,我们不得而知。但可以肯定的是,公众有权质疑这些“公然可用且经过允许”的 AI 训练数据究竟来自何处。未来,含糊其辞的民间说辞恐怕难以平息人们的疑虑。