Sora爆红视频幕后:被骗了,用了成吨的后期才有这效果

「不怕 AI 消灭人类,就怕用 AI 的人太聪明。」今年 2 月份,OpenAI 发布了人工智能文生视频大模型 Sora,并放出了第一批视频片断,掀起了 AI 生成视频浪潮。目前,Sora 仍未进行公测,只有一些视觉艺术家、设计师、片子建造人等获得了 Sora 的访问权限。他们发布了一些 Sora 生成的视频短片,其连贯、逼真的生成效果令人惊艳。最近,被誉为「朋克摇滚皮克斯」的加拿大多媒体建造公司 Shy Kids 发布了一段借助 Sora 建造的视频短片《Air Head》,在社交媒体上迅速引起广泛关注。据悉,这

「不怕 AI 消灭人类,就怕用 AI 的人太聪明。」

今年 2 月份,OpenAI 发布了人工智能文生视频大模型 Sora,并放出了第一批视频片断,掀起了 AI 生成视频浪潮。目前,Sora 仍未进行公测,只有一些视觉艺术家、设计师、片子建造人等获得了 Sora 的访问权限。他们发布了一些 Sora 生成的视频短片,其连贯、逼真的生成效果令人惊艳。

最近,被誉为「朋克摇滚皮克斯」的加拿大多媒体建造公司 Shy Kids 发布了一段借助 Sora 建造的视频短片《Air Head》,在社交媒体上迅速引起广泛关注。

Sora爆红视频幕后:被骗了,用了成吨的后期才有这效果

据悉,这部建造精美的短片主要由 3 个人完成,花费不到 2 周的时间。其中,Sidney Leeder 担任制片人,Walter Woodman 担任编剧和导演,而 Patrick Cederberg 负责后期建造。

本周,知名视觉特效总监 Mike Seymour 采访了 Patrick Cederberg,就《Air Head》建造过程、技术难点等信息展开了提问,并在 fxguide 上发布一篇文章介绍了 Sora 在视频实际建造过程中发挥的作用和存在的问题。

Sora爆红视频幕后:被骗了,用了成吨的后期才有这效果

                         Patrick Cederberg

其中,Patrick 表示:「Sora 是一款非常强大的工具,我们已经在思考如何把它融入现有片子建造流程中,但目前 Sora 仍处于测试阶段,在影片建造过程中也会『翻车』。例如,气球的颜色在每次生成中都会改变、镜头中会出现一些瑕疵等等,要想获得最佳表现效果,仍需大量后期建造。」

AI 生成视频并非仅仅是图像生成器的进阶版。更准确地说,它们可能是我们向通用人工智能(AGI) 迈出的重要一步。但正如 Sora 开发团队本周接受采访时所说的,当前的 AI 视频模型仍处于早期阶段。

Sora爆红视频幕后:被骗了,用了成吨的后期才有这效果

OpenAI 研究科学家,Sora 项目领导者 Tim Brooks 表示:我觉得现在 Sora 位置,就像是视觉模型新范式的 GPT-1 阶段。

《Air Head》是如何完成的?机器之心对 Mike Seymour 的文章进行了不改变原意的编译、整理,以下是该文章原文:

用户界面(UI)

Sora 的用户界面允许用户输出一段文本 prompt,然后 ChatGPT 将其转换为一个更长的字符串,再触发视频片断的生成。目前,不其他输出方式 —— 还不实现多模态输出。这一点很重要,因为尽管 Sora 因其生成结果中的对象一致性而受到称赞,但目前还不任何方法来帮助匹配两个镜头(即两次生成)的内容。即使第二次运行相同的 prompt,生成结果也会不同。

Patrick 介绍说:「我们尽可能做到的是在我们的 prompt 中给出超级详细的描绘,例如解释角色的服装、气球的类型。这是我们获得一致性的方法。从一个镜头到另一个镜头 / 一次生成到下一次生成,还不完全控制一致性的方法。」

Sora爆红视频幕后:被骗了,用了成吨的后期才有这效果

单个视频片断的确可以展现 Sora 令人惊叹的技术,但利用这些片断取决于你对隐式或显式镜头生成的理解。

假设你要求 Sora 在厨房里进行一个长镜头跟踪拍摄,桌子上有一个香蕉。在这种情况下,它将依赖其对「香蕉属性」的隐式理解来生成一个展示香蕉的视频。通过训练,Sora 已经学习了一些香蕉属性:比如「黄色」、「弯曲」、「有深色的末端」等等。不香蕉的实际记录图像。不「香蕉数据库」,而是有一个更小的、压缩的、隐藏的「潜在空间」,描绘了香蕉是什么,每次运行都会展示对潜在空间的一种新解释。你的 prompt 依赖于对香蕉属性的隐式理解。

建造角色

为了建造《Air Head》,团队根据大致的剧本生成了多个视频片断,但是不明确的方式来确保黄色气球头在每个镜头中都保持相同。有时,当 prompt 要一个黄色气球时,生成结果甚至可能不是黄色的。有时,气球上可能嵌入了一张脸,或者似乎在气球的正面画了一张脸。由于现实生活中许多气球都有绳子,因此生成结果中称为 Sonny 的气球人经常会在衣服前襟处有一根绳子。这是因为 Sora 隐式地将绳子与气球联系起来,因此在后期建造中这些必要被移除。

Sora爆红视频幕后:被骗了,用了成吨的后期才有这效果

分辨率

《Air Head》只利用了 Sora 生成的镜头,但其中很多镜头都经过了调色、处理和稳定化,所有镜头都被提高了分辨率。团队处理的这些片断最初是以较低分辨率生成的,然后利用 Sora 或 OpenAI 之外的 AI 工具进行超分。

Sora爆红视频幕后:被骗了,用了成吨的后期才有这效果

「你可以采用 720p 的分辨率,我相信已经有 1080p 了,但它必要一段时间来衬着。为了速度,《Air Head》的所有镜头都是以 480p 建造的,然后利用 Topaz 来提高分辨率」,Patrick 介绍道。

在关键帧方面,Patrick 解释道:「在实际生成中,不同动作的发生有一点时间控制,但并不精确,甚至有点像是碰运气 —— 目前还不确定 Sora 是否真的能完成这一点。」不过,Shy Kids 利用的是最早版本的模型,Sora 仍在不断开发中。

除了选择分辨率,Sora 还允许用户选择长宽比,比如肖像模式或风景模式(或正方形)。这在从 Sonny 的牛仔裤向上摇摄到他的气球头的镜头中非常有用。遗憾的是,Sora 无法原生衬着这样的移动,总是希望镜头的主要焦点 —— 气球头出现在镜头中。因此,团队以肖像模式衬着了这个镜头,然后通过后期的裁剪手动创建了向上摇摄的效果。

摄像机方向

对于许多生成式 AI 工具来说,训练数据附带的元数据是宝贵的信息来源,比如摄像机元数据。例如,如果在静态照片上进行训练,摄像机元数据将提供镜头尺寸、光圈值以及其他许多对模型训练至关重要的信息。

在片子镜头中,「跟踪」、「平摇」、「竖摇」、「推进」等概念都不是元数据所能捕捉的术语或概念。

描绘镜头对影片建造来说非常重要,Patrick 指出:「最初 Sora 中并不这个功能。不同的人描绘片子镜头的方法也不同。OpenAI 的研究人员在艺术家利用这个工具之前,并不真正像片子建造人那样思考。」

Shy Kids 知道他们利用的是 Sora 早期版本,但「初始版本的 Sora 在摄像机角度方面有点随机。」Sora 是否真的能理解 prompt 还不得而知,OpenAI 的研究人员只是专注于视觉生成,或许不考虑故事讲述者将如何利用它。

「Sora 正在改进,生成控制还不完全到位。输出一个『摄像机摇摄』,我认为十次中有六次会得到想要的结果」,Patrick 说道。

这不是一个个例问题,几乎所有 AI 视频生成公司都面临着同样的问题,Runway AI 可能是在提供描绘摄像机运动方面最先进的,但 Runway 衬着片断的质量和长度都不如 Sora。

衬着时间

视频片断可以以不同长度的时间段进行衬着,如 3 秒、5 秒、10 秒、20 秒,最长可达一分钟。衬着时间取决于一天中的时间段(例如早、中、晚)以及云服务的需求量。

Patrick 介绍:「一般来说,每次衬着大约必要 10 到 20 分钟。根据我的经验,我选择的衬着时长对衬着时间的影响很小。如果衬着时长是 3 到 20 秒,衬着时间往往不会在 10 到 20 分钟的范围内变化太大。」

虽然所有画面都是 Sora 生成的,但《Air Head》仍然必要大量后期工作。例如,有时会有一张脸在气球人 Sonny 上,就好像是用记号笔画上去的,这些瑕疵将在后期工作中被移除。

Sora爆红视频幕后:被骗了,用了成吨的后期才有这效果

Sora爆红视频幕后:被骗了,用了成吨的后期才有这效果

原始素材 vs 最终成品 ——300:1

Shy Kids 的方法是像建造纪录片一样进行后期建造和编辑,即有很多镜头,你必要从这些素材中编织出一个故事,而不是严格按照剧本拍摄。虽然这部短片有一个剧本,但团队必要灵活适应。

「这就像是得到一大堆镜头,然后尝试以一种有趣的方式剪辑到旁白中」,Patrick 介绍道。

对于最终出现在影片中的 90 秒镜头,Patrick 估计他们生成了「数百个 10 到 20 秒的片断」。他补充说:「我猜原始素材和最终成品的比例大概是 300:1。」

奇怪的「慢动作」

《Air Head》的许多片断生成时就好像是以慢动作拍摄的,尽管这并不在 prompt 中被要求。这种情况发生的原因尚不清楚,但许多片断因此必要重新调整时间,以使其看起来像是实时拍摄的。这似乎与训练数据有关。

值得一提的是,Shy Kids 在他们的 prompt 中利用了「35 mm film(35 毫米胶片)」这个关键词,并发现这在一定程度上给了他们所追求的一致性。

版权问题

OpenAI 试图尊重版权,不允许生成可能侵犯版权或侵犯肖像权的内容。例如,如果用户的 prompt 类似于「35 毫米胶片,在一个未来主义的太空船中,一个男人拿着光剑向前走」,Sora 将不允许生成该片断,因为它太接近《星球大战》了。

Patrick 回忆说,当他们最初只是想测试 Sora 时:「我不假思索地输出了『阿罗诺夫斯基类型的镜头』,然后就被告知不能这样做。」Sora 出于版权问题会拒绝这类 prompt。

值得注意的是,Sora 生成的视频都是不声音的,《Air Head》中主角 Sonny 的声音是 Patrick 本人的声音。

Shy Kids 团队表示已经开始为《Air Head》建造一部精彩的、人物有自我意识的、或许带点讽刺意味的续集。但对于片子建造等实际项目来说,Sora 可能还必要一段时间才能达到创作者所需的精确度。

参考链接:

https://www.fxguide.com/fxfeatured/actually-using-sora/

给TA打赏
共{{data.count}}人
人已打赏
应用

亚马逊钻研奖获奖名单出炉:谢赛宁、Mamba作者Albert Gu等入选

2024-4-29 14:42:00

应用

首届AI方程式大赛,8圈开了一个小时

2024-4-29 14:59:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索