人刚毕业,颠覆整个AI界:扒一扒Sora两带头人博士论文

看看这个时代最伟大 AI 学者的研讨脉络。2024 年是生成式 AI 元年,才到 2 月,OpenAI 就用 Sora 把竞争推向了视频生成的新高度。我们都还记得初见 Sora 作品时受到的震撼,感叹其他竞争对手想要赶上 OpenAI,至少也得需要个半年到一年的时间。Sora 发布后,其开发团队自然也成为关注焦点,人们都想知道具有跨时代意义的 AI 技术是如何被开发出来的。DiT 模型作者谢赛宁曾表示:「他们每天基本不睡觉高强度工作了一年」。随着时间推移,答案正被慢慢揭晓。以下是 OpenAI 技术报告中,Sora

看看这个时代最伟大 AI 学者的研讨脉络。

2024 年是生成式 AI 元年,才到 2 月,OpenAI 就用 Sora 把竞争推向了视频生成的新高度。

我们都还记得初见 Sora 作品时受到的震撼,感叹其他竞争对手想要赶上 OpenAI,至少也得需要个半年到一年的时间。

Sora 发布后,其开发团队自然也成为关注焦点,人们都想知道具有跨时代意义的 AI 技术是如何被开发出来的。DiT 模型作者谢赛宁曾表示:「他们每天基本不睡觉高强度工作了一年」。

随着时间推移,答案正被慢慢揭晓。

以下是 OpenAI 技术报告中,Sora 的十三位作者:

人刚毕业,颠覆整个AI界:扒一扒Sora两带头人博士论文

其中的前两位,Tim Brooks、Bill Peebles,他们被认为是「Sora 之父」,担任 OpenAI Sora 项目研讨主管,又十分年轻 —— 两人都是 2023 年刚刚从加州大学伯克利分校(UC Berkeley)博士毕业的。

在 Sora 技术公开后,他们曾共同进行宣讲,接受过很多媒体采访。

人刚毕业,颠覆整个AI界:扒一扒Sora两带头人博士论文

                              图片中间为 Tim Brooks,右侧为 Bill Peebles。

看两人的工作经历,他们分别是在 2023 年 1 月和 3 月加入 OpenAI 的。

人刚毕业,颠覆整个AI界:扒一扒Sora两带头人博士论文

我们知道,2022 年 11 月 30 日,OpenAI 的 ChatGPT 横空出世,由此掀起了大模型「颠覆世界」的浪潮。

他们追随传奇而来,如今回头望去,自己也成为了传奇。

作为 Sora 背后的主要推动者,Tim Brooks、Bill Peebles 两人的博士毕业论文,也都是以 AI 视频生成为主题的。是时候从技术发展的角度,来研讨一下 Sora 的来龙去脉了。

Tim Brooks

人刚毕业,颠覆整个AI界:扒一扒Sora两带头人博士论文

个人主页:https://www.timothybrooks.com/about/

Tim Brooks 博士毕业于 UC Berkeley 的「伯克利人工智能研讨所」BAIR,导师为 Alyosha Efros。

在博士就读期间,他曾提出了 InstructPix2Pix,他还曾在谷歌从事为 Pixel 手机摄像头提供 AI 算法的工作,并在英伟达研讨过视频生成模型。博士毕业后,Tim Brooks 加入 OpenAI,参与过 GPT-4、Sora 等多项研讨。

2023 年,Tim Brooks 顺利毕业,博士论文接近 100 页。论文题目为《Generative Models for Image and Long Video Synthesis 》。

人刚毕业,颠覆整个AI界:扒一扒Sora两带头人博士论文

论文地址:https://www2.eecs.berkeley.edu/Pubs/TechRpts/2023/EECS-2023-100.pdf

论文简介

在这篇博士论文中,Tim Brooks 提出了将图象和视频生成模型用于一般视觉内容创作的基本要素,主要体现在三个方面:

首先,论文介绍了长视频生成相关研讨,并提出一种网络架构和训练范式,用于从视频中进修长程时间模式,这是将视频生成从较短的剪辑推进到较长形式且连贯视频的关键挑战。

接下来,论文介绍了基于人体姿势生成场景图象的研讨,展示了生成模型用来表示人与周围环境之间关系的能力,并强调了从大型且复杂的日常人类活动数据集中进修的重要性。

最后,论文介绍了一种通过结合大型语言模型和文本到图象模型的能力来创建监督训练数据,从而指导生成模型遵循图象编辑指令的法子。这些工作共同提升了生成模型合成图象和长视频的能力。

Tim Brooks 表示,在他读博期间(2019-2023 年),图象和视频生成模型已经从小范围的演示发展成被广泛采用的创意工具。他非常庆幸自己能在这个关键的时刻攻读视觉生成模型的博士学位,他也对生成模型充满了信心。

接下来我们介绍一下 Tim Brooks 博士论文每章节的主要内容。

第 2 章专注于生成具有丰富动态和新内容的长视频。图 2.1 展示了模型能够生成丰富的运动和场景变化。

人刚毕业,颠覆整个AI界:扒一扒Sora两带头人博士论文人刚毕业,颠覆整个AI界:扒一扒Sora两带头人博士论文

                            来源:https://www.timothybrooks.com/tech/long-video-gan/

本章的主要贡献是一个分层生成器架构,生成器概览图如下所示。

人刚毕业,颠覆整个AI界:扒一扒Sora两带头人博士论文

第 3 章介绍了从反映日常人类活动的复杂现实世界数据中进修的研讨。人、物体及其周围环境之间的相互作用提供了有关世界的丰富信息来源。Tim Brooks 提出了一种通过条件生成模型进修这些关系的法子。早期的生成模型主要集中在特定的内容类别上,例如人脸或特定的对象类。这项工作将生成模型扩展到用人类建模复杂场景的领域。只要输入一个人的骨骼姿势,该模型就能够生成与该姿势兼容的合理场景。该模型既可以生成空场景,也可以生成输入姿势中有人类的场景。

人刚毕业,颠覆整个AI界:扒一扒Sora两带头人博士论文

本小节还设计了一个条件 GAN 来生成与人类姿势兼容的场景,网络架构基于 StyleGAN2 ,如图 3.3 所示。

人刚毕业,颠覆整个AI界:扒一扒Sora两带头人博士论文

这篇论文还强调了通过对日常人类活动的大型视觉数据集进行训练,来理解视觉世界复杂关系的能力。

人刚毕业,颠覆整个AI界:扒一扒Sora两带头人博士论文

第 4 章提出了一种新技术,教生成模型遵循人类编辑指令。图 4.1 显示了模型执行图象编辑指令的示例,图 4.2 显示了在文本消息会话中使用的模拟接口。

人刚毕业,颠覆整个AI界:扒一扒Sora两带头人博士论文

人刚毕业,颠覆整个AI界:扒一扒Sora两带头人博士论文

由于难以大规模获取基于指令的图象编辑训练数据,该研讨提出了一种生成配对数据集的法子,该法子结合了多个在不同模态上预训练的大型模型:大型语言模型(GPT-3 )和文本到图象模型(Stable Diffusion)。这两个模型捕获了关于语言和图象的互补知识,可以将它们结合起来为跨两种模态的使命创建配对训练数据,而这两种模态中的任何一个都无法单独完成。

使用生成的配对数据,Tim Brooks 训练了一个条件扩散模型,该模型在给定输入图象和有关如何编辑文本指令的情况下,生成编辑后的图象。该模型可以直接在前向传播中执行图象编辑,不需要任何其他示例图象、输入 / 输出图象的完整描述或每个示例的微调。尽管模型完全在合成示例上进行训练,但其实现了对任意真实图象和人类指令的零样本泛化。该模型可以按照人类指令执行各种编辑:替换对象、更改图象样式、更改设置、艺术媒介等。

人刚毕业,颠覆整个AI界:扒一扒Sora两带头人博士论文

 最后,我们看一下论文中的一些结果。

人刚毕业,颠覆整个AI界:扒一扒Sora两带头人博士论文

人刚毕业,颠覆整个AI界:扒一扒Sora两带头人博士论文

与其他法子的比较结果如下: 

人刚毕业,颠覆整个AI界:扒一扒Sora两带头人博士论文

人刚毕业,颠覆整个AI界:扒一扒Sora两带头人博士论文

总的来说,这篇博士论文确定了未来视觉生成模型的三个关键组成部分:随着时间的推移建模长程模式,从复杂的视觉数据中进修,以及遵循视觉生成指令。这三个要素对于开发超级智能至关重要,因为它可以执行复杂的视觉创造使命,帮助人类创造,并将人类的想象力带入生活。

William (Bill) Peebles

人刚毕业,颠覆整个AI界:扒一扒Sora两带头人博士论文

个人主页:https://www.wpeebles.com/

2023 年,William (Bill) Peebles 在伯克利人工智能研讨中心获得了博士学位,导师是 Alyosha Efros,与 Tim Brooks 师出同门。

William (Bill) Peebles 本科毕业于麻省理工学院,曾在 FAIR、Adobe Research 和 NVIDIA 实习过。在攻读博士学位期间,他得到了美国国家科学基金会(NSF)研讨生研讨奖学金计划的支持。

William (Bill) Peebles 的博士论文以图象生成模型为主题,论文题目是《Generative Models of Images and Neural Networks》。

人刚毕业,颠覆整个AI界:扒一扒Sora两带头人博士论文

论文地址:https://www.proquest.com/openview/818cd87d905514d7d3706077d95d80b5/1?pq-origsite=gscholar&cbl=18750&diss=y

论文简介

大规模生成模型推动了人工智能的最新进展。这种范式使得人工智能的许多问题取得了突破,其中自然语言处理(NLP)领域是最大的受益者。

给定一个新使命,预训练生成模型可以零样本地解决该使命,也可以在少量特定于使命的训练样本上进行有效的微调。

然而,在视觉、元进修等领域,生成式模型的进展却落后了。

William (Bill) Peebles 的博士论文研讨了训练改进的、可扩展的两种模态(图象和神经网络参数)的生成式模型的法子,并研讨了如何利用预训练生成式模型来解决其他下游使命。

首先,该论文证明保留了扩散模型图象生成扩展特性的扩散 transformer(DiT),优于之前主导该领域的卷积神经网络。

人刚毕业,颠覆整个AI界:扒一扒Sora两带头人博士论文

人刚毕业,颠覆整个AI界:扒一扒Sora两带头人博士论文

值得注意的是,DiT 架构是在一篇题为《Scalable Diffusion Models with Transformers》的论文中被正式提出的,第一作者就是 William Peebles,另外一位论文作者是纽约大学的谢赛宁。

人刚毕业,颠覆整个AI界:扒一扒Sora两带头人博士论文

然后,William (Bill) Peebles 的博士论文提出了一种新型进修框架,旨在基于构建新数据源(神经网络检查点)的生成式模型进行进修。

该论文创建了包含数十万次深度进修训练运行的数据集,并使用它来训练生成式模型。给定起始参数向量和目标损失、错误或奖励,在此数据上训练的损失条件扩散模型可以对实现所需指标的参数更新进行采样。

这种法子克服了以前元进修算法的许多困难 —— 它可以优化不可微目标,并省去不稳定的展开优化法子。与 SGD 和 Adam 等基于梯度的迭代优化器无法从优化历史中进修不同,该论文提出的生成模型只需一次生成的参数更新即可通过随机初始化来优化神经网络。

人刚毕业,颠覆整个AI界:扒一扒Sora两带头人博士论文

该论文证明,预训练 GAN 生成器可用于创建无限数据流来训练网络,以解决密集视觉相关问题,而无需任何人工注释的监督。该论文表明,采用完全由 GAN 生成的数据进行训练的神经网络,性能优于之前在真实数据上训练的自监督和关键点监督法子。

人刚毕业,颠覆整个AI界:扒一扒Sora两带头人博士论文

该论文将所提框架应用于视觉和强化进修问题,并探讨了如何使用预训练图象级生成模型来处理视觉领域的下游使命,而无需特定于使命的训练数据。

人刚毕业,颠覆整个AI界:扒一扒Sora两带头人博士论文

参考内容:

https://www.timothybrooks.com/about/

https://www.wpeebles.com/

给TA打赏
共{{data.count}}人
人已打赏
应用

最难「讨好」的消费者,竟然都被AIGC征服了?

2024-7-1 15:20:00

应用

速来!潞晨Open-Sora羊毛可薅,10元轻松上手视频生成

2024-7-1 15:37:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索