AI 逆向绘画:一键重绘梵高《罗纳河上的星夜》,来自华盛顿大学

梵高名作也能被 AI 逆向破解了?!直接喂一张原图,AI 就能化身梵高・本高一点点重绘整张图画(原图可任意)。

梵高名作也能被 AI 逆向破解了?!

直接喂一张原图,AI 就能化身梵高・本高一点点重绘整张图画(原图可任意)。

梵高《罗纳河上的星夜》

▲ 梵高《罗纳河上的星夜》

仔细对照两边,AI 几乎实现了 1:1 复刻,还为我们这些绘画小白清晰展示了整幅图的构建过程。

AI 逆向绘画:一键重绘梵高《罗纳河上的星夜》,来自华盛顿大学

这项魔法来自华盛顿大学,项目名为 Inverse Painting,相关论文已入选 SIGGRAPH Asia 2024,其中两位作者还是东北大学(Bowei Chen )和上海科技大学(Yifan Wang)的校友。

AI 逆向绘画:一键重绘梵高《罗纳河上的星夜》,来自华盛顿大学

项目一经发布后即在 Reddit 引起热议,最高赞更是为艺术家群体操起了心(doge)。

艺术家可能会对此感到愤怒

AI 逆向绘画:一键重绘梵高《罗纳河上的星夜》,来自华盛顿大学

AI 逆向绘画:一键重绘梵高《罗纳河上的星夜》,来自华盛顿大学

不过也有人表示,这对于人们学习如何绘画非常有帮助。

AI 逆向绘画:一键重绘梵高《罗纳河上的星夜》,来自华盛顿大学

甚至可以用来“破解”一些大师遗作,提取隐藏或失传的技术。

AI 逆向绘画:一键重绘梵高《罗纳河上的星夜》,来自华盛顿大学

基于扩散模型

从原图 → 绘画过程延时视频,Inverse Painting 采用基于扩散的逆绘画方法。

通过学习真实艺术家的绘画视频,结合文本和区域理解来定义绘画“指令”,并使用基于扩散的渲染器更新画布,从而生成类似于人类艺术家绘画过程的视频。

AI 逆向绘画:一键重绘梵高《罗纳河上的星夜》,来自华盛顿大学

进一步拆解,这一过程主要包括以下步骤:

  • 学习艺术家的绘画过程。收集了 294 个丙烯酸风景画绘画过程视频(平均时长 9 分钟),并进行视频帧分割、裁剪和筛选等预处理操作,让模型学习绘画过程;

  • 定义绘画指令。基于对画作不同元素(比如天空、树木、人物等)以及元素相互关系的理解,模型会生成一组“绘画指令”,告诉模型应该先画什么,后画什么;

  • 使用扩散模型。用扩散模型生成逼真图像,并逐步在画布上添加细节,就像艺术家绘画时一样;

  • 文本和区域理解。模型还会生成文本指令和区域掩码,前者告诉模型要绘制的内容,后者用来指定内容的确切位置;

  • 逐步渲染。从一个空白画布开始,逐步生成完整绘画过程;

  • 时间控制。为了模拟真实世界中艺术家的绘画速度,模型还会考虑每步之间的时间间隔;

这些步骤整体可归为两阶段训练 + 测试,如下所示:

AI 逆向绘画:一键重绘梵高《罗纳河上的星夜》,来自华盛顿大学

第一阶段:指令生成(Instruction Generation)

这个阶段主要生成两个关键指令集,文本指令生成器(Text Instruction Generator)和区域掩码生成器(Mask Instruction Generator)。

前者通过比较目标画作和当前画布的状态,生成一个简短的文本指令,比如“画天空”或“加花朵”,以此决定下一步应该添加哪些元素。

后者是一个二进制图像,指明了画布上应该更新哪些部分。

两者一结合,确保模型只在画布上合适的区域进行绘制。

生成的文本指令

▲ 生成的文本指令

第二阶段:画布渲染(Canvas Rendering)

接下来使用第一阶段生成的指令来更新画布。

利用文本指令和区域掩码,以及当前画布的图像和目标画作,一个基于扩散的渲染器被用来更新画布。

这个渲染器采用了一种叫做“去噪扩散概率模型”的技术,它逐步从噪声图像中去除噪音,以生成连续的图像帧。

总之,渲染器在更新画布时会考虑多种条件信号,包括文本指令、区域掩码、时间间隔,以及目标画作和当前画作的特征。

这些条件信号帮助渲染器更准确地模拟人类艺术家的绘画风格和过程。

AI 逆向绘画:一键重绘梵高《罗纳河上的星夜》,来自华盛顿大学

测试(Test-Time Generation)

在测试阶段,模型使用训练好的管道从头开始生成一幅画作。

这里主要有两个关键:

  • 自回归过程。每一步都依赖于前一步生成的结果,以此生成一个连贯的绘画过程;

  • 固定时间间隔。在每一步之间采用固定时间来更新画布,模拟真实绘画过程中的时间流逝;

最终,与三个基线方法(Timecraft、Paint Transformer、Stable Video Diffusion)相比,其生成结果明显更优。

AI 逆向绘画:一键重绘梵高《罗纳河上的星夜》,来自华盛顿大学

同时,相关变体也取得了 SOTA 结果。

AI 逆向绘画:一键重绘梵高《罗纳河上的星夜》,来自华盛顿大学

其中两位作者为华人

简单介绍下项目作者,一共 5 位,其中两位是华人。

AI 逆向绘画:一键重绘梵高《罗纳河上的星夜》,来自华盛顿大学

Bowei Chen (陈柏维),本科就读于国内东北大学软件工程专业(2016 年入学),后分别在卡内基梅隆大学机器人研究所和华盛顿大学攻读硕博。

研究兴趣为计算机视觉和图形学的交叉点,重点是图像和视频生成。

AI 逆向绘画:一键重绘梵高《罗纳河上的星夜》,来自华盛顿大学

Yifan Wang,本科就读于上海科技大学计算机专业,今年刚获得华盛顿大学 CS 博士学位。

个人主页显示了多段工作经历(含字节、谷歌、Adobe 等),目前是 Meta Reality Labs Research 的一名研究科学家。

AI 逆向绘画:一键重绘梵高《罗纳河上的星夜》,来自华盛顿大学

实际上,这个团队进行的 AI 逆向绘画之前也有,网友们还提到了 Paints Undo 这个项目。

当时主要应用于动漫领域,短短 3 个月已在 GitHub 揽星 3.3K。

AI 逆向绘画:一键重绘梵高《罗纳河上的星夜》,来自华盛顿大学

对于这事儿,人们一直褒贬不一,最大争议在于人们担心有人会利用 AI 谎称作者。

毕竟通过讲解艺术思路是作者证明作品原创性的手段之一。

AI 逆向绘画:一键重绘梵高《罗纳河上的星夜》,来自华盛顿大学

甚至对于它能教人们学绘画这事儿,也有网友以自身经历出来反驳:

目前不太符合真实绘画过程

AI 逆向绘画:一键重绘梵高《罗纳河上的星夜》,来自华盛顿大学

AI 逆向绘画:一键重绘梵高《罗纳河上的星夜》,来自华盛顿大学

所以,有了解绘画的童鞋来说说看吗?

参考链接:

  • [1]https://inversepainting.github.io/

  • [2]https://www.reddit.com/r/singularity/comments/1fybddi/inverse_painting_can_generate_timelapse_videos_of/

本文来自微信公众号:量子位(ID:QbitAI),作者:一水,原标题《AI 逆向绘画火了!一键重绘梵高《星空》,来自华盛顿大学》

相关资讯

AI 斗图神器:普通视频秒变 meme,手绘动画轻松融入

哎鸭,鸭鸭摔倒了!鸭鸭是真的,摔跤是真的,但端的咖啡和端咖啡的手,是 AI 给 p 上去的。△ 还好手里的咖啡只洒了亿点点来自一个开源项目,VideoDoodles,这两天在外网上的讨论度直线上升。这项目妙就妙在,能给视频加上手绘风格的涂鸦,可可爱爱的也行,奇奇怪怪的也行。就跟人工一帧一帧画上去的没差。这对目前市场上大多数的 2D 视频编辑软件来说,还是比较难的。想要达成同等效果,一般还是得创作者真・一帧一帧画上去。怪费力气的。但 VideoDoodles 能靠在视频中重建 3D 场景,然后在其中放置平面画布,来生

让 AI 模型互相教学,谷歌推出社会学习框架

谷歌近日公开了一项名为“社会学习(Social Learning)”的 AI 框架,该框架允许 AI 语言模型能够通过自然语言互相学习,由于不需要直接交换敏感关键信息,因此训练出的 AI 模型更具隐私保护性。据介绍,在这款“社会学习框架”中,“学生模型”会向多个已知特定任务解法的“教师模型”学习各种问题的解决方案,研究人员设计了“垃圾短信检测”、“解决小学数学问题”、“根据特定文字回答问题”等多项测试,来评估相关“社会学习”框架的成效。研究人员表示,部分 AI 模型只经过短暂的“社会学习”框架训练,便能够能获得良好

OpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队:研究不微调只靠提示词能走多远

除了 OpenAI 自己,居然还有别人能用上 GPT-4-Base 版??也就是未经微调的预训练版,还不会对话聊天,只会补全句子的模型。EPFL(瑞士洛桑联邦理工)团队申请到了访问权限,用于研究“上下文学习足以让大模型跟随指令吗?”。也就是不用监督微调、也不用 RHLF 或其他强化学习对齐方法,只靠提示词能走多远?预训练模型,究竟能不能一步登天,直接改造成聊天机器人或 AI 助手?如果可行,将大大降低类 ChatGPT 大模型的开发难度。免微调对齐靠谱吗?免微调对齐,让刚出炉的预训练模型不止会“文本补全”,只从提示