阿里达摩院提出开源AI图片上色模型DDColor:可以为黑白照片、人物、动漫风景等一键上色!

DDColor 可以为历史黑白老照片提供生动自然的着色。 它甚至可以对动漫游戏中的风景进行着色/重新着色,将您的动画风景转变为逼真的现实生活风格! 相关链接项目:github.com/piddnad/DDColorDemo:replicate.com/piddnad/ddcolor论文:arxiv.org/abs/2212.11613论文阅读摘要图像着色是一个具有挑战性的问题,由于 多模态不确定性和高病态性。

本文经AIGC Studio公众号授权转载,转载请联系出处。

DDColor 可以为历史黑白老照片提供生动自然的着色。它甚至可以对动漫游戏中的风景进行着色/重新着色,将您的动画风景转变为逼真的现实生活风格!

图片

相关链接

  • 项目:github.com/piddnad/DDColor
  • Demo:replicate.com/piddnad/ddcolor
  • 论文:arxiv.org/abs/2212.11613

论文阅读

图片

摘要

图像着色是一个具有挑战性的问题,由于 多模态不确定性和高病态性。直接 训练深度神经网络通常会导致错误 语义色彩和色彩丰富度低。虽然基于转换器的方法可以提供更好的结果,但它们经常依赖 在人工设计的先验上,泛化能力差,而且会引入色差效应。

为了解决这些问题,我们提出了一个端到端 图像着色用双解码器方法。我们的方法包括一个像素解码器和一个基于查询的颜色 译码器。前者恢复图像的空间分辨率 而后者则利用丰富的视觉特征进行细化 颜色查询,从而避免手工制作的先验

我们两个解码器一起工作,以建立之间的相关性 通过交叉注意进行颜色和多尺度语义表征,显著缓解了颜色出血效应。此外,还引入了一种简单而有效的色彩损失来增强色彩的丰富度。大量的实验表明,DDColor在数量上都比现有的最先进的作品具有优越的性能 和定性。

方法

图片

视觉对比。新的着色方法DDColor,能够产生更自然的着色效果 与现有方法相比,在包含多个对象和不同背景的复杂场景中进行生动的着色。

图片

方法概述

我们提出的模型DDColor以端到端的方式对灰度图像xL进行着色。我们首先使用骨干网络提取其特征,然后将其输入到像素解码器中以恢复空间结构 图像的。同时,颜色解码器对不同尺度的视觉特征进行颜色查询,学习语义感知的颜色表示

结构

彩色解码器块。以图像特征和颜色查询作为输入,颜色解码器块建立相关性 通过交叉注意、自我注意和前馈操作在语义和颜色表征之间进行。

简而言之,DDColor使用多尺度视觉特征来优化可学习的颜色标记(即颜色查询),并在自动图像着色上实现最先进的性能。

实验

DDColor可以为历史黑白老照片提供生动自然的着色。

图片

它甚至可以对动画游戏中的风景进行着色/重新着色,将您的动画风景转变为现实生活中的风格!

图片

总结

在这项工作中,我们提出了一种端到端图像着色方法。DDColor的关键在于两个解码器的设计:颜色解码器,它通过使用基于查询的转换器来学习语义感知的颜色查询产生多尺度视觉特征以优化颜色查询。我们的方法在这两方面都超越了以前的方法性能和生成现实和语义一致的着色的能力。

相关资讯

下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

近年来,生成式人工智能(AIGC)引发广泛关注。 Midjourney、Imagen3、Stable Diffusion和Sora等模型能够根据自然语言提示词生成美观且逼真的图像和视频,广受用户喜爱。 然而,这些模型在处理复杂的提示词时仍存在不足。

DeepMind悄悄发布PaliGemma二代,最易微调「视觉语言全能王」来了,多项任务登顶SOTA

OpenAI的发布会仿佛连续剧,让人眼花缭乱,谷歌也悄悄发布了PaliGemma 2模型,迈向可调视觉语言模型的下一代。 今年5月,谷歌发布PaliGemma,也是Gemma家族中的第一个视觉语言模型,致力于模型民主化,降低视觉模型的使用难度。 PaliGemma 2模型以更高性能的Gemma 2为基座,增加了视觉能力,微调起来更容易,性能也更好。

港大&Adobe提出通用生成框架UniReal:通过学习真实世界动态实现通用图像生成和编辑。

本文经AIGC Studio公众号授权转载,转载请联系出处。 今天给大家介绍由香港大学,Adobe提出的统一图像生产与编辑方法UniReal,将多种图像任务统一成视频生成的范式,并且在大规模视频中学习真实的动态与变化,在指令编辑、图像定制化、图像组合等多种任务达到最佳水准。 上图为UniReal多功能性的展示。