从低清图象中提炼认知特色,这样的超分辨率才更实在。
图象超分辨率技术旨在将低分辨率图象转换为高分辨率图象,从而提高图象的清晰度和细节实在性。随着超分技术的发展和手机硬件性能的提升,人们期望拍摄出更加清晰的照片。这项技术在手机影像等领域有着广泛的应用和需求。
然而,现有的超分方式存在一些局限性,如下图所示,主要有以下两个方面:
一是缺乏泛化能力。为了实现更好的超分效验,通常需要针对特定场景使用特定传感器采集到的数据来进行模型训练,这种学习方式拟合了某种低清图象和高清图象间的映射,但在其他场景下表现不佳。此外,逐场景训练的方式计算成本较高,不利于模型的部署和更新。
二是缺乏明白能力。现有的超分方式主要依赖于从大量数据中学习图象的进化分布,忽视了对图象实质的明白,无法利用常识来准确复原物体的结构和纹理。
图 2. 实在场景超分 SOTA 方式的局限性:(行一)难以处理训练集外的进化分布;(行二)难以利用常识复原物体结构。
人类在处理信息时,有两种不同的认知反馈零碎。诺贝尔奖经济学得主丹尼尔・卡尔曼在《思考,快与慢》中将它们称为零碎一和零碎二,如图 3 所示。
零碎一是快速的、直觉的、鉴于记忆的反馈,比如,我们可以脱口而出十以内的加减运算。零碎二是缓慢的、多步的反馈,比如,28×39 往往需要逐步运算。现有的超分方式更贴近零碎一,它们主要依赖于从大量数据中学习图象的进化分布,忽视了对图象实质的明白,无法按照常识来准确复原物体的结构和纹理,也无法处理域外的进化情况。
图 3. CoSeR 采用类似于人脑中零碎二的建设方式。
近日,由清华大学、华为诺亚方舟实验室、香港科技大学等机构提出的研究,通过将图象外观和语言明白结合起来生成认知特色,实现了认知超分辨率框架,使 SR 模型可以或许明白低分辨率图象。
本文认为,真正能有效应用于实在场景的画质大模型应该具备类似零碎二的多步建设能力,即鉴于对图象实质的认知,结合先验知识来实现图象超分(Cognitive Super-Resolution,CoSeR)。
项目主页:https://coser-main.github.io/
ArXiv:https://arxiv.org/abs/2311.16512
图 1. LR,GR 和 SR 分别为低清图象、鉴于对低清图象的认知生成的参照图象和超分图象。
CoSeR 模仿了人类专家建设低质量图象自上而下的思维方式,首先建立对图象实质的全面认知,包括识别场景和主要物体的特色,随后将重点转移到对图象细节的检查和还原。本文的主要贡献如下:
提出了一种通用的万物超分画质大模型 CoSeR,它可以或许从低清图象中提炼认知特色,包括场景实质明白和纹理细节信息,从而提高模型的泛化能力和明白能力。
提出了一种鉴于认知特色的参照图象生成方式,它可以或许生成与低清图象实质一致的高质量参照图象,用于指导图象的复原过程,增强图象的保真度和美感度。
提出了一种「All-in-Attention」模块,它可以或许将低清图象、认知特色、参照图象三个条件注入到模型当中,实现多源信息的融合和增强。
在多个测试集和评价指标上,相较于现有方式,CoSeR 均取得了更好的效验。同时,CoSeR 在实在场景下也展现颇佳。
方式介绍
图 4 揭示了 CoSeR 的整体架构。CoSeR 首先使用认知编码器来对低清图象进行解析,将提炼到的认知特色传递给 Stable Diffusion 模型,用以激活扩散模型中的图象先验,从而复原更精细的细节。
此外,CoSeR 利用认知特色来生成与低清图象实质一致的高质量参照图象。这些参照图象作为辅助信息,有助于提升超分辨率效验。最终,CoSeR 使用提出的「All-in-Attention」模块,将低清图象、认知特色、参照图象三个条件注入到模型当中,进一步提升结果的保真度。
图 4. 本文提出的万物超分画质大模型 CoSeR。
图 5 揭示了 CoSeR 参照图象生成的效验。与直接从低清图象中获取形貌的方式相比,CoSeR 的认知特色保留了细粒度的图象特色,在生成具有高度相似实质的参照图象时具有优势。在图 5 的第一行,使用 BLIP2 从低清图象生成的形貌无法准确识别动物的类别、颜色和纹理。
此外,CoSeR 的认知特色对于低清图象更加鲁棒。例如,在图 5 的第二行,由于输入分布的差异,BLIP2 会生成错误的图象形貌,而 CoSeR 生成了实质一致的高质量参照图象。最后,相比于 BLIP2 大模型接近 7B 的参数量,CoSeR 的认知编码器只有其 3% 的参数量,极大提升了推理速度。
图 5.(行一)使用 BLIP2 形貌生成的参照图和 CoSeR 生成的参照图;(行二)CoSeR 的高鲁棒性。
结果揭示
表 1 和图 6 揭示了 CoSeR 与其他方式的定量和定性结果对比。CoSeR 在含有丰富类别的 ImageNet 数据集及实在超分数据集 RealSR 和 DRealSR 上,都取得了不错的结果。CoSeR 可以或许复原出更加清晰和自然的图象细节,同时保持了图象的实质一致性和结构完整性。
表 1. 定量结果对比。
图 6. 定性结果对比。
本文提出的 CoSeR 模型为图象超分辨率技术提供了一种新的思路和方式,它可以或许从低清图象中提炼认知特色,用于激活图象先验、生成参照图象,从而实现高质量的万物超分效验。研究人员表示,未来的研究重点是如何在不影响超分性能的情况下加速采样,以获得更高的视觉质量。
此外,作者还将探索统一模型在更多样化的图象建设任务中的表现。