火山引擎论文入选国际会议ACM MM'24|对齐人类主观偏好的图像质量评价方法

会议背景2024年10月28日至11月1日,ACM Multimedia(ACM MM) 2024在澳大利亚墨尔本召开,该会议是中国计算机学会(CCF)推荐的多媒体领域的A类国际学术会议。 2024年共4395篇参与审稿,最终录用1149篇论文,录用率26.1%。 火山引擎-流媒体技术与湖南工商大学、湘江实验室合作的论文"Align-IQA: Aligning Image Quality Assessment Models with Diverse Human Preferences via Customizable Guidance" 被ACM Multimedia 2024 收录。

火山引擎论文入选国际会议ACM MM'24|对齐人类主观偏好的图像质量评价方法

会议背景

2024年10月28日至11月1日,ACM Multimedia(ACM MM) 2024在澳大利亚墨尔本召开,该会议是中国计算机学会(CCF)推荐的多媒体领域的A类国际学术会议。2024年共4395篇参与审稿,最终录用1149篇论文,录用率26.1%。

火山引擎-流媒体技术与湖南工商大学、湘江实验室合作的论文"Align-IQA: Aligning Image Quality Assessment Models with Diverse Human Preferences via Customizable Guidance" 被ACM Multimedia 2024 收录。

论文链接:https://openreview.net/pdf?id=CdA18J5jJx

图片

论文方案

论文背景

图像质量评价(Image Quality Assessment, IQA)是图像处理和计算机视觉领域中的一项重要任务,旨在模拟人类视觉系统对图像质量的感知过程,构建与人类主观判断尽可能一致的客观质量评价算法。最初,IQA的研究主要聚焦于评估经过特定处理(如压缩、模糊或添加噪声)的自然场景图像、之后逐步扩展到用户生成内容(User-Generated Content, UGC)(如使用智能手机等电子设备拍摄的图像),以及近年来流行的人工智能生成内容(AI-Generated Content, AIGC)(如通过文本到图像模型生成的图像)。为了应对这些不同类型的图像内容的质量评估需求,研究者们投入了大量精力,提出了多种IQA方法。然而,由于人类对于不同类型的图像内容的偏好存在差异,如何使得IQA模型与这些偏好保持一致,依然是一个亟待解决的挑战。尽管现有的IQA方法通过利用预训练模型中的知识,在评估特定图像内容(自然场景图像、UGC图像)方面取得了重大成功,但由于影响最终评估结果的复杂因素众多,以及这些方法所特有的、精心设计的网络架构,它们在准确捕捉人类对新型的图像内容(AIGC图像)的偏好方面仍存在不足。

基于可定制指导的对齐人类主观偏好的图像质量评价方法——Align-IQA

为了解决现有的IQA方法在准确捕捉人类对新颖图像内容的偏好方面的不足,本文提出了一种基于可定制指导的对齐人类主观偏好的图像质量评价方法——Align-IQA。该方法能够针对不同类型的图像内容,生成与人类偏好高度一致的质量评分。

图片

可定制指导注入模块

在对自然场景图像、UGC图像和AIGC图像进行质量评估时,人类能够根据自身的知识和经验灵活地调整评估标准。对于自然场景图像和UGC图像,人类评估的重点是图像的视觉保真度;而对于AIGC图像,除了视觉保真度之外,人类还会关注图像与文本提示之间的语义一致性。为此,本文提出了一种可定制指导注入模块(Customizable Guidance Injector, CGI),旨在根据不同类型的图像内容(自然场景图像、UGC图像和AIGC图像)引入相应的人类先验知识,从而使得同一个质量评价模型能够针对这些不同类型的图像内容进行自适应评估。

具体而言,对于自然场景图像和UGC图像,CGI模块通过引入视觉显著性特征作为指导,来帮助模型提取与质量感知相关的特征;对于AIGC图像,CGI模块则通过引入图像和文本提示之间的语义一致性特征,来引导模型提取与质量感知相关的特征。

图片

多尺度特征聚合模块

在人类视觉系统中,有许多视觉特性影响着人类对图像质量的感知。为了构建一个能更贴近人类视觉感知的图像质量评价模型,本文提出了一种多尺度特征聚合模块(Multi-scale Feature Aggregator, MSFA)。该模块通过模拟人类视觉系统的多尺度机制,能够更全面且有效地提取与质量感知相关的特征。同时,它还结合了深度可分离膨胀卷积,以较少的参数高效地实现多尺度信息的提取和融合工作。

实验结果

在八个公开数据集(四个自然场景图像数据集:LIVE、CSIQ、TID2013和KADID-10K;两个UGC图像数据集:CLIVE和KonIQ-10K;两个AIGC图像数据集:AGIQA-1K和AGIQA-3K)上的实验结果显示,Align-IQA能够针对不同类型的图像内容,生成与人类偏好高度一致的质量评分。这充分验证了Align-IQA的有效性和普适性。

图片

总结

本文提出了一种基于可定制指导的对齐人类主观偏好的图像质量评价方法—Align-IQA,该方法能够自适应地对自然场景图像、UGC图像和AIGC图像进行高效的质量评估。为了实现这一适应性评估,本文提出了一个可定制指导注入模块,用于根据不同类型的图像内容引入相应的人类先验知识。此外,为了更准确地从人类视觉感知的角度预测图像的质量评分,本文提出了一个多尺度特征聚合模块。实验结果表明,Align-IQA在涵盖多种图像类型的八个公开数据集上,达到了优于或与SOTA方法相当的性能。

相关资讯

全模态对齐框架align-anything来了:实现跨模态指令跟随

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

营销效果大幅提升,AIGC视频创作就该这么用

经过一年多的发展,AIGC 已经从文字对话、图片生成逐步向视频生成迈进。回想四个月前,Sora 的诞生让视频生成赛道经历了一场洗牌,大力推动了 AIGC 在视频创作领域的应用范围和深度。在人人都在谈论大模型的时代,我们一方面惊讶于视频生成带来的视觉震撼,另一方面又面临着落地难问题。诚然,大模型从技术研发到应用实践还处于一个磨合期,仍需结合实际业务场景进行调优,但理想与现实的距离正在被逐步缩小。营销作为人工智能技术的重要落地场景,成为了很多企业及从业者想要突破的方向。掌握了恰当方法,营销视频的创作过程就会事半功倍。如

主打个性化体验,留住用户全靠AIGC?

今天要购买一件商品,我们都会先在社交媒体上搜索、浏览商品的评价,这使得企业在社交平台上针对产品进行营销变得越来越重要。营销的目的是为了促进产品的销售,树立品牌形象,提高品牌认知度,吸引并留住客户,最终提高企业的盈利能力。我们知道,大模型具备出色的理解和生成能力,可以通过浏览、分析用户数据,为用户提供个性化内容推荐,精准满足用户的需求,而这正是营销的关键所在。那么,AIGC 如何通过个性化提升营销转化率呢?在火山引擎和 NVIDIA 联手AI在线和 CMO CLUB 推出的视频栏目《AIGC 体验派》第四期中,两位嘉