CVPR 2024 | 打破黑白边界,融合美学与实用性的二维码生成技术来了

图表 1第一行:对于同一个二维码,我们可以提供不同美化风格的支持。第二行:放大图像的细节,可以看到我们的算法能得到细节丰富且自然的美学二维码。在数字世界与物理世界无缝连接的今天,二维码(QR codes)已经成为了连接这两个领域的重要桥梁。这种二维编码方式广泛应用于各类场景中,从广告到支付,再到信息传递,几乎无处不在。然而,尽管二维码在功能上表现出色,但它的外观却相对单调,通常以黑白方块为主,难以与现代视觉美学相契合。随着用户和行业需求的不断变化,越来越多的人希望二维码不仅能够高效传递信息,还能具有视觉上的吸引力。

CVPR 2024 | 打破黑白边界,融合美学与实用性的二维码生成技术来了

图表 1第一行:对于同一个二维码,我们可以提供不同美化风格的支持。第二行:放大图像的细节,可以看到我们的算法能得到细节丰富且自然的美学二维码。

在数字世界与物理世界无缝连接的今天,二维码(QR codes)已经成为了连接这两个领域的重要桥梁。这种二维编码方式广泛应用于各类场景中,从广告到支付,再到信息传递,几乎无处不在。然而,尽管二维码在功能上表现出色,但它的外观却相对单调,通常以黑白方块为主,难以与现代视觉美学相契合。随着用户和行业需求的不断变化,越来越多的人希望二维码不仅能够高效传递信息,还能具有视觉上的吸引力。然而,传统的二维码设计过于强调功能性,忽略了美学上的潜力。

为了解决这一问题,上海交通大学的研究人员提出了首个基于Diffusion模型的美化二维码生成框架Text2QR。该论文已被CVPR2024接收。

CVPR 2024 | 打破黑白边界,融合美学与实用性的二维码生成技术来了

论文链接:https://arxiv.org/abs/2403.06452

项目主页:https://mulns.github.io/Text2QR/

传统与创新:美学二维码的进化之路

早期的美学二维码生成方法多采用图像变换技术,如重组、融合以及风格迁移等方式,虽然这些方法能够生成预定义的图像风格,但在满足用户个性化需求方面仍然存在局限性。不同用户的审美偏好多种多样,现有的方法很难同时兼顾二维码的功能性与美观性。

近年来,图像生成与控制技术的进步为美学二维码的生成带来了新的契机。基于稳定扩散模型(stable diffusion models)的技术已经成为生成高质量、灵活图像内容的重要引擎。特别是ControlNet的出现,使得控制二维码中亮度和暗度关系的操作成为可能。然而,这些方法在保持二维码扫描稳定性方面仍然存在挑战,尤其是生成过程中容易出现不稳定性,导致需要大量的手动调整和辅助控制模型介入。

全新Text2QR框架:美学与功能性的完美结合

Text2QR框架的设计初衷是解决二维码生成过程中常见的两大难题:美学要求功能性(可扫描性)的平衡。传统二维码虽然能够高效传递信息,但其设计以黑白方块为主,视觉上缺乏美感。而当尝试引入图像或艺术元素时,二维码的可识别性往往受到影响。为了解决这一痛点,Text2QR通过三大核心步骤,将用户的美学需求与二维码的可扫描性紧密结合。

CVPR 2024 | 打破黑白边界,融合美学与实用性的二维码生成技术来了

图 2上图为我们的算法Pipeline,除了第一阶段为用户定制阶段,第二、三阶段均为自动化优化过程,可以端到端地得到可扫且美学上对齐的二维码。在用户定制阶段,用户可以通过调整Prompt获得自己想要的图像内容,再进入第二阶段将二维码信息嵌入图像中,最后通过第三阶段来增强二维码的扫描鲁棒性。

1. 图像生成与信息编码的定制

Text2QR的第一步是利用稳定扩散模型(stable diffusion model)生成用户所需的图像。用户可以根据个人需求,设计出具有美学元素的图像,如品牌标志、艺术插画等。同时,用户还可以输入需要编码的信息,系统将其转换为标准的二维码。这一过程生成了两个核心组件:一个是用户自定义的图像,另一个是代表信息内容的二维码。

2. QR美学蓝图(QAB):视觉与功能的第一次交汇

在第二步,Text2QR引入了QR美学蓝图(QAB)模块,这是该框架的核心创新之一。QAB模块的作用是将用户生成的图像与二维码进行融合,生成一个“二维码蓝图”,既包含二维码的信息,也保留了用户定义的美学风格。

该蓝图生成过程基于稳定扩散模型的ControlNet技术,它能够智能调节图像中的亮暗关系,使图像中的亮暗块自然地映射到二维码的模块上,确保二维码信息的完整性不会被破坏。具体而言,QAB模块会根据用户的指导图像,生成与二维码信息相匹配的美学图案,并在此过程中确保图案与二维码信息之间的结构和明暗关系得到合理分布。

虽然这一阶段生成的结果已经具备了较好的视觉美感,但由于引入了复杂的图像元素,二维码在实际扫描时仍可能面临一定的解码挑战。因此,接下来的步骤着重解决这一潜在问题。

3. 扫描鲁棒性优化(SELR):从美学到可用性的进一步提升

Text2QR的最后一步是通过扫描鲁棒性优化(Scannability-Enhancing Latent Refinement,SELR)技术来提升二维码的可扫描性。该步骤通过一个能量方程,精确衡量生成图像的内容一致性二维码信息的可识别性

具体来说,SELR技术会以之前生成的二维码蓝图为参考,逐步优化第二步输出图片中的细节,使得二维码在视觉美感不被破坏的前提下,提高其扫描成功率。通过多次梯度上升迭代,Text2QR框架能够在用户定义的美学标准与二维码的可扫描性之间找到一个最佳平衡点。这种优化过程不仅确保了二维码能够被大多数扫描设备识别,还保留了用户期望的图像风格。

最终生成的二维码不仅具备高度的视觉美感,能与各种设计风格相融合,还能稳定、快速地传递信息,真正实现了艺术性实用性的双赢。

实验数据:Text2QR的优越性能

CVPR 2024 | 打破黑白边界,融合美学与实用性的二维码生成技术来了

在对比实验中,Text2QR表现出色。通过与现有技术的对比,我们的方法在视觉质量和扫描稳定性方面均取得了显著的提升。在实际应用中,Text2QR为需要兼顾美学与功能性的场景提供了一种理想的解决方案,无论是在广告设计、艺术创作还是品牌营销中,都展现出广阔的应用前景。

展望未来:美学二维码的应用前景

Text2QR的出现不仅为二维码的美学设计提供了新的可能性,也为未来的研究方向提供了启发。随着技术的不断进步,二维码在具身智能、制造业和增强现实等领域的应用潜力正在不断扩大。未来,我们期待Text2QR能够在这些领域中发挥更大的作用,推动数字与物理世界的进一步融合。

团队介绍

CVPR 2024 | 打破黑白边界,融合美学与实用性的二维码生成技术来了

刘笑宏,博士,上海交通大学,电子信息与电气工程学院助理教授,博士生导师。博士毕业于加拿大麦克马斯特大学,研究方向为计算机视觉、多媒体信息处理,现已在顶级国际会议与期刊上发表学术论文60余篇,包括CVPR、ICCV、ECCV、NeurIPS、IEEE TIP等。入选2022年上海市领军人才(海外)、2022年上海市浦江人才、2024年微软亚洲研究院铸星计划,获得2021年国家优秀自费留学生奖学金。主持国家自然科学基金青年科学基金项目、四川省自然科学基金青年科学基金项目、“交大之星”医工交叉研究基金青年项目,参与国家自然科学基金重点项目2项,还承担了国内外多家著名公司的技术研发项目,荣获华为“火花奖”。担任多媒体领域知名期刊ACM TOMM副主编、上海市计算机学会计算机视觉专委会副秘书长。个人主页:https://jhc.sjtu.edu.cn/~xiaohongliu/

CVPR 2024 | 打破黑白边界,融合美学与实用性的二维码生成技术来了

翟广涛,上海交通大学电子信息与电气工程学院教授、国家杰出青年科学基金获得者。获中国电子学会自然科学一等奖、技术发明一等奖和中国图像图形学会技术发明一等奖。任Elsevier期刊Displays主编、上海市图像图形学学会理事长。

相关资讯

还得是抖音,字节推出竖屏视频理解数据集,入选CVPR2024

短视频在当下社交媒体逐渐成为主导的视频格式。传统视频处理技术和研究一般都专注于横屏视频的理解和解析,而竖屏视频因其拍摄手法和内容重点不同,展示出与横屏视频数据不同的特性。针对这一不同,字节跳动技术团队发布了专注于竖屏视频理解的数据集,提出了多个针对竖屏视频处理的技术点以及一个初始方案。这项研究对准确的竖屏视频理解和基础技术架构有较为重要的意义,论文已入选 CVPR2024。视频 demo 展示、数据特性演示以及竖屏视频类别分类,请见 :,对视频内容的分类、特征提取,以及推荐等有着重要的作用。竖屏视频是目前社交媒体平

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]。随着人工智能的发展,语言模型和生成模型获得了大量的成功并且在设计模型的过程中,模型的参数量也越来越大。对于细粒度理解任务,模型参数量也同样在增加。然而目前现有的数据集存在规模和精度的矛盾

上海交大团队利用深度学习进行运动评估,促进脑瘫早期筛查

编辑 | 白菜叶Prechtl 全身运动评估 (GMA) 因其在评估神经系统发育完整性和预测运动功能障碍方面的作用而日益得到认可,特别是在脑瘫 (CP) 等疾病中。然而,对训练有素的专业人员的需求,阻碍了一些国家采用 GMA 作为早期筛查工具。在最新的研究中,上海交通大学的研究人员提出了一种基于深度学习的运动评估模型(MAM),该模型结合了婴儿视频和基本特征,旨在在烦躁运动(FM)阶段实现 GMA 自动化。MAM 表现出强大的性能,在外部验证期间实现了 0.967 的曲线下面积 (AUC)。重要的是,它严格遵循 G