阿里提出结构保持的AI视觉算法:显著提升HDR图像转LDR图像质量

9月21日,记者在2024云栖大会上获悉,阿里巴巴达摩院计算技术实验室提出了一种基于结构保持网络的AI视觉算法,可将高动态范围(HDR)场景图像自动转换为低动态范围(LDR)图像并保持其纹理细节,在常规显示设备上的图像质量相比业界提升7%。HDR图像同时包含强光源照射下的极亮区域和阴影、逆光下的极暗区域,容易出现明亮区域过曝、或者黑暗区域纯黑的情况,必须经过宽动态技术处理才能适配常规显示设备。传统的宽动态技术由于缺失自适应的局部与全局处理方法,会损失大量信息,生成结果局部粗糙或者全局锐化。业界也在探索基于AI的宽动

9月21日,记者在2024云栖大会上获悉,阿里巴巴达摩院计算技术实验室提出了一种基于结构保持网络的AI视觉算法,可将高动态范围(HDR)场景图像自动转换为低动态范围(LDR)图像并保持其纹理细节,在常规显示设备上的图像质量相比业界提升7%。

阿里提出结构保持的AI视觉算法:显著提升HDR图像转LDR图像质量

HDR图像同时包含强光源照射下的极亮区域和阴影、逆光下的极暗区域,容易出现明亮区域过曝、或者黑暗区域纯黑的情况,必须经过宽动态技术处理才能适配常规显示设备。传统的宽动态技术由于缺失自适应的局部与全局处理方法,会损失大量信息,生成结果局部粗糙或者全局锐化。业界也在探索基于AI的宽动态技术,最大挑战在于缺乏成对匹配的HDR-LDR数据,难以构建完备训练数据。

为此,该团队创新性地提出利用双流控制扩散网络保持图像在前向传播过程中的结构细节和色调风格,可实现零样本学习。具体而言,该方法采用平均值减除和对比度归一化(MSCN)技术,提取出HDR和LDR图像的共享结构特征作为 “桥梁”,引导扩散模型学习到HDR图像结构并维持LDR图像的色调风格,最终生成纹理细节丰富且色彩均衡的LDR图像。

基于标准的HDRPS色调映射数据集,该模型的NIQE和TMQI指标相比业界提升7.11%和0.61%。此外,达摩院团队将模型迁移到红外图像恢复领域,在公开的VIS-NIR数据集上取得了超过业界10%的效果。相关学术论文《Zero-Shot Structure-Preserving Diffusion Model for High Dynamic Range Tone Mapping》被国际计算机视觉与模式识别会议(CVPR)收录为今年亮点(Highlight)。

据达摩院计算技术实验室介绍,该技术可帮助ISP芯片实现更智能的光线适应性和动态范围调整,也有望与其他多种扩散模型结合,发展AIGC技术的新可能。面向图计算、自动驾驶、多模态AI、具身智能等新型计算需求,该团队将持续探索软硬件全栈创新,助力芯片产业和数字经济发展。

相关资讯

几何深度学习揭示微观运动的时空特征

编辑 | 白菜叶生命系统中动力学过程的表征为其机械解释和与生物功能的联系提供了重要线索。由于显微镜技术的最新进展,现在可以在生理条件下以多个时空尺度常规记录细胞、细胞器和单个分子的运动。然而,在拥挤和复杂的环境中发生的动态自动分析仍然落后于微观图像序列的获取。在这里,哥德堡大学的研究人员提出了一个基于几何深度学习的框架,可以在各种生物学相关场景中实现对动力学特性的准确估计。这种深度学习方法依赖于由基于注意力的组件增强的图形神经网络。通过使用几何先验处理对象特征,网络能够执行多项任务,从将坐标链接到轨迹到推断局部和全

想给业务松松绑,又怕数据泄漏隐患? 动态脱敏了解一下!

极盾·觅踪的数据动态脱敏系统提供脱敏前的策略分析决策、脱敏实施中的灵活配置脱敏规则和脱敏后的持续运营调优,形成一套完整的脱敏运营体系。

中国科学院开发出基于语义记忆的动态神经网络:相比静态最高减少 48.1% 计算量

中国科学院微电子研究所等将人工神经网络与大脑的动态可重构性相结合,开发出基于语义记忆的动态神经网络。▲ 基于语义记忆的脑启发动态神经网络硬件软件协同设计大脑神经网络具有复杂的语义记忆和动态连接性,可将不断变化的输入与庞大记忆中的经验联系起来,高效执行复杂多变的任务。目前,人工智能系统广泛应用的神经网络模型多是静态的。随着数据量不断增长,它在传统数字计算系统中产生大量能耗和时间开销,难以适应外界环境的变化。与静态网络相比,语义记忆动态神经网络能够根据计算资源权衡识别准确性和计算效率,可在资源受限设备或分布式计算环境中