物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全部感触感染野

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实行室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本文作者为VMamba的原班人马，其中第一作者王兆植是中国科学院大学和鹏城实行室的2022级联合培养博士生，共同一作刘悦是中国科学院大学2021级直博生。他们的主要研究方向是视觉模型设计和

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实行室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]

本文作者为VMamba的原班人马，其中第一作者王兆植是中国科学院大学和鹏城实行室的2022级联合培养博士生，共同一作刘悦是中国科学院大学2021级直博生。他们的主要研究方向是视觉模型设计和自监督学习。

如何突破 Transformer 的 Attention 机制？中国科学院大学与鹏城国家实行室提出基于热传导的视觉表征模型 vHeat。将图片特征块视为热源，并通过预测热传导率、以物理学热传导原理提取图象特征。相比于基于Attention机制的视觉模型， vHeat 同时兼顾了：算计复杂度（1.5次方）、全部感触感染野、物理可解释性。

vHeat-base 模型在高分辨率图象输入时，throughput、GPU 显存占用、flops 分头是 Swin-base 模型的3倍、1/4、3/4，在图象分类、目标检测、语义/实例分割等基础下游任务上达到了先进的本能表现。

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全部感触感染野

论文地址: https://arxiv.org/pdf/2405.16555

代码地址: https://github.com/MzeroMiko/vHeat

论文标题：vHeat: Building Vision Models upon Heat Conduction

Overview

CNN 和视觉 Transformer（ViT）是当前最主流的两类基础视觉模型。然而，CNN的本能表现受限于局部感触感染野和固定的卷积核算子。ViT 具有全部依赖关系的表征能力，然而代价是高昂的二次方级别算计复杂度。我们认为 CNN 和 ViT 的卷积算子和自注意力算子都是特征内部的像素传播过程，分头是一种信息传递的形式，这也让我们联想到了物理领域的热传导。于是我们根据热传导方程，将视觉语义的空间传播和物理热传导建立联系，提出了一种 1.5 次方算计复杂度的视觉热传导算子（Heat Conduction Operator, HCO），进而设计出了一种兼具低复杂度、全部感触感染野、物理可解释性的视觉表征模型 vHeat。HCO 与 self-attention 的算计形式和复杂度比照以下图所示。实行证明了 vHeat 在各种视觉任务中表现优秀。例如 vHeat-T 在 ImageNet-1K 上达到 82.2% 的分类准确率，比 Swin-T 高 0.9%，比 Vim-S 高1.7%。本能之外，vHeat 还拥有高推理速度、低 GPU 显存占用和低 FLOPs 这些优点。在输入图象分辨率较高时，base 规模的 vHeat 模型相比于 Swin 达到 3 倍吞吐量、1/4 的GPU显存占用和 3/4 的 FLOPs。

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全部感触感染野

方法介绍

用物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全部感触感染野意味点在 t 时刻下的温度，物理热传导方程为，其中 k>0，意味热扩散率。给定 t=0 时刻下的初始条件，该热传导方程可以采用傅里叶变换求得通解，意味以下：

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全部感触感染野

其中物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全部感触感染野和分头意味傅里叶变换和逆傅里叶变换，意味频域空间坐标。

我们利用 HCO 来实现视觉语义中的热传导，先将物理热传导方程中的物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全部感触感染野扩展为多通道特征，将视为输入，视为输出，HCO 模拟了离散化形式的热传导通解，以下公式所示：

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全部感触感染野

其中物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全部感触感染野和分头意味二维离散余弦变换和逆变换，HCO 的结构以下图 (a) 所示。

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全部感触感染野

此外，我们认为不同图象内容应该对应不同的热扩散率，考虑到物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全部感触感染野的输出在频域中，我们根据频率值来决定热扩散率，。由于频域中不同位置意味了不同的频率值，我们提出了频率值编码（Frequency Value Embeddings, FVEs）来意味频率值信息，与 ViT 中的绝对位置编码的实现和作用类似，并用 FVEs 对热扩散率 k 进行预测，使得 HCO 可以进行非均匀、自适应的传导，以下图所示。

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全部感触感染野

vHeat 采用多层级的结构实现，以下图所示，整体框架与主流的视觉模型类似，其中的 HCO layer 如图 2 (b) 所示。

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全部感触感染野

实行结果

ImageNet分类

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全部感触感染野

通过比照实行结果不难看出，在相似的参数量和 FLOPs 下:

vHeat-T 取得了 82.2% 的本能，超过 DeiT-S 达 2.4%、Vim-S 达 1.7%、Swin-T 达 0.9%。

vHeat-S 取得了 83.6% 的本能，超过 Swin-S 达 0.6%、ConvNeXt-S 达 0.5%。

vHeat-B 取得了 83.9% 的本能，超过 DeiT-B 达 2.1%、Swin-B 达 0.4%。

同时，由于 vHeat 的 O (N^1.5) 低复杂度和可并行算计性，推理吞吐量相比于 ViTs、SSM 模型有明显的优势，例如 vHeat-T 的推理吞吐量为 1514 img/s，比 Swin-T 高 22%，比 Vim-S 高 87%，也比 ConvNeXt-T 高 26%，同时拥有更好的本能。

下游任务

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全部感触感染野

在 COCO 数据集上， vHeat 也拥有本能优势：在 fine-tune 12 epochs 的情况下，vHeat-T/S/B 分头达到 45.1/46.8/47.7 mAP，超过了 Swin-T/S/B 达 2.4/2.0/0.8 mAP，超过 ConvNeXt-T/S/B 达 0.9/1.4/0.7 mAP。在 ADE20K 数据集上，vHeat-T/S/B 分头达到 46.9/49.0/49.6 mIoU，相比于 Swin 和 ConvNeXt 依然拥有更好的本能表现。这些结果验证了 vHeat 在视觉下游实行中完全 work，展示出了能平替主流基础视觉模型的潜力。

分析实行

有效感触感染野

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全部感触感染野

vHeat 拥有全部的有效感触感染野，可视化比照的这些主流模型中只有 DeiT 和 HiViT 也具备这个特性。但是值得注意的是，DeiT 和 HiViT 的代价是平方级的复杂度，而 vHeat 是 1.5 次方级的复杂度。

算计代价

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全部感触感染野

上图从左到右分头为 vHeat-B 与其他 base 规模下的 ViT-based 模型的推理吞吐量 / GPU 显存占用 / 算计量 FLOPs 比照。可以明显看出，由于 O (N^1.5) 的算计复杂度，vHeat 相比于比照的模型有更快的推理速度、更低的显存占用以及更少的 FLOPs，并且在图象分辨率越大时，优势会更为明显。在输入图象为 768*768 分辨率时，vHeat-B 的推理吞吐量为 Swin-B 的 3 倍左右，GPU 显存占用比 Swin-B 低 74%，FLOPs 比 Swin-B 低 28%。vHeat 与 ViT-based 模型的算计代价比照，展示出其处理高分辨率图象的优秀潜质。

{{userData.name}}已认证

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全部感触感染野

上海交大卢策吾：具身智能与他的首个刮胡子机械人 | 智者访谈

全球最强GPU芯片已量产、下一代Rubin曝光，老黄继续打破摩尔定律

谷歌这款新概念键盘，治好了我多年的老病

消息称微软 AI 助手 Copilot 已可在中国内地正常使用

无需训练即可创建数字人，字节PersonaTalk视频口型编辑超SOTA

苹果为其 AI 构筑“云处理安全堡垒”：公开指南和研究环境，漏洞悬赏最高 100 万美元

字节跳动内测 AI 模型分享社区“炉米 Lumi”，据称集成 LLM 分享 / 搭建 / 训练等功能

科大讯飞语音识别首次实现全国地级市方言全覆盖，星火大模型首次支持 9 种外语

波兰“OFF”电台解雇所有记者，启用三名 AI 虚拟“主持人”

神秘模型“小熊猫”一夜刷屏：排名超 Flux、Midjourney