提升生成式零样本进修能力，视觉增强动态语义原型办法入选CVPR 2024

虽然我从来没见过你，但是我有可能「认识」你 —— 这是人们希望人工智能在「一眼初见」下达到的状态。为了达到这个目的，在传统的图象鉴别任务中，人们在带有不同种别标签的大量图象样本上训练算法模型，让模型获得对这些图象的鉴别能力。而在零样本进修（ZSL）任务中，人们希望模型能够举一反三，鉴别在训练阶段没有见过图象样本的种别。生成式零样本进修（GZSL）是实现零样本进修的一种有效办法。在生成式零样本进修中，首先需要训练一个生成器来合成未见类的视觉特性，这个生成过程是以前面提到的属性标签等语义形貌为条件驱动的。有了生成的视觉

虽然我从来没见过你，但是我有可能「认识」你 —— 这是人们希望人工智能在「一眼初见」下达到的状态。

为了达到这个目的，在传统的图象鉴别任务中，人们在带有不同种别标签的大量图象样本上训练算法模型，让模型获得对这些图象的鉴别能力。而在零样本进修（ZSL）任务中，人们希望模型能够举一反三，鉴别在训练阶段没有见过图象样本的种别。

生成式零样本进修（GZSL）是实现零样本进修的一种有效办法。在生成式零样本进修中，首先需要训练一个生成器来合成未见类的视觉特性，这个生成过程是以前面提到的属性标签等语义形貌为条件驱动的。有了生成的视觉特性作为样本，就可以像训练传统的分类器一样，训练出可以鉴别未见类的分类模型。

生成器的训练是生成式零样本进修算法的关键，理想状态下，生成器根据语义形貌生成的某个未见类的视觉特性样本，应与此种别真实样本的视觉特性具有相同的分布。

在现有的生成式零样本进修办法中，生成器在被训练和应用时，都是以高斯噪声和种别整体的语义形貌为条件的，这限制了生成器只能针对整个种别进行优化，而不是形貌每个样本实例，所以难以准确反映真实样本视觉特性的分布，导致模型的泛化性能较差。另外，已见类与未见类所共享的数据集视觉信息，即域常识，也没有在生成器的训练过程中被充分利用，限制了常识从已见类到未见类的迁移。

为了解决这些问题，华中科技大学钻研生与阿里巴巴旗下银泰商业集团的手艺专家提出了视觉增强的动态语义原型办法（称为 VADS），将已见类的视觉特性更充分地引入到语义条件中，推动生成器进修准确的语义 – 视觉映射，钻研论文《Visual-Augmented Dynamic Semantic Prototype for Generative Zero-Shot Learning》已被计算机视觉顶级国际学术会议 CVPR 2024 接收。

具体而言，上述钻研呈现了三个创新点：

第一，钻研应用视觉特性对生成器进行增强，来为零样本进修中的未见类生成可靠的视觉特性，在零样本进修领域中是具有创新性的办法。

第二，钻研提出了 VDKL 和 VOSU 两个组件，有效地获取数据集的视觉先验并用图象的视觉特性动态革新预定义好的种别语义形貌，从而有效地实现了对视觉特性的利用。

第三，从试验结果上看，本钻研应用视觉特性对生成器进行增强的效果显著，而且作为一个即插即用的办法，具有较强的通用性。

钻研细节

VADS 由两个模块组成：（1）视觉感知域常识进修模块（VDKL）进修视觉特性的局部偏差和全局先验，即域视觉常识，这些常识取代了纯高斯噪声，提供了更丰富的先验噪声信息；（2）面向视觉的语义革新模块（VOSU）进修如何根据样本的视觉表示革新其语义原型，革新的后语义原型中也包含了域视觉常识。

最终，钻研团队将两个模块的输出连接为一个动态语义原型向量，作为生成器的条件。大量实验表明，VADS 办法在常用的零样本进修数据集上实现了显著超出已有办法的性能，并可以与其他生成式零样本进修办法结合，获得精度的普遍提升。

提升生成式零样本进修能力，视觉增强动态语义原型办法入选CVPR 2024

在视觉感知域常识进修模块（VDKL）中，钻研团队设计了一个视觉编码器（VE）和一个域常识进修网络（DKL）。其中，VE 将视觉特性编码为隐特性和隐编码。通过应用对比损失在生成器训练阶段利用已见类图象样本训练 VE，VE 可以增强视觉特性的种别可分性。

在训练 ZSL 分类器时，生成器生成的未见类视觉特性也被输入 VE，得到的隐特性与生成的视觉特性连接，作为最终的视觉特性样本。VE 的另一个输出，即隐编码，经过 DKL 变换后形成局部偏差 b，与可进修的全局先验 p，以及随机高斯噪声一起，组合成域相关的视觉先验噪声，代替其他生成式零样本进修中常用的纯高斯噪声，作为生成器生成条件的一部分。

在面向视觉的语义革新模块（VOSU）中，钻研团队设计了一个视觉语义预测器 VSP 和一个语义革新映射网络 SUM。在 VOSU 的训练阶段，VSP 以图象视觉特性为输入，生成一个能够捕获目标图象视觉模式的预测语义向量，同时，SUM 以种别语义原型为输入，对其进行革新，得到革新后的语义原型，然后通过最小化预测语义向量与革新后语义原型之间的交叉熵损失对 VSP 和 SUM 进行训练。VOSU 模块可以基于视觉特性对语义原型进行动态调整，使得生成器在合成新种别特性时能够依据更精确的实例级语义信息。

在试验部分，上述钻研应用了学术界常用的三个 ZSL 数据集：Animals with Attributes 2（AWA2），SUN Attribute（SUN）和 Caltech-USCD Birds-200-2011（CUB），对传统零样本进修和广义零样本进修的主要指标，与近期有代表性的其他办法进行了全面对比。

提升生成式零样本进修能力，视觉增强动态语义原型办法入选CVPR 2024

在传统零样本进修的 Acc 指标方面，该钻研的办法与已有办法相比，取得了明显的精度提升，在三个数据集上分别领先 8.4%，10.3% 和 8.4%。在广义零样本进修场景，上述钻研办法在未见类和已见类精度的调和平均值指标 H 上也处于领先地位。

VADS 办法还可以与其他生成式零样本进修办法结合。例如，与 CLSWGAN，TF-VAEGAN 和 FREE 这三种办法结合后，在三个数据集上的 Acc 和 H 指标均有明显提升，三个数据集的平均提升幅度为 7.4%/5.9%, 5.6%/6.4% 和 3.3%/4.2%。

提升生成式零样本进修能力，视觉增强动态语义原型办法入选CVPR 2024

通过对生成器生成的视觉特性进行可视化可以看出，原本混淆在一起的部分种别的特性，例如下图 (b) 中显示的已见类「Yellow breasted Chat」和未见类「Yellowthroat」两类特性，在应用 VADS 办法后，在图（c）中能够被明显地分离为两个类簇，从而避免了分类器训练时的混淆。

提升生成式零样本进修能力，视觉增强动态语义原型办法入选CVPR 2024

可延展到智能安防和大模型领域

机器之心了解到，上述钻研钻研团队关注的零样本进修旨在使模型能够鉴别在训练阶段没有图象样本的新种别，在智能安防领域具有潜在的价值。

第一，处理安防场景中新出现的风险，由于安防场景下，会不断出现新的威胁类型或不寻常的行为模式，它们可能在之前的训练数据中未曾出现。零样本进修使安防系统能快速鉴别和响应新风险类型，从而提高安全性。

第二，减少对样本数据的依赖：获取足够的标注数据来训练有效的安防系统是昂贵和耗时的，零样本进修减少了系统对大量图象样本的依赖，从而节约了研发成本。

第三，提升动态环境下的稳定性：零样本进修应用语义形貌实现对未见类模式的鉴别，与完全依赖图象特性的传统办法相比，对于视觉环境的变化天然具有更强的稳定性。

该手艺作为解决图象分类问题的底层手艺，还可以在依赖视觉分类手艺的场景落地，例如人、货、车、物的属性鉴别，行为鉴别等。尤其在需要快速增加新的待鉴别种别，来不及收集训练样本，或者难以收集大量样本的场景（如风险鉴别），零样本进修手艺相对于传统办法具有较大优势。

该钻研手艺对于当前大模型的发展有无借鉴之处？

钻研者认为，生成式零样本进修的核心思想是对齐语义空间和视觉特性空间，这与当前多模态大模型中的视觉语言模型（如 CLIP）的钻研目标是一致的。

它们最大的不同点是，生成式零样本进修是在预先定义好的有限种别的数据集上训练和应用，而视觉语言大模型则是通过对大数据的进修获得具有通用性的语义和视觉表征能力，不局限在有限的种别，作为基础模型，具有更宽广的应用范围。

如果手艺的应用场景是特定领域，可以选择将大模型针对此领域进行适配微调，在此过程中，与本文相同或相似钻研方向的工作，理论上可以带来一些有益的启发。

作者介绍

侯文金，华中科技大学硕士钻研生，感兴趣的钻研方向包括计算机视觉，生成建模，少样本进修等，他在阿里巴巴 – 银泰商业实习期间完成了本论文工作。

王炎，阿里巴巴 – 银泰商业手艺总监，深象智能团队算法负责人。

冯雪涛，阿里巴巴 – 银泰商业资深算法专家，主要关注视觉和多模态算法在线下零售等行业的应用落地。

{{userData.name}}已认证

提升生成式零样本进修能力，视觉增强动态语义原型办法入选CVPR 2024

LLaMA-2-7B数学威力上限已达97.7%？Xwin-Math利用分解数据解锁后劲

COLING24｜自符合剪枝让多模态大模型减速2-3倍，哈工大等推出SmartTrim

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩