对抗图象变更进犯，腾讯OVB-AI技巧中心获NeurIPS2021图象近似度寻衅赛季军

近日，在 AI 顶会 NeurIPS 2021 的图象近似度寻衅赛中（Image Similarity Challenge），来自腾讯在线视频 BU-AI 技巧中心的团队，在 Matching Track 赛道战胜来自全球 1000 多支队伍，荣获季军。

近似图象检索，该角逐中主要指图象的拷贝检测，是计算机视觉领域的一项经典任务。其目的是判断查问图象（query），是否由库存（reference）中的任何图象编辑或进犯变更而来。该技巧目前已广泛应用于互联网服务中，它作为交际媒体以及实质平台上的一个重要组成部分，主要用于低质实质识别、重复实质识别、版权保护等一系列实质审查领域，从而有助于互联网平台提供更加安全和可信的实质。

近年来，随着交际媒体以及实质平台的发展，图象拷贝检测面临了新的寻衅点：大规模检索与复杂的进犯。以 Facebook 网站为例，每天将产生数十亿张新图片，如何快速的在较大库存检测这些新图片成为一个寻衅。另外，查问图象在现实中会受到多种进犯变更，如滤镜、遮挡、裁剪、模糊、手绘等等。导致检测工作仅靠人工无法完成，需要算法来帮助进行自动的标记，因此大规模检索变得越来越重要和实用。

图象变更进犯示例

为了进一步促进图象拷贝检测技巧的研究，Facebook AI 在顶会 NeurIPS 2021 上举办了图象近似度寻衅赛（Image Similarity Challenge），角逐共分为 Matching Track 和 Descriptor Track 两个赛道。同时，角逐提供了一个具有寻衅性的数据集，该数据集来自于真实的交际媒体平台，主要由一百万库存图片、五万查问图片，以及一百万训练集组成，它可以作为大规模图象近似性检测的新基准。本次角逐吸引了来自腾讯、百度、阿里、旷世、三星、Intel、DeNA 等国内外知名公司及研究机构，共 1000 多支队伍参加。

对抗图象变更进犯，腾讯OVB-AI技巧中心获NeurIPS2021图象近似度寻衅赛季军

角逐官网：https://sites.google.com/view/isc2021/program

nips 角逐介绍：https://nips.cc/Conferences/2021/CompetitionTrack

腾讯 imgFp 团队获得季军

在本次 NeurIPS 2021 图象近似度寻衅赛中，来自腾讯的 imgFp 团队针对上述寻衅点，设计了一种结合全部特性与全部特性双路召回的高效检测算法，该算法能够以较高的鲁棒性来应对绝大多数的变更进犯，并且实用性强，单图全流程检索耗时约 2-3 秒，最终获得 Matching Track 赛道季军。

最终榜单：https://www.drivendata.org/competitions/84/competition-image-similarity-1-final/leaderboard/

1、鲁棒的单一模型

imgFp 团队采用以 Swin-Transformer 为主干网络的模型来提取查问图象的全部特性，并基于 EsViT 的格式，设计了一种多阶段的自监督训练方式，以充分发挥网络的自注意力机制。

对抗图象变更进犯，腾讯OVB-AI技巧中心获NeurIPS2021图象近似度寻衅赛季军

为了提高模型的抗进犯能力，imgFp 团队在训练过程中设计了超过 40 种数据增强方式来生成正样本对，充分模拟各种图象进犯变更，并在训练过程中使用 memory bank 来达到扩充 batch size 的效果，充分挖掘难分负样本。

对抗图象变更进犯，腾讯OVB-AI技巧中心获NeurIPS2021图象近似度寻衅赛季军

最终，imgFp 团队训练得到一个鲁棒的单一网络模型，来对每张查问图象计算生成一个 256 维的特性向量。全部特性检索结果可视化如图所示，对于很多极其的进犯干扰依然可以获得较好的检索排序结果。

对抗图象变更进犯，腾讯OVB-AI技巧中心获NeurIPS2021图象近似度寻衅赛季军

2、双路召回，应对极其样本

imgFp 团队发现，全部特性仍然较难表征某些极其的进犯变更，例如，较大范围的裁剪或者作为很小的区域叠加在背景图象上等，如图所示。这导致了仅靠全部特性的召回率偏低。

对抗图象变更进犯，腾讯OVB-AI技巧中心获NeurIPS2021图象近似度寻衅赛季军

然而，这些极其样本在全部上具有较强的一致性，因此 imgFp 团队提出了结合全部特性做双路召回的方案，并使用 GPU Faiss 来加速大规模全部特性的搜索，最后采用 KNN-matching 的格式对两路召回的结果进行融合并计算近似分数。

格式的整体 pipeline 如图所示，imgFp 团队发现，这种结合全部特性与全部特性的双路召回方式，能够发挥两种特性的互补优势，从而实现应对大多数进犯变更的作用。

对抗图象变更进犯，腾讯OVB-AI技巧中心获NeurIPS2021图象近似度寻衅赛季军

详细格式见论文：https://arxiv.org/abs/2112.02373

团队简介

imgFp 团队的参赛成员均来自于腾讯在线视频 BU 的 AI 技巧中心。该团队作为腾讯 PCG 视频关系中台的主要建设者，自 2014 年开始，便积极探索视频间关系的建立与应用，并积累了丰厚的技巧和经验。团队所研发的视频排重、图文排重、短带长等技巧，已应用于公司内多项产品和业务，包括腾讯视频、腾讯微视、腾讯新闻、腾讯看点，以及微信视频号。

据团队成员介绍，本次角逐，是团队在业务之余的一次探索，初衷是想验证其算法在高难度数据集上的表现。相较于第一和第二名的格式，他们的格式虽然精度略低，但却更加适用于线上生产环境。目前，图象拷贝检测技巧已经在互联网服务中发挥了重要价值，但仍面临着大规模检索和复杂进犯的寻衅，团队将继续钻研和打磨技巧，不断助力实质生态，积极创造更多社会价值。

{{userData.name}}已认证

对抗图象变更进犯，腾讯OVB-AI技巧中心获NeurIPS2021图象近似度寻衅赛季军

朱松纯：从人工智能的角度解读《赤壁赋》兼谈“心”与“理”的失调

百亿量化私募“道歉”，AI选股还能信吗？

最强文生图 AI 模型 Flux 再进化：出图速度快 6 倍，Elo 评分冲上 1153 傲视群雄

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1/47

最新 AI 生图模型 Flux1.1 隐藏玩法，添加单反相机文件名获得超写实图像

Meta 用 AI 生成北极光图片，遭网友怒喷

奥特曼赢家通吃！OpenAI再揽66亿美元新融资，还不忘「狙击」一把老同事Ilya

快手可灵 AI 新增“对口型”功能：生成人物口型与上传音频同步

Meta 发布 AI 视频生成器 Movie Gen：可自动生成含声音的高清视频

AI 赋能游戏开发：Valve 工程师借助 ChatGPT 改进《Deadlock》匹配算法