日前,浙江大学滨江研究院Om人工智能研究中心主任、联汇科技首席科学家赵天成博士团队 OmLab 在国际顶会ECCV 2022 ODinW 挑战赛中获得 Full-Shot(全量数据学习)赛道与Few-Shot(小样本数据学习)赛道双料冠军、在 Zero-Shot 赛道获得第四排名的佳绩。基于全新目标检测框架 OmDet 的先进性和创新价值,赵天成博士受邀发表主题报告演讲。
ECCV(European Conference on Computer Vision,欧洲计算机视觉国际会议)是计算机视觉方向的世界范围三大顶级会议之一。本次 ODinW(Object Detection in the Wild,开放域目标检测)挑战赛由微软主办,旨在验证大模型在不同领域数据上的能力。
基于 OmDet 框架的先进性和相关研究的创新价值,赵天成博士受邀参与Spotlight Sessions,并发表《OmDet: Language-Aware Object Detection with Large-scale Vision-Language Multi-dataset Pre-training》报告演讲,受到广泛关注。
目标检测(Object Detection,OD)是机器视觉领域任务的重要手段,广泛应用智能视频监控、工业检测、机器人视觉等场景,AI视觉技术在学术、产业等不同领域热度空前,同样创新难度也在不断加大。经典的 OD 研究专注于改进检测器网络,以使用固定输出标签集(例如 COCO 中的 80 个类)实现更高的准确度和更低的延迟,OmLab团队提出的一种基于VLP(视觉语言预训练)的全新目标检测框架:OmDet,探索一种持续学习的方法,即检测器能否从许多视觉词汇量增加的 OD 数据集中逐步学习,并最终实现开放词汇检测能力。
OmDet 在 COCO、Pascal VOC、Wider Face和 Wider Pedestrian 四个 OD 数据集中的实验结果表明,OmDet 不仅能够从所有数据集中学习而不会出现标签冲突,而且由于其在任务之间的知识共享,它比单个数据集检测器具有更强的性能。
在此基础上,OmLab 团队进行了更大规模的研究,将 OmDet 扩展到非常大的词汇预训练,使用混合了 2000 万张图像和 400 万个独特文本标签的 OD 数据集进行预训练,其中包括人工标注和伪标签。得到的模型在最近提出的 ODinW 数据集上进行评估,该数据集涵盖了各个领域的 35 个不同的 OD 任务。
实验表明,通过多数据集预训练扩大词汇量可有效提高零/少样本学习和参数效率微调。OmDet 在一系列不同的下游任务上实现了最先进的性能。未来可以通过有效的任务采样策略改进 OmDet,利用更多样化的多模态数据集,探索不同的语言和视觉 Backbone(骨干网络),冻结特定参数或完全更新它们。
机器视觉2.0作为联汇科技的核心技术之一,在多项国际顶会竞赛中获得肯定,团队依托技术优势不断探索创新、加速能力突破,通过优化升级在预训练大模型等领域的核心能力,自研产品体系与开放平台并实现快速落地应用,更好地助力各行各业实现降本增效,推动数字技术与实体经济加速融合。
点击链接https://computer-vision-in-the-wild.github.io/eccv-2022/ ,了解会议详情