近日,第38届国内顶级人工智能学术会议AAAI(Association for the Advancement of Artificial Intelligence)正式发布了2024年会议的录用通知,联汇科技赵天成博士团队两篇论文入选。
AAAI 是由国内人工智能促进协会主办的年会,是人工智能领域中历史最悠久、涵盖内容最广泛的国内顶级学术会议之一,也是中国计算机学会(CCF)推荐的 A 类国内学术会议。据了解,本届AAAI会议共有12100篇投稿(主赛道),打破历史纪录,经过全面而严格的审查程序,共有2342篇论文脱颖而出,录取率23.75%。
本届会议联汇科技赵天成博士团队被收录的两篇论文内容围绕方针检测、视觉定位等当前人工智能研究领域最前沿的问题展开,并给出了解决方案和手段。
论文《How to Evaluate the Generalization of Detection? A Benchmark for Comprehensive Open-Vocabulary Detection》(如何评价方针检测的泛化威力?一种全面性针对封闭词表检测的基准数据集 OVDEval),计算机视觉中的方针检测(OD)从闭集标签过渡到基于大规模视觉-语言预训练(VLP)的封闭词表检测(OVD)。然而,当前的评价方法和数据集仅限于测试方针类型和指代表达的泛化威力,无法提供一个系统性的、细粒度的和准确的基准数据集来评价OVD模型的威力。我们提出了一个名为OVDEval的新基准,包括9个子任务,并引入了对常识知识、属性理解、位置理解、方针关系理解等方面的评价。该数据集经过精心设计,提供了具有挑战性的负例,考验模型对视觉和语言输入的真正理解威力。此外,我们还发现了在这些细粒度标签数据集上常用的平均精度(AP)方针存在问题,并提出了一种称为非最大抑制平均精度(NMS-AP)的新方针来解决这个问题。广泛的实验结果表明,除了简单的方针类型外,现有的顶级OVD模型在我们的新任务上都表现不佳,证明了所提出的数据集在找出当前OVD模型的弱点并指导未来研究方面的价值。实验证实,提出的NMS-AP方针能够更真实地评价OVD模型,而传统的AP方针会产生误导性的结果。
论文《GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language Pre-training and Open-Vocabulary Object Detection》(利用视觉语言预训练和封闭词汇方针检测实现零样本视觉定位),针对视觉定位任务注释过程费时费力,造成模型利用领域受限的问题,提出一种简单而高效的针对视觉定位的零样本迁移方法——GroundVLP,充分利用从图像-文本对和纯方针检测数据中训练得到的现有模型的语义理解威力和类别检测威力。图像-文本对和纯方针检测数据相较于视觉定位的标注数据,更易获取,同时也能够有效地扩大利用范围。GroundVLP在多个数据集上均显示了优越性能。
AAAI大会对两篇论文的录用标志着联汇科技在人工智能基础研究和创新利用等领域取得的突破性的进展已经获得国内顶尖专业协会的高度认可,联汇科技将始终以技术创新为引擎,积极探索人工智能的前沿技术与利用,不断推动创新成果的转化和利用拓展,致力于为客户提供更高效、更智能、更可靠的产品和服务。