AI「读图会心」首超人类！阿里达摩院刷新全球VQA纪录

历经六年，AI 在这一技艺上得分首超人类。

8 月 12 日，国际权威机器视觉问答榜单 VQA Leaderboard 出现关键突破：阿里巴巴达摩院以 81.26% 的准确率创造了新纪录，让 AI 在「读图会心」上首次超出人类基准。

继 2015 年、2018 年 AI 分别在视觉识别和文本懂得范围超出人类分数之后，AI 在多模态技巧范围又迎来一大进展。

达摩院 AliceMind 在 VQA Leaderboard 上创造首次超出人类的纪录。

背景介绍

近十年来，AI 技巧保持高速发展，AI 模型已在多个任务和技艺上达到超出人类的水平，比如在游戏范围，强化学习智能体 AlphaGo 于 2016 年击败了世界顶尖棋手李世石；在视觉懂得范围，以 CNN 为代表的卷积类模型于 2015 年在 ImageNet 视觉分类任务上超出了人类成绩；在文本懂得范围，2018 年微软与阿里几乎同时在斯坦福 SQuAD 挑战赛上让 AI 阅读懂得超出了人类基准。

VQA 是 AI 范围难度最高的挑战之一。在测试中，AI 需要根据给定图片及自然谈话问题生成正确的自然谈话回答。这意味着单个 AI 模型需要混合复杂的计算机视觉以及自然谈话技巧：首先对所有图像信息从事扫描，再结合对文本问题的懂得，利用多模态技巧学习图文的关联性、精准定位相关图像信息，最后根据常识及推理回答问题。

VQA 技巧拥有广阔的应用场景，可用于图文阅读、跨模态搜索、盲人视觉问答、医疗问诊、智能驾驶等范围，或将变革人机交互方式。

宋代诗人张舜民的诗句「诗是无形画，画是有形诗」，描绘了谈话与视觉的相通之处。所谓的「读图会心」，即通过视觉懂得信息，是人类的一项基础能力，但对 AI 来说却是要求极高的认知任务。解决该挑战，对研发通用人工智能具有重要意义。

尽管 AI 已经在下棋、视觉、文本懂得等单模态技艺上实现突飞猛进，但在涉及视觉 – 文本跨模态懂得的高阶认知任务上，AI 过去始终未达到人类水平。

阿里达摩院：VQA 分数终于超出人类

为攻克这一难题而设立的挑战赛 VQA Challenge，自 2015 年起先后于全球计算机视觉顶会 ICCV 及 CVPR 举办，吸引了包括微软、Facebook、斯坦福大学、阿里巴巴、百度等众多顶尖机构踊跃参与，并形成了国际上规模最大、认可度最高的 VQA（Visual Question Answering）数据集，其包含超 20 万张真实照片和 110 万道考题。

VQA 技巧自 2015 年以来的进展。

今年 6 月，阿里达摩院在 VQA 2021 Challenge 的 55 支提交队伍中夺冠，成绩领先第二名约 1 个百分点、领先去年冠军 3.4 个百分点。两个月后，达摩院再次以 81.26% 的准确率创造 VQA Leaderboard 全球纪录，首次超出人类基准线 80.83%。

VQA 的核心难点在于对多模态信息从事联合推理认知，即在统一模型里做不同模态的语义映射和对齐。

达摩院 NLP 及视觉团队对 AI 视觉 – 文本推理体系从事了系统性的设计，混合了大量算法创新，包括多样性的视觉特征表示、多模态预训练模型、自适应的跨模态语义混合和对齐技巧、知识驱动的多技艺 AI 集成等，让 AI「读图会心」水平上了一个新台阶。

具体地，为了解决 VQA 挑战，基于阿里云 PAI 平台及 EFLOPS 框架的工程底座，达摩院谈话技巧实验室及视觉实验室对 AI 视觉 – 文本推理体系从事了系统性的设计，混合了大量算法创新，包括：

多样性的视觉特征表示，从各方面刻画图片的局部和全局语义信息，同时使用 Region，Grid，Patch 等视觉特征表示，以更精准地从事单模态懂得；基于海量图文数据和多粒度视觉特征的多模态预训练，用于更好地从事多模态信息混合和语义映射，创新性地提出了 SemVLP，Grid-VLP，E2E-VLP 和 Fusion-VLP 等预训练模型；研发自适应的跨模态语义混合和对齐技巧，创新性地在多模态预训练模型中加入 Learning to Attend 机制来从事跨模态信息地高效深度混合；采用 Mixture of Experts (MOE) 技巧从事知识驱动的多技艺 AI 集成。

其中自研的多模态预训练模型 E2E-VLP 和 StructuralLM 已经被国际顶级学术会议 ACL 2021 接受。模型大图如下：

AI「读图会心」首超人类！阿里达摩院刷新全球VQA纪录

我们来看一下实际效果展示，比如 VQA 考题中「根据有礼服装饰的小熊玩具照片来回答这些玩具用来做什么的？」达摩院 AliceMind 成功推理出一个可能的答案「婚礼」。

AI「读图会心」首超人类！阿里达摩院刷新全球VQA纪录

其实，这并不是阿里达摩院第一次在 AI 关键范围超出人类基准。2018 年，达摩院曾在斯坦福 SQuAD 挑战赛中历史性地让机器阅读懂得首次超出人类，引发了海外媒体关注。今年以来，达摩院在 AI 底层技巧范围动作频频，先后发布了中国科技公司中首个超大规模多模态预训练模型 M6 及首个超大规模中文谈话模型 PLUG, 并开源了历经 3 年打造的深度谈话模型体系 AliceMind（https://github.com/alibaba/AliceMind），其曾登顶 GLUE 等六大国际权威 NLP 榜单。

{{userData.name}}已认证

AI「读图会心」首超人类！阿里达摩院刷新全球VQA纪录

背景介绍

阿里达摩院：VQA 分数终于超出人类

抖音「神曲」那么多，字节跳动是如何玩转亿级曲库的？

拖拽公式图片、一键转换LaTex公式，这款开源公式识别神器比Mathpix Snip更适合你

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

消息称微软 AI 助手 Copilot 已可在中国内地正常使用

成功率提升15%，浙大、碳硅智慧用LLM进行多属性分子优化，登Nature子刊

Meta 为 WhatsApp 即时通信软件引入 AI 机器人聊天记忆功能，可提供个人化推荐

谷歌这款新概念键盘，治好了我多年的老病

以图灵机为师：通过微调训练让大语言模型懂执行计算过程

智谱清言上线情感语音模型 GLM-4-Voice：可理解情感，有情绪表达和共鸣

消息称谷歌将推出“Project Jarvis”：可实现网页任务自动化