模态

最大数据集、多任务覆盖,阿里达摩院发布首个大规模中文多模态评测基准MUGE

在计算机视觉领域甚至人工智能的发展历程中,ImageNet对于整个领域的技术进步具有至关重要的作用。随着多模态学习成为当下的新热点,为了通过大规模数据集建设和全方位模型能力评测推动多模态领域的发展,阿里达摩院推出MUGE(全称Multimodal Understanding and Generation Evaluation Benchmark)评测基准。该基准是由达摩院联合浙江大学、阿里云天池平台联合发布,中国计算机学会计算机视觉专委会(CCF-CV专委)协助推出的首个大规模中文多模态评测基准。其拥有全球最大规模的中文多模态评测数据集,覆盖多种类型的任务,包括图文描述、基于文本的图像生成、跨模态检索等。MUGE的推出旨在解决当前中文多模态领域下游任务数据集匮乏的问题,并且为广大研究者提供权威平台,从理解能力和生成能力两大角度去衡量算法模型的有效性。

一个模型处理多种模态和任务,商汤等提出Uni-Perceiver,迈向通用预训练感知模型

来自商汤、西安交通大学等机构的研究者提出了一种通用感知架构 Uni-Perceiver ,该方法可以更好地将预训练中学到的知识迁移到下游任务中。

AI「读图会意」首超人类!阿里达摩院刷新全球VQA纪录

历经六年,AI 在这一技能上得分首超人类。