模态

火了一整年的多模态学习，在工业界的落地和实践进展到底怎么样了？

火了一整年的多模态学习，在工业界的落地和实践进展到底怎么样了？

在小红书，看见多模态学习的无限可能。

11/23/2022 3:46:00 PM

机器之心

最大数据集、多任务覆盖，阿里达摩院发布首个大规模中文多模态评测基准MUGE

最大数据集、多任务覆盖，阿里达摩院发布首个大规模中文多模态评测基准MUGE

在计算机视觉领域甚至人工智能的发展历程中，ImageNet对于整个领域的技术进步具有至关重要的作用。随着多模态学习成为当下的新热点，为了通过大规模数据集建设和全方位模型能力评测推动多模态领域的发展，阿里达摩院推出MUGE（全称Multimodal Understanding and Generation Evaluation Benchmark）评测基准。该基准是由达摩院联合浙江大学、阿里云天池平台联合发布，中国计算机学会计算机视觉专委会（CCF-CV专委）协助推出的首个大规模中文多模态评测基准。其拥有全球最大规模的中文多模态评测数据集，覆盖多种类型的任务，包括图文描述、基于文本的图像生成、跨模态检索等。MUGE的推出旨在解决当前中文多模态领域下游任务数据集匮乏的问题，并且为广大研究者提供权威平台，从理解能力和生成能力两大角度去衡量算法模型的有效性。

12/21/2021 3:08:00 PM

机器之心

一个模型处理多种模态和任务，商汤等提出Uni-Perceiver，迈向通用预训练感知模型

一个模型处理多种模态和任务，商汤等提出Uni-Perceiver，迈向通用预训练感知模型

来自商汤、西安交通大学等机构的研究者提出了一种通用感知架构 Uni-Perceiver ，该方法可以更好地将预训练中学到的知识迁移到下游任务中。

12/12/2021 12:47:00 PM

机器之心

AI「读图会意」首超人类！阿里达摩院刷新全球VQA纪录

AI「读图会意」首超人类！阿里达摩院刷新全球VQA纪录

历经六年，AI 在这一技能上得分首超人类。

8/12/2021 4:23:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用 OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型