ImageNet

后Sora时代，CV从业者如何选择模型？卷积还是ViT，监督学习还是CLIP范式

如何衡量一个视觉模型？又如何选择适合自己需求的视觉模型？MBZUAI和Meta的研究者给出了答案。一直以来，ImageNet 准确率是评估模型性能的主要指标，也是它最初点燃了深度学习革命的火种。但对于今天的计算视觉领域来说，这一指标正变得越来越不「够用」。因为计算机视觉模型已变得越来越复杂，从早期的 ConvNets 到 Vision Transformers，可用模型的种类已大幅增加。同样，训练范式也从 ImageNet 上的监督训练发展到自监督学习和像 CLIP 这样的图像 - 文本对训练。ImageNet 并

2/19/2024 2:39:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！全日程揭晓！ICLR 2025论文分享会我们北京见 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果 AI视频模态驾驶文本人形机器人 xAI 搜索大语言模型 Copilot Claude 字节跳动具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练