CLIP
模态编码器 | FLIP:通过图像掩码加速CLIP训练
来聊聊Meta AI团队(何恺明组)提出的一个高效的CLIP加速训练方法——FLIP。 看完MAE,很自然的一个想法就是将MAE用到CLIP里的图像编码器上,FLIP实现了这个想法,通过在训练过程中对图像进行随机掩码(masking),显著提升了训练效率。 动机也很简单,CLIP训练成本高,耗费大量时间和资源,高效省时的训练方法则成为研究重点。
4/11/2025 12:16:00 AM
模态编码器|CLIP技术改进之EVA-CLIP
上一篇看了EVA,趁热打铁,今天来看EVA-CLIP,同样是智源曹越团队的工作,主要研究主题是结合EVA改进CLIP。 研究动机:训练CLIP模型面临计算成本高和训练不稳定等挑战,尤其是在扩大模型规模时。 因此,这项工作的研究动机是提供一种高效且有效的解决方案,以促进更大规模CLIP模型的训练和发展。
4/7/2025 5:30:00 AM
Goldma
模态编码器|CLIP详细解读
下面来详细了解一下多模态大模型模态编码器部分。 今天首先来看下CLIP,OpenAI发表在2021年ICML上的一篇工作。 项目地址::在自然语言处理(NLP)领域,通过大规模的文本数据预训练模型(如GPT-3)已经取得了显著的成果,但在计算机视觉领域,预训练模型仍然依赖于人工标注的图像数据集,严重影响了其在未见类别上的泛化性和可用性(需要用额外的有标注数据)。
4/7/2025 3:30:00 AM
Goldma
LLM2CLIP:使用大语言模型提升CLIP的文本处理,提高长文本理解和跨语言能力
在人工智能迅速发展的今天,多模态系统正成为推动视觉语言任务前沿发展的关键。 CLIP(对比语言-图像预训练)作为其中的典范,通过将文本和视觉表示对齐到共享的特征空间,为图像-文本检索、分类和分割等任务带来了革命性突破。 然而其文本编码器的局限性使其在处理复杂长文本和多语言任务时显得力不从心。
11/21/2024 1:02:42 PM
佚名
CVPR 2024|FairCLIP:首个多模态医疗视觉语言大模型公平性研究
作者 | 哈佛大学、纽约大学团队编辑 | ScienceAI公平性在深度学习中是一个关键问题,尤其是在医疗领域,这些模型影响着诊断和治疗决策。尽管在仅限视觉领域已对公平性进行了研究,但由于缺乏用于研究公平性的医疗视觉-语言(VL)数据集,医疗VL模型的公平性仍未被探索。为了弥补这一研究空白,我们介绍了第一个公平的视觉-语言医疗数据集(FairVLMed),它提供了详细的人口统计属性、真实标签和临床笔记,以便深入检查VL基础模型中的公平性。使用FairVLMed,我们对两个广泛使用的VL模型(CLIP和BLIP2)进
4/8/2024 2:18:00 PM
ScienceAI
后Sora时代,CV从业者如何选择模型?卷积还是ViT,监督学习还是CLIP范式
如何衡量一个视觉模型?又如何选择适合自己需求的视觉模型?MBZUAI和Meta的研究者给出了答案。一直以来,ImageNet 准确率是评估模型性能的主要指标,也是它最初点燃了深度学习革命的火种。但对于今天的计算视觉领域来说,这一指标正变得越来越不「够用」。因为计算机视觉模型已变得越来越复杂,从早期的 ConvNets 到 Vision Transformers,可用模型的种类已大幅增加。同样,训练范式也从 ImageNet 上的监督训练发展到自监督学习和像 CLIP 这样的图像 - 文本对训练。ImageNet 并
2/19/2024 2:39:00 PM
机器之心
无需标注海量数据,目标检测新范式OVD让多模态AGI又前进一步
当下 OVD 领域的相关研究蓬勃发展,OVD 技术对未来通用 AI 大模型能够带来的改变值得期待。
6/5/2023 3:24:00 PM
机器之心
- 1
资讯热榜
企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型
上海AI实验室开源InternVL3系列多模态大型语言模型
全能且实用!实战测评谷歌最新模型Gemini 2.5 Pro
大模型部署工具 Ollama 使用指南:技巧与问题解决全攻略
50组多风格提示词,全面测评Midjourney V7生图效果!
Deepseek 突破 AI 训练烧钱魔咒:1.2 万美元 1/525 成本 MT-Bench 跑分媲美 GPT-4o
斯坦福2025 AI指数出炉!中美AI对决差距仅剩0.3%,DeepSeek领衔
5分钟直出46页论文!谷歌Deep Research完爆OpenAI,最强Gemini 2.5加持
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
DeepSeek
AI绘画
数据
机器人
谷歌
模型
大模型
Midjourney
智能
用户
学习
开源
GPT
微软
Meta
AI创作
图像
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
生成式
芯片
代码
英伟达
神经网络
腾讯
计算
研究
Sora
AI for Science
3D
AI设计
Anthropic
机器学习
GPU
开发者
场景
华为
预测
伟达
Transformer
百度
深度学习
模态
苹果
AI视频
驾驶
文本
搜索
xAI
人形机器人
Copilot
大语言模型
神器推荐
LLaMA
字节跳动
具身智能
Claude
算力
安全
应用
视频生成
科技
视觉
亚马逊
干货合集
2024
AGI
特斯拉
DeepMind
架构