图像

ImageNet-D 详解：严格评估神经网络的鲁棒性

神经网络在零样本图像分类中取得了惊人的成就，但它们真的能“看”得有多好呢？现有的用于评估这些模型鲁棒性的数据集仅限于网络上的图像或通过耗时且资源密集的手动收集创建的图像。这使得系统评估这些模型在面对未见数据和真实世界条件（包括背景、纹理和材质的变化）时的泛化能力变得困难。

2/20/2025 2:44:06 PM

二旺

耶鲁大学和Adobe提出SynthLight：智能重塑人像照明，打造完美光影

耶鲁大学和Adobe提出一种用于人像重新照明的扩散模型SynthLight，该方法将图像重新照明视为重新渲染问题，其中像素会根据环境照明条件的变化而变化。在真实肖像照片上可以产生逼真的照明效果，包括颈部的明显投射阴影和皮肤上的自然镜面高光。相关链接论文：：是一种用于人像重新照明的扩散模型。

2/11/2025 10:01:19 AM

AIGC Studio

小红书提出新面部视频交换方法DynamicFace，可生成高质量且一致的视频面部图像

DynamicFace是一种新颖的面部视频交换方法，旨在生成高质量且一致的视频面部图像。该方法结合了扩散模型的强大能力和可插拔的时间层，以解决传统面部交换技术面临的两个主要挑战：在保持源面部身份的同时，准确传递目标面部的运动信息。通过引入四种细粒度的面部条件，DynamicFace能够对面部特征进行更精确的控制，从而实现高保真度的面部交换。

2/6/2025 10:45:00 AM

AIGC Studio

图像编辑大一统？多功能图像编辑框架Dedit:可基于图像、文本和掩码进行图像编辑

本文经AIGC Studio公众号授权转载，转载请联系出处。今天给大家介绍一个基于图像和文本的编辑的框架D-Edit，它是第一个可以通过掩码编辑实现图像编辑的项目，近期已经在HuggingFace开放使用，并一度冲到了热门项目Top5。使用 D-Edit 的编辑流程。

1/17/2025 10:30:00 AM

AIGC Studio

UIUC提出InstructG2I：从多模态属性图合成图像，结合文本和图信息生成内容更丰富有趣！

今天给大家介绍的这项工作是伊利诺伊大学厄巴纳-香槟分校的研究者们提出的一个新任务 Graph2Image，其特点是通过调节图信息来合成图像，并引入了一种名为InstructG2I的新型图调节扩散模型来解决这个问题。在INSTRUCTG2I的工作中，研究者们开发了一种新方法来生成图像，这种方法不仅依赖于文本描述，还考虑到图中其他相关信息。想象一下，如果你要画一幅画，除了有一个简单的描述，比如“雪中的房子”，你还可以参考与这个房子相关的其他房子或景物的信息。

1/16/2025 11:00:00 AM

AIGC Studio

Retinex-Diffusion：让图像照明更加自然、细腻、富有层次感。

本文经AIGC Studio公众号授权转载，转载请联系出处。这项研究主要是针对如何智能控制图像中的光照，采用了一种不需要重新训练模型的新方法。简而言之，研究人员利用一种叫作Retinex理论的方法，先识别出图像中的光照元素，然后用这些元素来指导图像生成模型。

1/15/2025 10:00:00 AM

AIGC Studio

Adobe发布TurboEdit：可以通过文本来编辑图像，编辑时间<0.5秒！

今天给大家介绍Adobe研究院新的研究TurboEdit，可以通过文本来编辑图像，通过一句话就能改变图像中的头发颜色、衣服、帽子、围巾等等。而且编辑飞快，0.5秒。简直是图像编辑的利器。

1/6/2025 10:30:00 AM

Zongze Wu等

北大开源全新图像压缩感知网络：参数量、推理时间大幅节省，性能显著提升 | 顶刊TPAMI

压缩感知（Compressed Sensing，CS）是一种信号降采样技术，可大幅节省图像获取成本，其核心思想是「无需完整记录图像信息，通过计算即可还原目标图像」。 CS的典型应用包括：降低相机成本：利用廉价设备就能拍摄出高质量图像；加速医疗成像：将核磁共振成像（MRI）时间从40分钟缩短至10分钟内，减少被检查者的不适；探索未知世界，助力科学研究：将「看不见」的事物变为「看得见」，如观测细胞活动等转瞬即逝的微观现象，以及通过分布式射电望远镜观测银河系中心的黑洞。 CS的两个核心问题是：如何设计采样矩阵，从而尽可能多地保留图像信息？

12/17/2024 1:08:20 PM

新智元

图像领域再次与LLM一拍即合！idea撞车OpenAI强化微调，西湖大学发布图像链CoT

OpenAI最近推出了在大语言模型LLM上的强化微调（Reinforcement Finetuning，ReFT），能够让模型利用CoT进行多步推理之后，通过强化学习让最终输出符合人类偏好。无独有偶，齐国君教授领导的MAPLE实验室在OpenAI发布会一周前公布的工作中也发现了图像生成领域的主打方法扩散模型和流模型中也存在类似的过程：模型从高斯噪声开始的多步去噪过程也类似一个思维链，逐步「思考」怎样生成一张高质量图像，是一种图像生成领域的「图像链CoT」。与OpenAI不谋而和的是，机器学习与感知（MAPLE）实验室认为强化学习微调方法同样可以用于优化多步去噪的图像生成过程，论文指出利用与人类奖励对齐的强化学习监督训练，能够让扩散模型和流匹配模型自适应地调整推理过程中噪声强度，用更少的步数生成高质量图像内容。

12/16/2024 5:44:18 PM

新智元

CCF-CV携手合合信息打造技术分享论坛，聚焦大模型时代中的视觉安全前沿热点

近期，《咬文嚼字》杂志发布了2024年度十大流行语，“智能向善”位列其中，过去一年时间里，深度伪造、AI诈骗等话题屡次登上热搜，AI技术“野蛮生长”引发公众担忧。今年9月，全国网络安全标准化技术委员会发布了《人工智能安全治理框架》，指出人工智能既面临自身技术缺陷、不足带来的内生风险，也面临不当使用、滥用甚至恶意利用带来的外部风险。为探寻AI安全治理道路，近期，由中国计算机学会计算机视觉专委会主办，合合信息承办，中国运筹学会数学与智能分会协办的《打造大模型时代的可信AI》论坛（简称“论坛”）顺利举行。

12/13/2024 11:22:00 AM

机器之心

写给小白的大模型入门科普

什么是大模型？大模型，英文名叫Large Model，大型模型。早期的时候，也叫Foundation Model，基础模型。

11/22/2024 10:45:20 AM

小枣君

九大成像模式一键解析，生物医学图像AI再迎突破！微软、UW等BiomedParse登Nature子刊

作者 | BiomedParse团队编辑 | ScienceAI生物医学图像解析在癌症诊断、免疫治疗和疾病进展监测中至关重要。然而，不同的成像模式（如MRI、CT和病理学）通常需要单独的模型，造成资源浪费和效率低下，未能充分利用模式间的共性知识。微软团队最新发布的基础模型BiomedParse，开创性地通过文本驱动图像解析将九种成像模式整合于一个统一的模型中，通过联合预训练处理对象识别、检测与分割任务，实现了生物医学图像解析的新突破。

11/20/2024 4:23:00 PM

ScienceAI

2024年10月出海AI网站流量排行榜

AI在线发布 2024年10月全球和国内AI网站流量排行榜、全球AI网站增长率排行榜，并联合哥飞的朋友们出海社群发布出海AI网站流量排行榜！

11/12/2024 3:41:37 PM

智源推出全能视觉生成模型 OmniGen：支持文生图、图像编辑等

北京智源人工智能研究院（BAAI）推出了新的扩散模型架构 OmniGen，这是一种用于统一图像生成的多模态模型。 ▲ 文本生成图像，编辑生成图像的部分元素，根据生成图像的人体姿态生成重绘图像，从另一图像中提取所需对象与新图像融合官方表示，OmniGen 具有以下特点：统一性：OmniGen 天然地支持各种图像生成任务，例如文生图、图像编辑、主题驱动生成和视觉条件生成等。此外，OmniGen 可以处理经典的计算机视觉任务，将其转换为图像生成任务。

10/29/2024 4:11:56 PM

沛霖（实习）

图像伪造照妖镜：北大发布多模态 LLM 图像篡改检测定位框架 FakeShield

北京大学的研究人员开发了一种新型多模态框架 FakeShield，能够检测图像伪造、定位篡改区域，并提供基于像素和图像语义错误的合理解释，可以提高图像伪造检测的可解释性和泛化能力。随着生成式人工智能（AIGC）的迅猛发展，图像编辑与合成技术变得愈加成熟与普及。这一趋势为图像内容创作带来了便捷的同时，也显著增加了篡改检测的难度。

10/24/2024 11:36:51 PM

问舟

谷歌 Fluid 颠覆共识：两大因素被发现，AI 文生图领域自回归模型超越扩散模型

科技媒体 The Decoder 昨日（10 月 22 日）发布博文，报道称谷歌 DeepMind 团队携手麻省理工学院（MIT），推出了全新的“Fluid”模型，在规模达到 105 亿参数时候，能取得最佳的文生图效果。目前在文生图领域，行业内的一个共识是自回归模型（Autoregressive Models）不如扩散模型（Diffusion Models）。 AI在线简要介绍下这两种模型：扩散模型 (Diffusion Models): 这是一种最近非常热门的内容生成技术，它模拟的是信号从噪声中逐渐恢复的过程。

10/23/2024 1:35:00 PM

故渊

AIGC时代如何打击图片造假诈骗？合合信息文档篡改检测有妙招

近日，第七届中国模式识别与计算机视觉大会（简称“PRCV 2024”）在乌鲁木齐举办。大会由中国自动化学会（CAA）、中国图象图形学学会（CSIG）、中国人工智能学会（CAAI）和中国计算机学会（CCF）联合主办，新疆大学承办。作为模式识别和计算机视觉领域学术盛会，PRCV 2024吸引了众多国内外科研工作者及行业从业者参与，分享最新理论研究进展和技术研发成果，促进产学研交流与合作。

10/22/2024 2:40:00 PM

机器之心

Midjourney 下周上线新图像编辑器：让“二创”AI 图片变得更简单

首席执行官 David Holz 昨日在 Discord 平台宣布，将于下周为 Midjourney 推出全新的 AI 图像编辑器工具。用户上传图像后可展开包括放大、缩小、调整角度等多种操作，这些操作不再需要 Discord，只需简单命令即可完成；用户可以使用数字画笔进行修补，进行更精细的修改。此外该 AI 图像编辑器还可以基于上传图像的深度信息生成新图片，保留原始构图和内容不变的情况下，彻底改变纹理、颜色和细节。

10/22/2024 11:51:31 AM

故渊

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型全能且实用！实战测评谷歌最新模型Gemini 2.5 Pro 大模型部署工具 Ollama 使用指南：技巧与问题解决全攻略基于 DeepSeek GRPO 的 1.5B Rust 代码生成模型训练实战 DeepSeek R1 vs OpenAI O3 vs Gemini 2 Pro—谁最适合做客服主管的AI 模态编码器|CLIP详细解读 50组多风格提示词，全面测评Midjourney V7生图效果！斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习 GPT 开源微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习模态苹果 AI视频驾驶文本搜索 xAI 人形机器人 Copilot 神器推荐 LLaMA 大语言模型具身智能字节跳动 Claude 算力安全应用视频生成科技视觉干货合集亚马逊 2024 AGI 特斯拉 DeepMind 架构

图像

ImageNet-D 详解：严格评估神经网络的鲁棒性

耶鲁大学和Adobe提出SynthLight：智能重塑人像照明，打造完美光影

小红书提出新面部视频交换方法DynamicFace，可生成高质量且一致的视频面部图像

图像编辑大一统？多功能图像编辑框架Dedit:可基于图像、文本和掩码进行图像编辑

UIUC提出InstructG2I：从多模态属性图合成图像​，结合文本和图信息生成内容更丰富有趣！

Retinex-Diffusion：让图像照明更加自然、细腻、富有层次感。

Adobe发布TurboEdit：可以通过文本来编辑图像，编辑时间<0.5秒！

北大开源全新图像压缩感知网络：参数量、推理时间大幅节省，性能显著提升 | 顶刊TPAMI

图像领域再次与LLM一拍即合！idea撞车OpenAI强化微调，西湖大学发布图像链CoT

CCF-CV携手合合信息打造技术分享论坛，聚焦大模型时代中的视觉安全前沿热点

写给小白的大模型入门科普

九大成像模式一键解析，生物医学图像AI再迎突破！微软、UW等BiomedParse登Nature子刊

2024年10月出海AI网站流量排行榜

智源推出全能视觉生成模型 OmniGen：支持文生图、图像编辑等

图像伪造照妖镜：北大发布多模态 LLM 图像篡改检测定位框架 FakeShield

谷歌 Fluid 颠覆共识：两大因素被发现，AI 文生图领域自回归模型超越扩散模型

AIGC时代如何打击图片造假诈骗？合合信息文档篡改检测有妙招

Midjourney 下周上线新图像编辑器：让“二创”AI 图片变得更简单

UIUC提出InstructG2I：从多模态属性图合成图像，结合文本和图信息生成内容更丰富有趣！