CVPR 2025 | EmoEdit：情感可编辑？深大VCC带你见证魔法！

2025-03-30 05:11

EmoEdit 由深圳大学可视计算研究中心黄惠教授课题组完成，第一作者为杨景媛助理教授。深圳大学可视计算研究中心（VCC）以计算机图形学、计算机视觉、人机交互、机器学习、具身智能、可视化和可视分析为学科基础，致力前沿探索与跨学科创新。中心主任黄惠为深圳大学讲席教授、计算机学科带头人、计算机与软件学院院长。

论文标题：EmoEdit: Evoking Emotions through Image Manipulation
论文链接：https://arxiv.org/pdf/2405.12661
项目主页：https://vcc.tech/research/2025/EmoEdit
项目代码：https://github.com/JingyuanYY/EmoEdit

你有没有想过，情感也能被编辑？

当你翻开相册，看到一张平淡无奇的风景照，是否希望它能更温暖、更浪漫，甚至更忧郁？现在，EmoEdit 让这一切成为可能 —— 只需输入一个简单的情感词，EmoEdit 便能巧妙调整画面，使观众感知你想传递的情感。

情感无处不在，我们的每一次触动，往往源自身边微小的细节。心理学研究表明，视觉刺激是情感唤起的重要来源之一，而图像内容则是人类理解视觉信息的关键。这便引出一个值得探索的问题：我们能否通过编辑图像，有效引导观众的情感？

图像情感编辑（Affective Image Manipulation, AIM）具有双重目标：

保持编辑后图像与原图的结构一致性；
精准且显著地唤起目标情感。

然而，这两者本质上存在一定冲突，如何权衡成为关键挑战。尽管当前先进的生成模型在图像编辑任务中表现出强大能力，但难以权衡结构保持和情感唤起（如下图所示）。现有方法主要依赖颜色调整或风格变化进行情感迁移，但情感表达仍不够精准和显著，难以呈现更丰富且生动的情感效果。

为解决上述问题，本文的主要贡献如下：

提出 EmoEdit，一种基于内容感知的 AIM 框架，仅需目标情感类别作为提示词，即可在任意用户图像上实现多样化的情感编辑；
构建首个大规模 AIM 数据集 EmoEditSet，涵盖 40,120 组图像对，提供高质量、语义丰富的情感编辑基准，推动视觉情感研究；
设计即插即用的情感增强模块 Emotion Adapter，通过融合 EmoEditSet 的情感知识，有效提升扩散模型的情感感知能力。

EmoEditSet 的构建

鉴于 EmoSet 现有标签的局限性，我们在 CLIP 空间中对情感图片进行聚类，并利用 GPT-4V 总结各类的共性语义，构建情感因素树。其中，每个叶节点因素均能有效激发根节点的目标情感。

同时，我们从 MagicBrush、MA5K 和 Unsplash 等多个来源收集源图像，并利用 IP2P 和情感因素树生成目标图像。此外，考虑到 GPT-4V 与扩散模型在知识表达上的差异，我们合并语义相近的视觉因素，并剔除内容过于抽象的因素，以提升数据集的整体质量。

Emotion Adapter 的设计

微调虽能增强模型的情感知识，但成本高、泛化性差，且易导致灾难性遗忘。Q-Former 可利用一种模态的上下文优化对另一模态的理解。基于此，我们设计 Emotion Adapter，以提高情感感知能力。

Emotion Adapter 结合情感词典，目标情感和输入图像，旨在生成最合适的情感嵌入。

在训练过程中，我们通过扩散损失和指令损失共同优化网络：

其中，扩散损失侧重于像素级相似性，而指令损失则有助于更好地平衡语义准确性。

实验结果

在对比实验中，我们从全局编辑、局部编辑和情感迁移三个维度选择了对比方法。与其他方法相比，EmoEdit 编辑后的图像不仅有效保留了原始构图特征，还能显著传达目标情感，凸显了其在平衡图像结构与情感表达方面的优势。

在消融实验中，缺少 Emotion Adapter（w/o EmoAda）时，图像几乎相同。扩散损失有效保留了原始结构，而指令损失则提高了语义清晰度。例如，在 “满足” 情感下，EmoEdit 增加了「躺椅」，展现了结构完整性、语义清晰度和上下文契合度。

我们观察到，随着图像引导系数的降低，情感强度增加，而结构保持程度减少。尽管情感唤起和结构保持通常存在矛盾，EmoEdit 仍能有效平衡二者。用户可以根据需求和偏好调整引导系数，定制图像编辑效果，从而满足多样化的编辑需求。

在定量评估中，我们采用涵盖像素、语义和情感三个层面的六项指标。结果表明，EmoEdit 在大多数指标上优于对比方法，进一步验证了其在图像情感编辑任务中的卓越性能。

Emotion Adapter 可显著增强其他模型的情感表达能力。例如，在 ControlNet 中，插入 Emotion Adapter 之前，模型仅能将输入图像转换为黑白；引入后，则能生成包含「墓碑」等情感相关元素的图像，大幅提升情感保真度和上下文契合度。这进一步验证了 Emotion Adapter 在增强情感表达方面的有效性。

Emotion Adapter 不仅适用于图像编辑，还可拓展至风格图像生成。通过一次训练，它即可将情感极性（积极、消极）编码为准确、多元的语义表示。例如，在「莫奈」风格生成的图像中，「日落」唤起「敬畏」（积极），而「墓地」则传递「悲伤」（消极），充分展现了其在风格图像生成任务中的鲁棒性。

总结与展望

莎士比亚曾言：The emotion expressed by wordless simplicity is the most abundant.

「至简无言处，情深自丰盈」

近年来，我们课题组先后提出了情感计算领域的 Emo 系列研究工作：

EmoSet（ICCV 2023）：首个具有丰富属性标注的大规模视觉情感数据集；
EmoGen（CVPR 2024）：首个针对图像情感内容生成的研究；
EmoEdit（CVPR 2025）：首个聚焦于图像情感内容编辑的研究。

我们希望通过这一系列探索，为情感计算（Affective Computing）与生成式人工智能（AIGC）的交叉领域贡献新的思路与方法。未来，我们将持续深耕这一领域，也期待更多志同道合的朋友加入，共同探索「情感」这片蓝海！

CVPR 2025｜北大开源多模态驱动的定制化漫画生成框架DiffSensei，还有4.3万页漫画数据集

随着生成式人工智能技术（AIGC）的突破，文本到图像模型在故事可视化领域展现出巨大潜力，但在多角色场景中仍面临角色一致性差、布局控制难、动态叙事不足等挑战。为此，北京大学、上海人工智能实验室、南洋理工大学联合推出 DiffSensei，首个结合多模态大语言模型（MLLM）与扩散模型的定制化漫画生成框架。论文地址：仓库： - - ，实现了对多角色外观、表情、动作的精确控制，并支持对话布局的灵活编码。

3/7/2025 12:48:00 PM

机器之心

没有归一化层的Transformer！刘壮带队，何恺明、Yann LeCun都参与了

何恺明又双叒叕发新作了，这次还是与图灵奖得主 Yann LeCun 合作。这项研究的主题是没有归一化层的 Transformer（Transformers without Normalization），并已被 CVPR 2025 会议接收。 Meta FAIR 研究科学家刘壮的推文过去十年，归一化层已经巩固了其作为现代神经网络最基本组件之一的地位。

3/14/2025 3:54:00 PM

机器之心

CVPR 2025 高分论文 | 单图秒变3D真人！IDOL技术开启数字分身新时代

在虚拟现实、游戏以及 3D 内容创作领域，从单张图像重建高保真且可动画的全身 3D 人体一直是一个极具挑战性的问题：人体多样性、姿势复杂性、数据稀缺性等等。终于，近期由来自南京大学、中科院、清华大学、腾讯等机构的联合研究团队，提出一个名为 IDOL 的全新解决方案，高分拿下 2025 CVPR。项目主页目前访问次数已超 2500 次，且是可商用的 MIT 开源协议，备受业界瞩目。

3/22/2025 8:59:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 OPPO 小布助手网页版上线，接入满血版 DeepSeek 本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果人形机器人深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

CVPR 2025 | EmoEdit：情感可编辑？深大VCC带你见证魔法！

相关资讯

CVPR 2025｜北大开源多模态驱动的定制化漫画生成框架DiffSensei，还有4.3万页漫画数据集

没有归一化层的Transformer！刘壮带队，何恺明、Yann LeCun都参与了

CVPR 2025 高分论文 | 单图秒变3D真人！IDOL技术开启数字分身新时代