阿里发布新ID保持项目EcomID, 可从单个ID参考图像生成定制的保ID图像，ComfyUI可使用

2025-01-20 11:00

阿里妈妈发布了一个新的ID保持项目EcomID，旨在从单个ID参考图像生成定制的保ID图像，优势在于很强的语义一致性，同时受人脸关键点控制。 EcomID 方法结合了 PuLID 和 InstantID 的优点，以获得更好的背景一致性、面部关键点控制、更真实的面部以及更高的相似度。目前，EcomID 的 Comfyui 原生实现官方插件也已经发布，大家可以从文章中的链接获取。

阿里妈妈发布了一个新的ID保持项目EcomID，旨在从单个ID参考图像生成定制的保ID图像，优势在于很强的语义一致性，同时受人脸关键点控制。

EcomID 方法结合了 PuLID 和 InstantID 的优点，以获得更好的背景一致性、面部关键点控制、更真实的面部以及更高的相似度。目前，EcomID 的 Comfyui 原生实现官方插件也已经发布，大家可以从文章中的链接获取。

EcomID 结构

PuLID 的 IP-Adapter：EcomID 借鉴了 PuLID 的 ID-Encoder 和交叉注意力组件，其使用对齐损失训练而成。故而该方法有效减少了 ID embedding 对交叉注意力部分的文本 embedding的干扰，最小化对底层模型文本到图像能力的干扰。

InstantID 的 IdentityNet 架构：利用 200 万张美观的人像图像数据集，训练了IdentityNet，增强了关键点控制，提高了 ID 一致性和面部真实感。在训练过程中，IP-adapter 被冻结，只有 IdentityNet 被训练。面部Keypoint用作条件输入，同时面部嵌入通过交叉注意力集成到 IdentityNet 中。

效果对比

ComfyUI使用

训练细节

该模型在 200 万张淘宝图像上进行训练，其中人脸比例大于 3%。图像分辨率大于800，且美学评分超过 5.5。

混合精度：fp16
学习率：1e-4
批量大小：2
图像大小：1024x1024

注意事项

EcomID与其他基于SDXL模型也高度兼容，如leosams-helloworld-xl、dreamshaper-xl、stable-diffusion-xl-base-1.0 等。

它与SDXL Turbo/Lighting、EcomXL Inpainting ControlNet和 EcomXL Softedge ControlNet 的兼容性非常好。

东京大学 | Adobe 提出InstructMove，可通过观察视频中的动作来实现基于指令的图像编辑

InstructMove是一种基于指令的图像编辑模型，使用多模态 LLM 生成的指令对视频中的帧对进行训练。该模型擅长非刚性编辑，例如调整主体姿势、表情和改变视点，同时保持内容一致性。此外，该方法通过集成蒙版、人体姿势和其他控制机制来支持精确的局部编辑。

1/20/2025 10:36:00 AM

AIGC Studio

o1推理框架最新成果：斯坦福&伯克利提出元链式思维，升级模型推理能力

o1背后的推理原理，斯坦福和伯克利帮我们总结好了！在最新的一篇长达100页的论文中，他们将o1模型背后的推理机制提炼成了一个通用的框架——元链式思维（Meta-CoT）。这个元链式思维（Meta-CoT）到底是什么意思呢？

1/20/2025 1:08:25 PM

量子位

给大模型制作图文并茂的教科书: 从2.5年的教学视频里挖掘多模态语料

近期关于 scaling law 的讨论甚嚣尘上，很多观点认为 scale law is dead. 然而，我们认为，高质量的 “无监督” 数据才是 scaling law 的关键，尤其是教科书级别的高质量的知识语料。此外，尽管传统的语料快枯竭了，但是互联网上还有海量的视频并没有被利用起来，它们囊括了丰富的多种模态的知识，可以帮助 VLMs 更好好地理解世界。

1/20/2025 4:17:58 PM

机器之心

资讯热榜

这样在本地搭建DeepSeek可以直接封神：本地部署+避坑指南（升级版）基于 Spring AI + MCP + DeepSeek-R1-7B 构建企业级智能 Agent 工具调用系统 Manus开源平替！Kortix-AI正式发布开源通用AI智能体平台Suna Trae v1.3.0重磅更新，新增MCP与.rules支持引领AI开发新体验纳米AI发布MCP万能工具箱，简化AI工具集成与调用 Figma 推 AI 革命：开发智能应用制作器与网站创建工具即梦3.0海外版发布，电影级视觉与精准英文排版引领AI创作新高度扣子空间Coze Space正式开启内测支持 MCP 扩展集成

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据机器人模型谷歌大模型 Midjourney 智能用户开源学习 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora 3D Anthropic AI for Science AI设计机器学习 GPU 开发者 AI视频场景华为预测百度人形机器人伟达苹果 Transformer 深度学习模态 xAI 字节跳动 Claude 大语言模型搜索驾驶文本具身智能神器推荐 Copilot LLaMA 算力视频生成安全干货合集视觉应用大型语言模型科技亚马逊特斯拉 AGI 训练 2024

顶部