AI在线 AI在线

字节跳动开源项目UNO:图片生成可以保持角色、物体一致性

作者:AI在线
2025-04-14 10:01
人工智能(AI)在图像生成领域取得了显著的进展,但如何让AI在生成不同场景或进行多次创作时,保持图像中特定角色或物体的一致性,一直是行业内的重要挑战。 近日,字节跳动旗下的智能创作团队发布了其最新的开源项目 UNO,旨在通过创新技术,解锁更强的生成可控性,尤其是在保持图像主体一致性方面,为AI图像生成领域带来了新的突破。 AI作图“脸盲症”?UNO帮你记住“主角”在以往的AI图像生成过程中,即使输入相同的描述,每次生成的人物、物品也可能在外观上存在显著差异,这使得在需要保持角色或物体在不同图像中形象统一的应用场景中面临诸多不便。

人工智能(AI)在图像生成领域取得了显著的进展,但如何让AI在生成不同场景或进行多次创作时,保持图像中特定角色或物体的一致性,一直是行业内的重要挑战。近日,字节跳动旗下的智能创作团队发布了其最新的开源项目 UNO,旨在通过创新技术,解锁更强的生成可控性,尤其是在保持图像主体一致性方面,为AI图像生成领域带来了新的突破。

QQ_1744594414780.png

AI作图“脸盲症”?UNO帮你记住“主角”

在以往的AI图像生成过程中,即使输入相同的描述,每次生成的人物、物品也可能在外观上存在显著差异,这使得在需要保持角色或物体在不同图像中形象统一的应用场景中面临诸多不便。例如,创建一个系列漫画或故事绘本时,如果主角的形象 постоянно 变化,将严重影响用户体验。UNO项目的核心目标正是解决这一“脸盲症”问题,让AI在生成图像时,能够准确地“记住”用户想要保持一致的主体。

核心技术揭秘:数据合成与模型创新

UNO之所以能够实现高一致性的图像生成,得益于其提出的高一致性数据合成流程。该流程充分利用了扩散模型(Diffusion Transformers,简称 DiT)内在的上下文生成能力,生成具有高度一致性的多主体配对数据。

此外,UNO模型本身也进行了创新设计,主要包括 渐进式跨模态对齐(progressive cross-modal alignment)通用旋转位置编码(universal rotary position embedding)。通过这些技术,UNO能够更好地理解和对齐文本和图像信息,从而在多主体驱动的生成过程中实现高一致性和可控性。

功能亮点:单主体与多主体场景皆可控

UNO的强大之处在于其同时支持单主体和多主体驱动的图像生成,并能确保生成结果的高度一致性。这意味着,无论是需要保持单个角色的形象不变,还是需要在包含多个特定物体的场景中维持它们各自的特征,UNO都能够胜任。

通过 多图像条件输入,UNO能够学习并理解用户希望保持一致的主体特征,并在后续的生成过程中准确地还原这些特征,即使在不同的场景描述下,也能确保“主角”的形象不走样。

赋能DiT模型:释放更强大的生成潜力

虽然项目的介绍中并未直接明确UNO是基于哪个具体的DiT模型进行开发,但其强调利用了扩散模型的上下文生成能力,并开源了训练和推理代码,这为研究人员和开发者将UNO的技术应用于各种DiT模型提供了便利。可以预见,UNO的技术将有助于提升现有DiT模型在生成图像时的保真度和可控性,尤其是在需要保持图像内容连贯性的场景中

huggingface:https://huggingface.co/bytedance-research/UNO

相关资讯

字节Seedream 3.0 文生图模型技术报告发布:多项性能大幅升级

字节跳动Seed团队正式发布了Seedream3.0文生图模型的技术报告。 这一模型在性能上实现了重大提升,是一个原生高分辨率、支持中英双语的图像生成基础模型,在分辨率、生图结构准确性等多方面取得突破,与上一版本相比优势显著。 Seedream3.0在不同维度上的表现。
4/16/2025 3:01:05 PM
AI在线

Luma AI 开源的图像预训练技术IMM实现图像生成十倍提速

你们有没有觉得,辛辛苦苦用海量数据喂养出来的图像模型,在生成高质量图片时,总像蜗牛爬树般慢吞吞?别急,Luma AI 最近开源了一项名为 Inductive Moment Matching (IMM) 的图像模型预训练技术,据说能让模型以前所未有的“闪电”速度生成高质量图像,简直是炼丹炉里的涡轮增压!算法停滞?Luma AI 怒砸“天花板”近年来,AI 社区普遍感受到,生成式预训练似乎遇到了瓶颈。 尽管数据量持续攀升,但算法创新却相对停滞。 Luma AI 认为,这并非数据不够,而是算法没能充分挖掘数据的潜力,这如同手握金矿却只会用锄头挖土,效率实在堪忧。
3/12/2025 3:16:00 PM
AI在线

谷歌Gemini 2.0 Flash放出原生图像生成功能:支持多轮对话式实时编辑编辑

继Gemma3之后,谷歌又给我们带来了一位“闪电侠”——Gemini2.0Flash,而且人家这次是带着独门绝技来的:原生图像生成!  要知道,以前的AI图像生成,很多时候都是大型语言模型(LLM)先理解你的文字,然后再把意思“翻译”给专门生成图像的扩散模型。 这中间难免会有些“失真”,就像隔着好几个人传话,最后意思都变味儿了。
3/13/2025 9:50:00 AM
AI在线