人工智能(AI)在图像生成领域取得了显著的进展,但如何让AI在生成不同场景或进行多次创作时,保持图像中特定角色或物体的一致性,一直是行业内的重要挑战。近日,字节跳动旗下的智能创作团队发布了其最新的开源项目 UNO,旨在通过创新技术,解锁更强的生成可控性,尤其是在保持图像主体一致性方面,为AI图像生成领域带来了新的突破。
AI作图“脸盲症”?UNO帮你记住“主角”
在以往的AI图像生成过程中,即使输入相同的描述,每次生成的人物、物品也可能在外观上存在显著差异,这使得在需要保持角色或物体在不同图像中形象统一的应用场景中面临诸多不便。例如,创建一个系列漫画或故事绘本时,如果主角的形象 постоянно 变化,将严重影响用户体验。UNO项目的核心目标正是解决这一“脸盲症”问题,让AI在生成图像时,能够准确地“记住”用户想要保持一致的主体。
核心技术揭秘:数据合成与模型创新
UNO之所以能够实现高一致性的图像生成,得益于其提出的高一致性数据合成流程。该流程充分利用了扩散模型(Diffusion Transformers,简称 DiT)内在的上下文生成能力,生成具有高度一致性的多主体配对数据。
此外,UNO模型本身也进行了创新设计,主要包括 渐进式跨模态对齐(progressive cross-modal alignment) 和 通用旋转位置编码(universal rotary position embedding)。通过这些技术,UNO能够更好地理解和对齐文本和图像信息,从而在多主体驱动的生成过程中实现高一致性和可控性。
功能亮点:单主体与多主体场景皆可控
UNO的强大之处在于其同时支持单主体和多主体驱动的图像生成,并能确保生成结果的高度一致性。这意味着,无论是需要保持单个角色的形象不变,还是需要在包含多个特定物体的场景中维持它们各自的特征,UNO都能够胜任。
通过 多图像条件输入,UNO能够学习并理解用户希望保持一致的主体特征,并在后续的生成过程中准确地还原这些特征,即使在不同的场景描述下,也能确保“主角”的形象不走样。
赋能DiT模型:释放更强大的生成潜力
虽然项目的介绍中并未直接明确UNO是基于哪个具体的DiT模型进行开发,但其强调利用了扩散模型的上下文生成能力,并开源了训练和推理代码,这为研究人员和开发者将UNO的技术应用于各种DiT模型提供了便利。可以预见,UNO的技术将有助于提升现有DiT模型在生成图像时的保真度和可控性,尤其是在需要保持图像内容连贯性的场景中。
huggingface:https://huggingface.co/bytedance-research/UNO