AI在线 AI在线

三星研究院推出新型自回归 Transformer,助力高分辨率图像生成

作者:AI在线
2025-04-22 10:01
在图像生成领域,技术的进步不断推动着虚拟现实等应用的发展。 最近,三星研究院提出了一种基于自回归建模的新方法,旨在提升图像生成的保真度和可扩展性。 与传统的一次性生成整个场景的方法不同,该方法采用了逐步添加细节的策略,使图像的生成过程更符合人类的创作习惯。

在图像生成领域,技术的进步不断推动着虚拟现实等应用的发展。最近,三星研究院提出了一种基于自回归建模的新方法,旨在提升图像生成的保真度和可扩展性。与传统的一次性生成整个场景的方法不同,该方法采用了逐步添加细节的策略,使图像的生成过程更符合人类的创作习惯。

这一新方法的核心在于将图像生成分为 “基础” 与 “细节” 两个层次,首先生成一个平滑的基础图像,再通过迭代的方式逐步添加细节,最终形成一个连贯的高质量图像。研究团队强调,这种分层组合的策略比传统方法更有效,特别是在处理高分辨率图像时,它具有更好的可扩展性,且不需要对整个模型进行重新训练。

image.png

在自回归模型的学习过程中,图像标记的处理顺序对生成结果有着重要影响。三星的研究团队通过创新性地使用边缘感知平滑技术,将训练图像分解为不同的细层次,从而实现了对细节的增量控制。这种方法与人类艺术创作的过程相似艺术家往往从草图开始,逐步完善形状与细节。

该模型的训练包括三个主要步骤:首先将每个训练图像分解为多个层次的基本细节因素;接着,利用矢量量化变分自编码器(VQ-VAE)对这些因素进行编码,确保在降低维数的同时保留图像的关键特征;最后,采用 Transformer 解码器架构进行细节因素的迭代预测,从而实现图像细节的可控和逐步添加。

image.png

实验结果表明,该方法不仅在图像生成质量上达到了最先进的水平,还有效降低了与高分辨率输出相关的计算复杂性。这一创新的自回归图像生成框架,为扩散模型及其他技术提供了一个有力的替代方案,展示了未来图像生成技术的广阔前景。

相关资讯

OpenAI新项目Sora内测图像生成器,或将推出DALL-E 4?

近日,OpenAI 发布了一则引人注目的消息:在其内部测试的项目 Sora 中,除了已经推出的视频生成功能外,图像生成功能也在紧锣密鼓地研发中。 这个新功能让用户能够在视频和图像生成之间快速切换,提升创作的灵活性。 根据内部消息,Sora 将会增加一个隐藏的切换按钮,用户只需在提示栏中选择即可在两种模式之间切换。
2/10/2025 10:48:00 AM
AI在线

谷歌推出Imagen 3图像生成 API,每张仅需0.03美元

谷歌近日宣布,旗下最新的图像生成模型 ——Imagen3,现已通过 Gemini API 向开发者开放。 这个模型不仅具备强大的图像生成能力,还能根据输入的文本提示创造出多种艺术风格的图像,涵盖从超现实主义到动漫角色的广泛范畴。 Imagen3的使用非常简单,开发者只需通过 API 提交文本描述,模型便会迅速生成高质量图像。
2/10/2025 10:15:00 AM
AI在线

谷歌AI图像混合工具Google Whisk全球上线,覆盖100多个国家

谷歌近日宣布,其基于人工智能的图像混合工具Google Whisk已在全球100多个国家/地区正式推出。 这款工具最初于去年在美国发布,旨在通过创新的图像混合技术,为用户提供更简单、更具创意的图像生成体验。 与传统的图像生成工具不同,Google Whisk允许用户上传三张图像,分别代表主题、场景和风格。
2/13/2025 11:00:33 AM
AI在线