AI在线 AI在线

PhotoDoodle AI 只需几个提示即可将您的照片变成异想天开的艺术作品

作者:AI在线
2025-02-26 09:27
字节跳动携手中国和新加坡大学研究团队推出的新型AI图像编辑系统PhotoDoodle,正在重新定义我们对图像创作的理解。 这款基于Flux.1模型的创新技术,能够从少量样本中学习艺术风格,并精准执行特定编辑指令,为创意表达开辟了全新可能。 以 Flux.1为基础PhotoDoodle的核心是研究团队首先开发的OmniEditor系统,它巧妙地利用LoRA(低秩自适应)技术对德国初创公司Black Forest Labs的Flux.1图像生成模型进行了改良。

字节跳动携手中国和新加坡大学研究团队推出的新型AI图像编辑系统PhotoDoodle,正在重新定义我们对图像创作的理解。这款基于Flux.1模型的创新技术,能够从少量样本中学习艺术风格,并精准执行特定编辑指令,为创意表达开辟了全新可能。

以 Flux.1为基础

PhotoDoodle的核心是研究团队首先开发的OmniEditor系统,它巧妙地利用LoRA(低秩自适应)技术对德国初创公司Black Forest Labs的Flux.1图像生成模型进行了改良。这种方法不需要彻底重塑原始模型的权重,而是通过添加专用小型矩阵实现从微小概念调整到完整风格转换的能力。

随后,研究人员采用名为EditLoRA的变体训练OmniEditor,使其能够复制独特的艺术风格。通过与艺术家合作创建的精选图像对,系统得以掌握每种艺术风格的精妙之处。

QQ20250226-092429.png

PhotoDoodle 在保留原始图像构图的同时添加了怪物、魔法效果和装饰插图等有趣元素。| 图片:Huang 等人

"位置编码克隆":保持画面和谐统一

PhotoDoodle最引人注目的创新是"位置编码克隆"技术。这项技术使AI能够记住原始图像中每个像素的确切位置,从而在添加新元素时保持画面构图的完整性,并确保新添加的元素自然融入背景。

这解决了传统图像编辑AI的关键痛点:要么改变整个图像风格,要么只能编辑局部区域,难以在保持原有视角和背景的同时融入新的装饰元素。而PhotoDoodle无需额外参数训练就能实现这一突破,大大提高了处理效率。

QQ20250226-092411.png

PhotoDoodle 使用各种艺术风格转换日常照片 - 从可爱的卡通怪物到手绘线条和色彩效果。| 图片:Huang 等人

展望单图像训练

在实际测试中,PhotoDoodle轻松应对从"让猫变白一点"到"添加一只爬上建筑物的粉红色怪物"等各种复杂指令。与现有技术相比,它在图像与文本描述相似度等基准测试中表现卓越,无论是针对性编辑还是全局图像更改,都远超同类产品。

QQ20250226-092421.png

PhotoDoodle 与现有的 AI 图像编辑系统的比较可以明显看出特定提示的执行质量存在差异。| 图片:Huang 等人

目前,PhotoDoodle需要数十对图像和数千个训练步骤才能掌握新风格。研究团队已将目光投向更高效的单图像训练方法,并发布了一个包含六种不同艺术风格和300多对图像的数据集,相关代码也已在GitHub上开源,为未来研究提供了坚实基础。

地址:https://github.com/showlab/PhotoDoodle

相关资讯

终于可用可组合函数转换库!PyTorch 1.11发布,弥补JAX短板,支持Python 3.10

PyTorch 1.11、TorchData 和 functorch 现已推出。
3/13/2022 12:56:00 PM
机器之心

OpenCV 4.10.0 版本更新发布,首次支持 Windows ARM64、苹果 VisionOS

OpenCV 是一款跨平台的计算机视觉和机器学习软件平台,在计算机视觉领域广泛使用,是目前人工智能应用中的重要基础平台。OpenCV 4.10.0 版本更新于昨日发布(点此查看),对其深度神经网络(DNN) 模块进行了许多改进、实验性 NumPy 2.0 支持、Android 改进、NVIDIA CUDA 12.4 平台支持、RISC-V 和 ARM 改进、oneAPI 2024 支持、实验性 Windows ARM64 支持、实验性苹果 VisionOS 支持,以及 Linux 上的本机 Wayland 后端。
6/4/2024 9:25:09 AM
汪淼

网信办发布《人工智能生成合成内容标识办法(征求意见稿)》

感谢国家互联网信息办公室今日发布关于《人工智能生成合成内容标识办法(征求意见稿)》公开征求意见的通知。其中第四条提到,服务提供者提供的生成合成服务属于《互联网信息服务深度合成管理规定》第十七条第一款情形的,应当按照下列要求对生成合成内容添加显式标识。(一)在文本的起始、末尾、中间适当位置添加文字提示或通用符号提示等标识,或在交互场景界面或文字周边添加显著的提示标识;(二)在音频的起始、末尾或中间适当位置添加语音提示或音频节奏提示等标识,或在交互场景界面中添加显著的提示标识;(三)在图片的适当位置添加显著的提示标识;
9/14/2024 10:59:15 AM
浩渺