PhotoDoodle AI 只需几个提示即可将您的照片变成异想天开的艺术作品

2025-02-26 09:27

字节跳动携手中国和新加坡大学研究团队推出的新型AI图像编辑系统PhotoDoodle，正在重新定义我们对图像创作的理解。这款基于Flux.1模型的创新技术，能够从少量样本中学习艺术风格，并精准执行特定编辑指令，为创意表达开辟了全新可能。以 Flux.1为基础PhotoDoodle的核心是研究团队首先开发的OmniEditor系统，它巧妙地利用LoRA（低秩自适应）技术对德国初创公司Black Forest Labs的Flux.1图像生成模型进行了改良。

字节跳动携手中国和新加坡大学研究团队推出的新型AI图像编辑系统PhotoDoodle，正在重新定义我们对图像创作的理解。这款基于Flux.1模型的创新技术，能够从少量样本中学习艺术风格，并精准执行特定编辑指令，为创意表达开辟了全新可能。

以 Flux.1为基础

PhotoDoodle的核心是研究团队首先开发的OmniEditor系统，它巧妙地利用LoRA（低秩自适应）技术对德国初创公司Black Forest Labs的Flux.1图像生成模型进行了改良。这种方法不需要彻底重塑原始模型的权重，而是通过添加专用小型矩阵实现从微小概念调整到完整风格转换的能力。

随后，研究人员采用名为EditLoRA的变体训练OmniEditor，使其能够复制独特的艺术风格。通过与艺术家合作创建的精选图像对，系统得以掌握每种艺术风格的精妙之处。

PhotoDoodle 在保留原始图像构图的同时添加了怪物、魔法效果和装饰插图等有趣元素。| 图片:Huang 等人

"位置编码克隆":保持画面和谐统一

PhotoDoodle最引人注目的创新是"位置编码克隆"技术。这项技术使AI能够记住原始图像中每个像素的确切位置，从而在添加新元素时保持画面构图的完整性，并确保新添加的元素自然融入背景。

这解决了传统图像编辑AI的关键痛点:要么改变整个图像风格，要么只能编辑局部区域，难以在保持原有视角和背景的同时融入新的装饰元素。而PhotoDoodle无需额外参数训练就能实现这一突破，大大提高了处理效率。

PhotoDoodle 使用各种艺术风格转换日常照片 - 从可爱的卡通怪物到手绘线条和色彩效果。| 图片:Huang 等人

展望单图像训练

在实际测试中，PhotoDoodle轻松应对从"让猫变白一点"到"添加一只爬上建筑物的粉红色怪物"等各种复杂指令。与现有技术相比，它在图像与文本描述相似度等基准测试中表现卓越，无论是针对性编辑还是全局图像更改，都远超同类产品。

PhotoDoodle 与现有的 AI 图像编辑系统的比较可以明显看出特定提示的执行质量存在差异。| 图片:Huang 等人

目前，PhotoDoodle需要数十对图像和数千个训练步骤才能掌握新风格。研究团队已将目光投向更高效的单图像训练方法，并发布了一个包含六种不同艺术风格和300多对图像的数据集，相关代码也已在GitHub上开源，为未来研究提供了坚实基础。

地址:https://github.com/showlab/PhotoDoodle

终于可用可组合函数转换库！PyTorch 1.11发布，弥补JAX短板，支持Python 3.10

PyTorch 1.11、TorchData 和 functorch 现已推出。

3/13/2022 12:56:00 PM

机器之心

OpenCV 4.10.0 版本更新发布，首次支持 Windows ARM64、苹果 VisionOS

OpenCV 是一款跨平台的计算机视觉和机器学习软件平台，在计算机视觉领域广泛使用，是目前人工智能应用中的重要基础平台。OpenCV 4.10.0 版本更新于昨日发布（点此查看），对其深度神经网络（DNN) 模块进行了许多改进、实验性 NumPy 2.0 支持、Android 改进、NVIDIA CUDA 12.4 平台支持、RISC-V 和 ARM 改进、oneAPI 2024 支持、实验性 Windows ARM64 支持、实验性苹果 VisionOS 支持，以及 Linux 上的本机 Wayland 后端。

6/4/2024 9:25:09 AM

汪淼

网信办发布《人工智能生成合成内容标识办法（征求意见稿）》

感谢国家互联网信息办公室今日发布关于《人工智能生成合成内容标识办法（征求意见稿）》公开征求意见的通知。其中第四条提到，服务提供者提供的生成合成服务属于《互联网信息服务深度合成管理规定》第十七条第一款情形的，应当按照下列要求对生成合成内容添加显式标识。（一）在文本的起始、末尾、中间适当位置添加文字提示或通用符号提示等标识，或在交互场景界面或文字周边添加显著的提示标识；（二）在音频的起始、末尾或中间适当位置添加语音提示或音频节奏提示等标识，或在交互场景界面中添加显著的提示标识；（三）在图片的适当位置添加显著的提示标识；

9/14/2024 10:59:15 AM

浩渺

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型全能且实用！实战测评谷歌最新模型Gemini 2.5 Pro 大模型部署工具 Ollama 使用指南：技巧与问题解决全攻略模态编码器|CLIP详细解读 DeepSeek R1 vs OpenAI O3 vs Gemini 2 Pro—谁最适合做客服主管的AI 50组多风格提示词，全面测评Midjourney V7生图效果！斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔 Deepseek 突破 AI 训练烧钱魔咒：1.2 万美元 1/525 成本 MT-Bench 跑分媲美 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习 GPT 开源微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习模态苹果 AI视频驾驶文本搜索 xAI 人形机器人 Copilot 神器推荐 LLaMA 大语言模型具身智能字节跳动 Claude 算力安全应用视频生成科技视觉干货合集亚马逊 2024 AGI 特斯拉 DeepMind 架构

顶部