图像生成

AI大模型看手相！图片视频加持深度思考，阿里QVQ-Max“神了神了”

阿里又发了个有意思的大模型——QVQ-Max，第一版视觉推理模型，对任意图像或视频都可以进行深度思考。举个有趣的例子，上传一张你的手掌，再点击Thinking，QVQ-Max就可以给你看手相：可以看到，在深度思考过后，QVQ-Max就开始逐步分析手掌上的线条和其他特征。包括心线、头线、生命线等主要线条的分析，以及戒指手指上的金戒指的象征意义。

ChatGPT 的新 AI 图像功能延迟对免费用户开放

OpenAI 首席执行官萨姆・阿尔特曼在社交媒体上宣布，ChatGPT 新推出的图像功能的上线时间将推迟，原因是用户的需求远远超出了公司的预期。阿尔特曼表示:“ChatGPT 中的图像功能比我们想象的要受欢迎得多（而且我们的预期已经很高了）。 ”本周二，OpenAI 刚刚推出了 GPT-4o 的原生图像生成功能，允许用户上传和修改图像，并表示该功能将很快向所有用户开放。

OpenAI发布最新图像生成模型：GPT-4o内置多轮对话编辑功能

2025年3月25日，OpenAI宣布其最新图像生成模型正式内置于GPT-4o中，这一突破性升级为用户带来了更强大的图像生成与编辑体验。据悉，该功能已于今日开始向ChatGPT和Sora的所有Plus、Pro、Team以及免费用户逐步推出。这一消息迅速引发了科技界的广泛关注。

LuminaBrush 在图像上绘制照明效果的构建交互式工具

LuminaBrushLuminaBrush 是一个构建交互式工具以在图像上绘制照明效果的项目。该框架采用两阶段方法：第一阶段将图像转换为“均匀照明”的外观，第二阶段利用用户涂鸦生成照明效果。相关链接HF 演示：：目前基于 Flux。

腾讯优图提出首个基于DiT的高保真虚拟试衣算法FitDiT

今天介绍的文章来自公众号粉丝投稿，腾讯优图提出首个基于DiT的高保真虚拟试衣算法FitDiT，给定一个人像图像和一个衣物图像，就可以生成一个展示人物穿着所提供衣物的图像。 FitDiT 在虚拟试穿中表现出色，解决了各种场景中与纹理感知保存和尺寸感知试穿相关的挑战。引言基于图像的虚拟试穿是当前电商场景流行且前景看好的图像合成技术，能够显著改善消费者的购物体验并降低服装商家的广告成本。

李飞飞看中的万亿赛道，中国首个自研空间智能AI登场！单张图即生3D世界

就在刚刚，昆仑万维正式发布了一款全新自研的Matrix-Zero世界模型。 Matrix-Zero世界模型包含两款子模型：昆仑万维自研的3D场景生成大模型与昆仑万维自研的可交互视频生成大模型。包括两部分功能：支持将用户输入的图片转化为可自由探索的真实合理的3D场景；支持根据用户输入实时生成互动视频效果。

谷歌AI图像混合工具Google Whisk全球上线，覆盖100多个国家

谷歌近日宣布，其基于人工智能的图像混合工具Google Whisk已在全球100多个国家/地区正式推出。这款工具最初于去年在美国发布，旨在通过创新的图像混合技术，为用户提供更简单、更具创意的图像生成体验。与传统的图像生成工具不同，Google Whisk允许用户上传三张图像，分别代表主题、场景和风格。

IC-Portrait：打造逼真个性化肖像的新纪元

在数字内容创作、虚拟形象、游戏和增强现实等领域，肖像生成已成为计算机图形学研究的热点。尽管近年来肖像生成模型取得了显著进展，能够生成越来越逼真和吸引人的肖像，但仍面临诸多挑战。今天，给大家介绍一种个性化肖像生成框架IC-Portrait，该框架引入了一种创建逼真肖像图像的创新方法。

OpenAI新项目Sora内测图像生成器，或将推出DALL-E 4？

近日，OpenAI 发布了一则引人注目的消息:在其内部测试的项目 Sora 中，除了已经推出的视频生成功能外，图像生成功能也在紧锣密鼓地研发中。这个新功能让用户能够在视频和图像生成之间快速切换，提升创作的灵活性。根据内部消息，Sora 将会增加一个隐藏的切换按钮，用户只需在提示栏中选择即可在两种模式之间切换。

谷歌推出Imagen 3图像生成 API，每张仅需0.03美元

谷歌近日宣布，旗下最新的图像生成模型 ——Imagen3，现已通过 Gemini API 向开发者开放。这个模型不仅具备强大的图像生成能力，还能根据输入的文本提示创造出多种艺术风格的图像，涵盖从超现实主义到动漫角色的广泛范畴。 Imagen3的使用非常简单，开发者只需通过 API 提交文本描述，模型便会迅速生成高质量图像。

阿里通义实验室提出AnyStory：开启个性化文本到图像生成的新篇章！

在这个数字化时代，生成式AI技术正以前所未有的速度改变着我们的创作方式。近期，阿里通义实验室发表了一篇题为《AnyStory: Towards Unified Single and Multi-Subject Personalization in Text-to-Image Generation》的论文，该论文提出了一种创新的框架，旨在通过统一的路径实现单个及多个主体的个性化文本到图像生成，为故事可视化、艺术创作乃至更多领域带来了革命性的突破。论文中深入探讨了当前文本到图像生成技术面临的挑战，如主体一致性、细节保留以及多主体个性化等方面的不足。