GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器，还有4o图像生成全面测评基准

作者：

2025-04-09 09:08

GPT-4o图像生成架构被“破解”了！最近一阵，“万物皆可吉卜力”让GPT-4o的图像生成功能一炮而红，人们随之好奇：4o图像生成的架构底层逻辑到底是什么？ GPT-4o究竟强在哪？

GPT-4o图像生成架构被“破解”了！

最近一阵，“万物皆可吉卜力”让GPT-4o的图像生成功能一炮而红，人们随之好奇：

4o图像生成的架构底层逻辑到底是什么？GPT-4o究竟强在哪？存在哪些短板？

作为解答，北京大学、中山大学等多家科研机构共同推出GPT-ImgEval，首次系统评估了GPT-4o在图像生成上的真实表现。

这份量化评估基准不仅囊括了生成质量、编辑能力和知识推理，还尝试揭示GPT-4o背后的可能架构，还探讨了它生成图像的可检测性问题。

下面具体来看。

GPT-4o架构揭秘：可能使用了扩散+自回归混合方案

GPT-ImgEval团队尝试“反向破解”GPT-4o的图像生成架构。

研究团队在论文中提出了4种候选架构方案（见下图），尽管细节略有不同，但有一点是一致的：GPT-4o很可能采用的是自回归主干+扩散头的混合结构。

通俗来说，它的工作流程可能是这样的：文本或指令→ 自回归模块理解语义 → 生成中间视觉Token → 扩散模型将这些Token解码成图像。

当然，架构猜测不能仅靠想象。为此，研究团队设计了一套严谨的实证方法：

先选取一组统一的文本提示（prompt），分别使用自回归模型（VAR）和扩散模型（Diffusion）各自生成1万张图像作为对比样本；
利用这些图像训练一个二分类器，让它学会识别图像是“AR风格”还是“Diffusion风格”；
然后，用同样的Prompt交给GPT-4o生成图像，将这些图像输入该分类器进行识别。

也就是说，整个过程中，提示词保持完全一致，只看不同模型生成的图像“长得像谁”，以此判断GPT-4o的生成方式更接近哪类结构。

结果很直接：GPT-4o生成的图像几乎全部被识别为“扩散风格”，这就从图像风格维度验证了GPT-4o的确可能用了扩散模型作为解码器。

除了对视觉解码器的分析，研究人员也深入探讨了视觉编码方式。他们指出，一些研究（如UniTok）认为基于向量量化（VQ）的编码器可能会削弱模型的语义理解能力。

因此，作者认为如果采用了pixel encoder，其大概率是连续（非VQ）的而不是离散（VQ）的，并基于此提出了四种可能的完整架构示意图。

三大维度全面评估GPT-4o图像能力

GPT-ImgEval聚焦三类核心任务，对GPT-4o进行了系统评估：

文本生成图像（GenEval）：通过对物体数量、颜色、位置、组合属性等细粒度维度进行测评，验证模型对文本的理解与图像的构造能力。
指令编辑图像（Reason-Edit）：模拟用户给出修改指令后，模型在保留图像语义基础上进行局部编辑的能力，如替换、删除、变色等。
基于世界知识的语义合成（WISE）：考察模型是否能将对世界常识、文化背景、科学原理等知识真正“显性化”为图像输出。

为了支持这一系统评估，研究团队开发了一套针对GPT-4o的自动化交互脚本，解决了当前该模型尚未开放图像生成API的现实问题。

这套脚本直接与GPT-4o网页界面交互，模拟真实用户行为：

自动输入提示词（Prompt）、点击提交
自动抓取生成图像并存储归档
每次请求会新开浏览器窗口，确保不同任务之间上下文不相互干扰
支持任务批量运行，可实现大规模、可重复的图像生成任务调度

最终，GPT-ImgEval的整体工作流如下图所示：

在文本生成图像（GenEval）任务中，GPT-4o取得了0.84的总得分，超越目前所有扩散类与自回归类图像生成模型。

尤其在以下几项中表现突出：数量控制（0.85）、颜色绑定（0.92）、空间位置（0.75）、属性组合（0.61）。

下图是一些GPT-4o使用GenEval基准中的prompt生图的具体例子：

而在图像编辑任务（Reason-Edit）中，GPT-4o得分高达0.929，领先第二名超过0.35，说明其在指令理解和局部控制上表现极其稳定。

在知识合成（WISE）任务中，GPT-4o同样大放异彩，多个子维度（生物、文化、物理等）得分均超过0.9，总分0.89，远高于当前开源模型（普遍在0.4~0.5之间）。

这说明GPT-4o具有强大的世界知识和推理能力，这应该是得益于GPT-4o这种统一多模态框架。

GPT-4o很强，但“终局”远未到来

GPT-ImgEval不仅验证了GPT-4o在图像生成上的优势，更指出了它仍需突破的短板。尤其是在可控性、多语种处理、局部编辑稳定性等方面，仍有不少提升空间。

GPT-ImgEval不仅系统性验证了GPT-4o在图像生成、图像编辑与知识合成三大任务中的领先表现，更进一步揭示了其架构特征、失败模式与安全边界。

该研究不仅在评测维度上实现了覆盖广泛、量化精准，也从架构判别、编辑可控性、多轮理解能力和伪影检测等多个层面，对GPT-4o进行了技术全景式诊断。

研究团队认为，该工作的重要意义在于：

1、提供系统化多模态评估范式：首次从“生成-编辑-推理”全流程出发，建立综合图像能力测试框架；

2、推动闭源模型的“可解释评测”研究：在无法访问模型细节的前提下，建立架构猜测和行为归因机制；

3、强调通用多轮编辑场景的实用价值：用用户视角验证语义理解一致性与细节保真性，为交互设计落地提供参考；

4、补齐图像生成安全性研究缺口：通过可检测性实证，发现图像中的上采样/超分伪影、色彩特征，推动AIGC取证技术演进。

更多细节欢迎查阅原论文。

论文地址：https://arxiv.org/pdf/2406.19435代码链接：https://github.com/PicoTrex/GPT-ImgEval数据集下载：https://huggingface.co/datasets/Yejy53/GPT-ImgEval

奥特曼曝GPT-5比他聪明！OpenAI暗藏GPT-4.5，o系编程跻身TOP 50

奥特曼柏林工业大学最新访谈，再次轰动了全世界。全场4000个座位，半个小时全部订满，整个Audimax讲堂虚无坐席。在这场专题讨论会上，TUB计算机科学教授Fatma Deniz与奥特曼、数据奇才Volker Markl，以及企业家Nicole Büttner共同探索了AI对科学、商业和社会的影响。

2/10/2025 1:00:00 AM

新智元

OpenAI深夜更新GPT-5路线图，奥特曼高密度爆料全模型免费计划。GPT-5真的要来了吗？我怀疑

编辑 | 言征GPT-5真的要来了！最晚几个月！最快一周内！

2/13/2025 10:52:56 AM

言征

OpenAI官方下场修复GPT-4变懒，上新多个模型、还大降价

今天，OpenAI 一口气宣布了 5 个新模型，包括两个文本嵌入模型、升级的 GPT-4 Turbo 预览版和 GPT-3.5 Turbo、一个审核模型。不知大家是否还记得，去年年底 GPT-4 开始变「懒」的事实。比如在高峰时段使用 GPT-4 或 ChatGPT API 时，响应会变得非常缓慢且敷衍，有时它会拒绝回答用户提出的问题，甚至还会单方面中断对话。这种情况对于码农来说，更是深有体会，有人抱怨道「让 ChatGPT 扩展一些代码，它竟然让我自己去写。」原本想借助 ChatGPT 帮助自己编写代码，现在好

1/26/2024 2:41:00 PM

机器之心

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型全能且实用！实战测评谷歌最新模型Gemini 2.5 Pro 大模型部署工具 Ollama 使用指南：技巧与问题解决全攻略模态编码器|CLIP详细解读 DeepSeek R1 vs OpenAI O3 vs Gemini 2 Pro—谁最适合做客服主管的AI 50组多风格提示词，全面测评Midjourney V7生图效果！斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔 Deepseek 突破 AI 训练烧钱魔咒：1.2 万美元 1/525 成本 MT-Bench 跑分媲美 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习 GPT 开源微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习模态苹果 AI视频驾驶文本搜索 xAI 人形机器人 Copilot 神器推荐 LLaMA 大语言模型具身智能字节跳动 Claude 算力安全应用视频生成科技视觉干货合集亚马逊 2024 AGI 特斯拉 DeepMind 架构

顶部

GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器，还有4o图像生成全面测评基准

GPT-4o架构揭秘：可能使用了扩散+自回归混合方案

三大维度全面评估GPT-4o图像能力

更多研究结论

GPT-4o vs Gemini 2.0 Flash：多轮编辑对比

GPT-4o仍存五大问题，图像量化评估并非无解

这些图像能被检测出来吗？

可量化评估，并非弱点，而是AIGC安全设计的基线能力

GPT-4o很强，但“终局”远未到来

相关资讯

奥特曼曝GPT-5比他聪明！OpenAI暗藏GPT-4.5，o系编程跻身TOP 50

OpenAI深夜更新GPT-5路线图，奥特曼高密度爆料全模型免费计划。GPT-5真的要来了吗？我怀疑

OpenAI官方下场修复GPT-4变懒，上新多个模型、还大降价