“计算机视觉被GPT-4o终结了”（狗头）

作者：量子位

2025-03-31 08:44

一夜之间，CV被大模型“解决”了（狗头）。万物皆可吉卜力之后，GPT-4o原生多模态图像生成更多玩法被开发出来。一个男友回头表情包，可以秒变语义分割图。

一夜之间，CV被大模型“解决”了（狗头）。

万物皆可吉卜力之后，GPT-4o原生多模态图像生成更多玩法被开发出来。

一个男友回头表情包，可以秒变语义分割图。

也可以秒变深度图。

这下不光上一代AI画图工具和设计师，计算机视觉研究员也哭晕在厕所了。

这是NASA前工程师测试特斯拉自动驾驶系统的伪装“隐形墙”，在GPT-4o面前也无所遁形。

这下OpenAI应用研究主管Boris Power已经把脑筋动到了自动驾驶，称只需要训练最强大的基础模型，然后微调。

3D渲染领域也惨遭毒手，GPT-4o可以生成PBR材质（基于物理渲染的材质），纹理、法线贴图等直接来一套。

对于这些能力，也有人认为没什么大不了的，Stable Diffusion + ControlNet就可以全部实现。

但不可否认，靠扩大基础模型规模就能做到，也是令人意想不到的。

GPT-4o图像生成是自回归模型

这波GPT-4o原生图像生成的技术细节，OpenAI是一点也没有公布（粗节也没有公布）。

但还是有人从System Card中发现了蛛丝马迹。

与DALL·E是一个扩散模型不同，GPT-4o图像生成是原生嵌入在ChatGPT内的自回归模型。

还有人观察图像的生成过程，发现很可能是多尺度自回归的组合，先生成一个粗略的图像，填充细节的同时，粗略图形本身也在变化。

自回归模型根据之前的像素或patch预测下一个像素或patch，获得更好地遵循指令，以及图像编辑的能力。

但也有人引用发OpenAI员工Allan Jabri晒出的板书图，提出在解码阶段仍然有可能用了扩散模型。

针对这一猜想，更具体的实现方法可以参考Meta等24年8月的一篇论文：使用一个多模态模型同时预测预测下一个token和扩散图像。

最后，微信评论区能发图片了，欢迎大家把更多GPT-4o有趣玩法晒出来～

GPT-4o Native Image Generation System Card

https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native_Image_Generation_System_Card.pdf

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

https://arxiv.org/abs/2408.11039v1

OpenAI发布GPT-4.1系列模型：能力全面超越前代

4月15日，OpenAI 在其官方博客宣布正式发布 GPT-4.1系列模型，涵盖 GPT-4.1、GPT-4.1mini 和 GPT-4.1nano 三款子模型。该系列在编程能力、指令理解及长文本处理等方面实现重大突破，全面超越前代 GPT-4o 及 GPT-4o mini。其中，模型上下文窗口扩展至100万 tokens，知识库更新至2024年6月，为复杂任务提供更强支持。

4/15/2025 9:00:45 AM

AI在线

OpenAI发布GPT-4.1系列模型，编码与多模态能力全面升级

人工智能领域的竞争日趋白热化，OpenAI再次以技术突破引领潮流。 AIbase从社交媒体获悉，OpenAI于近日通过API形式发布了三款全新模型:GPT-4.1、GPT-4.1mini和GPT-4.1nano。这些模型在性能上全面超越现有GPT-4o及GPT-4o mini，尤其在编码、指令遵循和多模态能力上表现突出。

4/15/2025 10:01:37 AM

AI在线

奥特曼曝GPT-5比他聪明！OpenAI暗藏GPT-4.5，o系编程跻身TOP 50

奥特曼柏林工业大学最新访谈，再次轰动了全世界。全场4000个座位，半个小时全部订满，整个Audimax讲堂虚无坐席。在这场专题讨论会上，TUB计算机科学教授Fatma Deniz与奥特曼、数据奇才Volker Markl，以及企业家Nicole Büttner共同探索了AI对科学、商业和社会的影响。

2/10/2025 1:00:00 AM

新智元

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用全日程揭晓！ICLR 2025论文分享会我们北京见 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果模态 AI视频驾驶文本人形机器人 xAI 搜索大语言模型 Copilot 字节跳动神器推荐 LLaMA 具身智能 Claude 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

“计算机视觉被GPT-4o终结了”（狗头）

GPT-4o图像生成是自回归模型

相关资讯

OpenAI发布GPT-4.1系列模型：能力全面超越前代

OpenAI发布GPT-4.1系列模型，编码与多模态能力全面升级

奥特曼曝GPT-5比他聪明！OpenAI暗藏GPT-4.5，o系编程跻身TOP 50