AI在线 AI在线

“计算机视觉被GPT-4o终结了”(狗头)

作者:量子位
2025-03-31 08:44
一夜之间,CV被大模型“解决”了(狗头)。 万物皆可吉卜力之后,GPT-4o原生多模态图像生成更多玩法被开发出来。 一个男友回头表情包,可以秒变语义分割图。

一夜之间,CV被大模型“解决”了(狗头)。

万物皆可吉卜力之后,GPT-4o原生多模态图像生成更多玩法被开发出来。

一个男友回头表情包,可以秒变语义分割图。

图片

也可以秒变深度图。

图片

这下不光上一代AI画图工具和设计师,计算机视觉研究员也哭晕在厕所了。

图片

这是NASA前工程师测试特斯拉自动驾驶系统的伪装“隐形墙”,在GPT-4o面前也无所遁形。

图片

图片

这下OpenAI应用研究主管Boris Power已经把脑筋动到了自动驾驶,称只需要训练最强大的基础模型,然后微调。

图片

3D渲染领域也惨遭毒手,GPT-4o可以生成PBR材质(基于物理渲染的材质),纹理、法线贴图等直接来一套。

图片

对于这些能力,也有人认为没什么大不了的,Stable Diffusion + ControlNet就可以全部实现。

图片

但不可否认,靠扩大基础模型规模就能做到,也是令人意想不到的。

GPT-4o图像生成是自回归模型

这波GPT-4o原生图像生成的技术细节,OpenAI是一点也没有公布(粗节也没有公布)。

但还是有人从System Card中发现了蛛丝马迹。

与DALL·E是一个扩散模型不同,GPT-4o图像生成是原生嵌入在ChatGPT内的自回归模型。

图片

还有人观察图像的生成过程,发现很可能是多尺度自回归的组合,先生成一个粗略的图像,填充细节的同时,粗略图形本身也在变化。

图片

自回归模型根据之前的像素或patch预测下一个像素或patch,获得更好地遵循指令,以及图像编辑的能力。

但也有人引用发OpenAI员工Allan Jabri晒出的板书图,提出在解码阶段仍然有可能用了扩散模型。

图片

针对这一猜想,更具体的实现方法可以参考Meta等24年8月的一篇论文:使用一个多模态模型同时预测预测下一个token和扩散图像。

图片

图片

最后,微信评论区能发图片了,欢迎大家把更多GPT-4o有趣玩法晒出来~

GPT-4o Native Image Generation System Card

https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native_Image_Generation_System_Card.pdf

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

https://arxiv.org/abs/2408.11039v1

相关标签:

相关资讯

OpenAI发布GPT-4.1系列模型:能力全面超越前代

4月15日,OpenAI 在其官方博客宣布正式发布 GPT-4.1系列模型,涵盖 GPT-4.1、GPT-4.1mini 和 GPT-4.1nano 三款子模型。 该系列在编程能力、指令理解及长文本处理等方面实现重大突破,全面超越前代 GPT-4o 及 GPT-4o mini。 其中,模型上下文窗口扩展至100万 tokens,知识库更新至2024年6月,为复杂任务提供更强支持。
4/15/2025 9:00:45 AM
AI在线

OpenAI发布GPT-4.1系列模型,编码与多模态能力全面升级

人工智能领域的竞争日趋白热化,OpenAI再次以技术突破引领潮流。 AIbase从社交媒体获悉,OpenAI于近日通过API形式发布了三款全新模型:GPT-4.1、GPT-4.1mini和GPT-4.1nano。 这些模型在性能上全面超越现有GPT-4o及GPT-4o mini,尤其在编码、指令遵循和多模态能力上表现突出。
4/15/2025 10:01:37 AM
AI在线

奥特曼曝GPT-5比他聪明!OpenAI暗藏GPT-4.5,o系编程跻身TOP 50

奥特曼柏林工业大学最新访谈,再次轰动了全世界。 全场4000个座位,半个小时全部订满,整个Audimax讲堂虚无坐席。 在这场专题讨论会上,TUB计算机科学教授Fatma Deniz与奥特曼、数据奇才Volker Markl,以及企业家Nicole Büttner共同探索了AI对科学、商业和社会的影响。
2/10/2025 1:00:00 AM
新智元