OpenAI直播狙击谷歌,奥特曼AGI梗图现场直出!GPT-4o超强原生生图来袭

就在谷歌刚刚扔出地表最强模型Gemini 2.5 Pro不久,OpenAI也有动作了。 奥特曼亲自带队,展示了GPT-4o图像生成技术的各种大升级,比如制作梗图、文本渲染、多轮交互生成和指令遵循等。 整个直播中最亮的演示,莫过于这张官方玩梗的表情包了。

就在谷歌刚刚扔出地表最强模型Gemini 2.5 Pro不久,OpenAI也有动作了。

奥特曼亲自带队,展示了GPT-4o图像生成技术的各种大升级,比如制作梗图、文本渲染、多轮交互生成和指令遵循等。

图片

整个直播中最亮的演示,莫过于这张官方玩梗的表情包了。

图片

目前,这项功能已经在ChatGPT和Sora中,向所有Plus、Pro、Team和免费用户推出。

图片

当然,新版Sora生图的时间,也比以往更长了。但OpenAI看来,生图的质量和其具备的世界知识,让用户值得等待那多出的几秒。

GPT-4o原生图像生成来了!

在直播中,奥特曼介绍道,从今天起,ChatGPT中的原生图像生成功能正式推出!

GPT-4o的全模态能力,从此也融合进了Sora中。

OpenAI多模态研究的负责人Gabe介绍说,两年前刚开始这个项目时,他对于GPT-4这个强大的模型会怎样原生支持图像模型非常好奇。

一年后,当模型完成训练时,他看到了令人兴奋的迹象。从GPT-2以来,他已经很久没有这种感觉——这是一个疯狂时刻。

给出以下prompt,GPT-4o就生成了符合要求的图像,完全还原了要求。

图片

图片

接下来,三个人用手机来了张自拍,GPT-4o立刻把三人自拍转换成了动漫风格的版本。

图片

图片

甚至他们开始官方玩梗,让模型添加一段「Feel The AGI」在图片上,一张表情包就此诞生。

图片

这个过程,就体现了4o作为全能模型的强大能力。

因为它不仅仅是一个语言模型,还包括图像、音频,所有输入和输出的模态。它可以理解、生成这些模态,并且无缝地在它们之间工作。

用OpenAI的话说,「我们终于迈向了这种真正集成的多模态模型」。

接下来,他们让模型画出一幅描述相对论的漫画,要求通俗易懂,还要加入一些幽默元素。

这个提示词非常模糊,因此看看模型会生成什么样的图,就格外令人期待了。果然,生成效果令人惊喜。

注意,这个过程中,模型很可能利用了自己的世界知识,对提示词进行了扩展。

图片

然后,他们给了模型一张卡片,希望生成同样风格的图像,但要求主角不再是卡片中的巨猫国王,而是某位研究者的狗狗。

图片

图片

另外,卡片上还需要出现一些细节,比如模型的名字和年份,以及狗狗的体重和身高。

可以看到,生成图像在文本渲染方面非常惊艳,所有数据都准确无误。

图片

最后一个演示,是基于此前几人生成的内容,制作一个纪念币。

而且,还要求图使用了一个特殊的十六进制代码,且加上生成图像的文本和日期。

图片

可以看到,生成结果非常惊艳!此前曾出现的艺术熊、收音机、爱因斯坦漫画、研究者的狗狗以及模型名称和日期,全部都出现在了纪念币上。

图片

模型之所以精准完成这样复杂的要求,是因为它是用非自回归的方式训练的,因此它能够理解上下文中的文本和多张图片,以非常和谐的方式在纪念币上呈现出来。

和GPT-4o聊天,定制各种图像

总之,现在使用这个功能,我们可以创建各种图像,或将其转换为各种风格。

图片

图片

图片

从此,用GPT-4o创建和定制图像,就像聊天一样简单。

只需描述所需,就能得到想要的任何细节,比如纵横比、使用十六进制代码的精确颜色或透明背景。

图片

图片

我们可以让它设计一个信息图,解释牛顿的棱镜宽高比,背景为深蓝色。

一张画质高级的教学级图片,立马生成。

图片

这个图像生成功能的特点就是,能遵循非常复杂的提示,极其注重细节。

15个非常细化的要求,它都在一张图里完美实现了。

要知道,大多数生图模型被要求渲染多个项目时,往往就会混淆颜色和形状,但新模型却能正确绑定15到20个对象的属性,还能成功理解各自的复杂需求。

图片

图片

在你和它的聊天上下文中,GPT-4o就能为你构建图像和文本,还能确保一致性。

图片

图片

主打一个实用

从最早的洞穴壁画到现代信息图表,人类一直使用视觉图像来交流、说服和分析。

如今的生成式AI模型可以创造出超现实的场景,但在处理人们用于分享和创建信息的实用图像方面仍然存在困难。

GPT‑4o的图像生成功能擅长准确渲染文本,精确遵循提示词,并利用GPT-4o固有的知识库和聊天上下文——包括转换上传的图像或将其用作视觉灵感。

这些能力让用户可以更加容易地创建想象中的画面,帮助通过视觉更有效地沟通,并将图像生成发展成为一种具有精确性和强大功能的实用工具。

毕竟,只有当图像配上指代共享语言和经验的符号时,才能传达精确的含义。

图片

图片

图片

图片

能力大幅增强

通过线上图像和文本的联合分布训练,模型不仅能学会图像如何与语言相关联,还能知道它们之间的相互关系。

结合积极的后训练优化,最终的模型展现出惊人的视觉表现力,能够生成实用、一致且具有上下文感知能力的图像。

文本渲染

一张图片胜过千言万语,但有时在正确的位置添加几个词能够大大提升图像的含义。

GPT-4o将精确的符号与图像融合的能力使图像生成成为视觉交流的有力工具。

图片

图片

图片

多轮交互生成

由于图像生成现在是GPT‑4o的原生功能,用户可以通过自然对话来完善图像。

GPT‑4o能够基于聊天上下文中的图像和文本进行构建,确保始终保持一致性。

比如,一个正在设计中的游戏角色,它的外观就能在多次迭代和调整中保持连贯一致。

图片

上下滑动查看

图片

指令遵循

GPT‑4o的图像生成功能不仅可以遵循详细的提示词,而且还十分注重细节。

相比起其他只能处理5-8个物体的模型,GPT‑4o可以轻松搞定多达10-20个不同的物体。

并且,物体与其特征和关系的更紧密绑定使得控制更加精准。

图片

图片

图片

图片

图片

上下文内学习

GPT‑4o能够分析并学习用户上传的图像,将图像细节无缝整合到上下文中,用于辅助图像生成。

图片

图片

图片

图片

世界知识

内置的图像生成功能使GPT‑4o能够连接文本和图像之间的知识,使模型表现得更智能、更高效。

图片

图片

图片

图片

图片

真实照片风格

通过对反映多种多样图像风格的图像进行训练,模型能够以令人信服的方式创建或转换图像。

图片

图片

图片

图片

图片

图片

图片

图片

图片

相关资讯

Nature:OpenAI推出AI研究助手,深度综述能力引发学界关注

编辑 | matrix科技巨头 OpenAI 于 2 月 2 日推出付费工具「Deep Research」,这款工具能将数十或数百个网站的信息综合为带有引用的完整报告。 此举紧随谷歌在去年 12 月发布的类似产品,标志着 AI 个人研究助手时代的来临。 这类工具最显著的特点是将原本需要数小时的研究工作压缩至数十分钟内完成,引发学界广泛关注。

OpenAI 公关跳起来捂他嘴:Transformer 作者公开承认参与 Q*!

Transformer 作者中唯一去了 OpenAI 的那位,公开承认了:他参与了 Q * 项目,是这项新技术的发明者之一。这几天除了英伟达老黄组局把 Transformer 作者聚齐,他们中的几位还接受了连线杂志的采访,期间出了这么一个小插曲。当记者试图询问 Lukasz Kaiser 更多关于 Q * 的问题时时,OpenAI 的公关人员几乎跳过桌子去捂他的嘴。结合阿尔特曼在接受采访时,毫不迟疑地拒绝了相关提问,“我们还没准备好谈论这个话题”。神秘 Q*,成了 OpenAI 当前最需要保守的秘密之一。不过对于

谷歌挖走 OpenAI 大将,前开发者关系负责人 Logan Kilpatrick 官宣加盟

【新智元导读】AI 人才争夺战拉响!谷歌四大高管挖走了 OpenAI 前开发者关系负责人 Logan Kilpatrick。他将 AI Studio 产品,并为 Gemini API 提供支持。网友纷纷看好谷歌。入职整整一个月后,OpenAI 前开发者关系负责人 Logan Kilpatrick 正式官宣加入谷歌。他将负责 AI Studio 产品,并为 Gemini API 提供支持。Logan 表示,未来还有很多工作要做,让谷歌成为开发人员使用 AI 进行开发的最佳场所。Logan 加入谷歌是收到了来自谷歌四位