OpenAI推出全新图像生成模型,挑战Google一句话P图

在科技界的最新动态中,OpenAI 刚刚宣布,他们在最新的 GPT-4o 模型中集成了迄今为止最先进的图像生成器。 OpenAI 的首席执行官萨姆・奥特曼(Sam Altman)在社交媒体平台 X 上兴奋地分享了他第一次看到模型生成的图像时的震惊,认为这简直难以置信,并期待用户们充分发挥他们的创造力。 新功能的亮点包括:- 能够精确渲染文本内容,提供高质量的图像效果。

在科技界的最新动态中,OpenAI 刚刚宣布,他们在最新的 GPT-4o 模型中集成了迄今为止最先进的图像生成器。OpenAI 的首席执行官萨姆・奥特曼(Sam Altman)在社交媒体平台 X 上兴奋地分享了他第一次看到模型生成的图像时的震惊,认为这简直难以置信,并期待用户们充分发挥他们的创造力。

image.png

新功能的亮点包括:

- 能够精确渲染文本内容,提供高质量的图像效果。

- 支持多种输入输出方式,涵盖文本、图像和音频等多种形式。

- 理解复杂指令并结合上下文,创造出具有真实感的第一人称视角图像。

与之前的图像生成模型 DALL・E 不同,GPT-4o 采用了一种自回归模型,原生嵌入在 ChatGPT 中。这意味着,它能够处理多达10至20个不同物体的复杂指令,而竞争对手通常只能处理5至8个,展现出更强的能力。

image.png

用户只需简洁地描述需求,比如指定纵横比、颜色或透明背景,模型便可以快速生成图像。虽然渲染较复杂的细节可能需要稍等一会儿,但最终的效果是值得的。

在一次发布会上,演示者展示了多个具体案例。比如,他将一张合影转化为动漫风格的图像,模型不仅成功保留了人物的特征,还完美融合了动漫视觉效果。此外,演示者要求生成一页关于相对论的幽默漫画,结果生成的漫画不仅结构完整,还生动有趣。

OpenAI 对此功能的安全性也非常重视,所有生成的图像都带有 C2PA 元数据标识,确保内容的来源可追溯,并有效阻止不当请求的生成。

当然,OpenAI 的图像生成工具并非没有缺点,比如在裁剪、上下文理解和非拉丁文本渲染等方面仍存在不足。不过,OpenAI 表示他们会在未来不断优化这些问题。

与此同时,Google 也在同一时间发布了自家的强大 AI 模型 Gemini2.5Pro Experimental,展现出在推理和编程能力上的显著提升。这一系列的动态显示出,AI 领域的竞争愈发激烈,各大科技巨头都在不断推出更先进的技术,力争在这场 “AI 争霸战” 中占据领先地位。

相关资讯

微软Azure全力支撑OpenAI新模型 GPT-5或于5月下旬震撼登场

据国外媒体报道,知情人士透露微软工程师团队正加速部署服务器资源,为OpenAI即将推出的GPT-4.5和GPT-5模型做技术储备。 尽管OpenAI CEO山姆·阿尔特曼(Sam Altman)近期确认GPT-4.5将在几周内亮相,但微软内部预计最快下周即可完成新模型的托管部署,这一动作暗示着生成式AI领域的技术竞赛已进入冲刺阶段。 代号为Orion的GPT-4.5被视作当前技术路线的“收官之作”。

腾讯云TI平台上架DeepSeek系列模型 支持免费体验和一键部署

近日,腾讯云TI平台宣布正式上架备受瞩目的DeepSeek系列模型,包括参数量达到671B的“满血版”V3和R1原版模型,以及基于DeepSeek-R1蒸馏得到的系列模型,参数规模从70B到1.5B不等。 这一举措为开发者提供了强大的AI工具支持,进一步推动了大模型技术的普及和应用。 DeepSeek系列模型以其卓越的性能在全球范围内获得了广泛关注。

AI"自我对抗"玩法火了 一句话让AI破防

最近,一场别开生面的AI对决正在互联网上演。 从唇枪舌战到国际象棋对弈,AI之间的较量不仅展现了它们的语言能力和思维方式,更成为当下最热门的流量话题。 近期,DeepSeek与GPT的对话视频在B站引发广泛关注,播放量突破300万,互动量超50万。