GPT-4o的P图全家桶有多强?连Midjourney CEO都坐不住了

编辑 | 佳琪不会 PS 也能赢麻了! 这句话我们已经在各种各样的 AI 生图工具那里听了太多遍,不过,这次 GPT-4o 好像玩的是真的。 打开社交媒体,无论是 X 还是小红书,都被 GPT-4o 生成的图片刷了屏。

图片

编辑 | 佳琪

不会 PS 也能赢麻了!

这句话我们已经在各种各样的 AI 生图工具那里听了太多遍,不过,这次 GPT-4o 好像玩的是真的。

打开社交媒体,无论是 X 还是小红书,都被 GPT-4o 生成的图片刷了屏。上次 AI 产品能让全网这么嗨玩,可能还是 DeepSeek R1。

随机掉落几个案例,震撼一下还没刷到的朋友,比如下面这张论文插图,就是 GPT-4o 做的。

图片

来源:小红书 @陆导

宫崎骏画风的特朗普「积极坦诚对话」泽连斯基,GPT-4o 做的。

图片

约稿一张 5 块的日本小人,GPT-4o 做的。

图片

排版精良的长图海报,GPT-4o 做的。

图片

来源:小红书 @张一凡

3D 深度图,GPT-4o 做的。

图片

来源:小红书 @小崔大口吃汤圆🍡,原博主评论:「虽然现在图像还有些瑕疵,但是这空间能力和 affordance 推测能力提升有点太大了。」

各种风格的头像随心切换,还是 GPT-4o 做的。

图片

最左为原图,分别改为迪士尼、吉卜力、史努比和星露谷风格

最重要的是,以上这些操作,GPT-4o 几乎都是一次成功,无需多轮对话修改。

再加上 AI 视频的魔法,一部宫崎骏风格的《星际穿越》就这么水灵灵地做出来了。

GPT-4o的P图全家桶有多强?连Midjourney CEO都坐不住了                                  已关注                                关注                                         重播                                                        分享                                                                     赞                                                        关闭观看更多更多退出全屏切换到竖屏全屏退出全屏AI好好用已关注分享视频,时长00:31

0/0

00:00/00:31 切换到横屏模式 继续播放进度条,百分之0播放00:00/00:3100:31全屏

倍速播放中  0.5倍  0.75倍  1.0倍  1.5倍  2.0倍  超清  流畅 

继续观看

 GPT-4o的P图全家桶有多强?连Midjourney CEO都坐不住了 

观看更多转载,GPT-4o的P图全家桶有多强?连Midjourney CEO都坐不住了AI好好用已关注分享点赞在看已同步到看一看写下你的评论

                  视频详情       

视频来自 X@kb24x7

制作步骤其实只有两大步:第一,用 GPT-4o 生成首尾帧;第二,把这些图片放到 Morphic 等视频生成平台输入想要的动作效果,再剪辑拼合。

图片

那么问题来了,AI 绘图工具明明多如过江之鲫,为什么是 GPT-4o 破圈?

答案也很直观,首先是好看。AI 生图,颜值即正义,效果如何一眼就能看出来。

就拿生成微信公众号封面来说,同一段提示词,即梦和 GPT-4o 端出来的作品,不需要投票,从构图到配色,相信大家心中也有判断。

提示词:A pair of pastel-colored headphones with a gradient from blue to purple, floating in a soft pink background. In the center of the headphones, there is a small ball with the word "mureka" written on it in a playful font. The image should have a 3D, cartoonish style.colorful background.

图片

图左来自即梦,图右来自 GPT-4o

其次是足够简单,能达到这么好的效果的,操作比对话复杂得多,特别是 Stable Diffusion 和 Midjourney,至今仍需要复杂咒语。至于还想更精细,就只能自己微调 lora 或者训练模型了。

而风格化、抠图、带文字排版,在其他平台要手动框选,在页面之中跳转的功能,GPT-4o 都包揽在一个对话框里,效果还更强。

综合来看,结合了「能打」和「好用」的 GPT-4o 这次主要带来了几大杀手锏:

  • 高保真真实照片

  • 有审美的文字排版:从海报到梗图,不仅准确,字在哪里都听你指挥

  • 各种风格、滤镜随心切换

  • P 图全家桶:抠图、换脸、扩图样样行,还能结合不同图片中的元素「炖」出一张新图来

听起来很厉害?让我们一项一项地来看,GPT-4o 是不是真的这么神。

真实感

这居然是 AI 生成的吗?摄影师看了沉默,平台审核看了流泪,以后我们还看得出照片里的 AI 味吗?

提示词:帮我生成一张身着白裙的女生,比着剪刀手,在佛罗伦萨的旧宫门口拍的照片。

图片

不过,GPT-4o 偶尔也会翻车,不仅没画出小米 su7 的「樱花」轮胎,还把雷总生生卡在了车外。

提示词:雷军从小米 su7 里探头比耶,背景是武大樱花,照片尽可能接近真实。

图片

文字排版

无论是菜单、婚礼请柬、漫画、科研插图,只要是需要排版的图片,GPT-4o 真的带来了一种「aha moment」的感觉。

除了字体边缘稍为有些模糊之外,这个菜单似乎可以直接放在餐厅用了。

图片

图源微信公众号:赛博禅心

不过,虽然排版够用了,GPT-4o 的汉字写得还不太好。

图片

以后直接把论文方法扔给 ChatGPT,配图就可以出来了:

图片

图源:小红书 @云安

提示词写得稍微简单一些,这个配图也是 next level 了:

图片

想要更复杂的设计,网易云听歌年度报告也能安排。当然,相比英文的准确度,GPT-4o 的汉字还亟待进步。

图片

图源 X@歸藏 @op7418

最重要的是,GPT-4o 多模态能力是原生的,它可以理解你的需求,在不提供文案的情况下,它也能续上画面中的主体和对话。

图片

要知道,主体一致性至今也是视觉生成的难题。在 GPT-4o 出现之前,大家一般会用 Stable Diffusion 和 ControlNet 来治疗生图模型「选择性失忆」的问题。

但是现在在 GPT-4o 里,主题一致性已经完全不再是问题。

图片

图源: X@emollick

不仅完全告别即使是输入图像主题参考,每次抽卡的人物也都各有各的抽象。现在根据上下对话中的结果,GPT-4o 就能稳定输出,角色特征分毫不差。

图片

图源: X@zhansheng

风格化

都说 GPT4o 一出,宫崎骏的天塌了一半。

现在 X 上最火的,就是把各种各样的名场面让 GPT-4o 用宫崎骏的风格再画一遍。无论娱乐圈,还是科技圈,哪怕已退生物圈,都逃不掉。

图片

OpenAI CEO Sam Altman 把自己的头像改成了吉卜力风格的自己

图片

图片

虽然换了画风,但是画面中人物本来的面部特征,都得以保留,不一一标出这些图片中的人物,相信大家都认得出来它本来的面目。

当然,除了吉卜力风格,任何画风它也能 hold 得住。

比如梵高风格的李逵,就连文字都能完美融入其中:

image.png

再比如,皮克斯 CG 3D 风格的伊利亚和奥特曼吵架神图:

image.png

还有泽连斯基和特朗普在白宫吵架的经典一幕,也被网友用 GPT-4o 转成了蜡笔小新风格:

图片

图源:小红书 @AI 学习笔记

看来以后,网友的整活又多了一款神器。

满足基础设计功能

2023 年底,美图秀秀和剪映曾推出了扩图功能,但画风相当癫狂,不是男女不分,就是人面兽身。

而 GPT-4o 也被网友开发出了相同的功能,效果相当惊艳,不仅能扩出小狗的全身,还能让它跑起来。

image.png

一键换衣,不用再提供 10 张全身照片:

图片

仅需两张图片外加一句简单的提示词,就能让图一的人物跑到图二中的手机样机里:

图片

图源:小红书 @AIGC 魔法学院

此外,GPT-4o 还能直接生成带通道的照片,图中的人物、和背景都是分开生成的,不需要后期抠图,编辑起来方便了不少:

图片

动图来源:X 博主歸藏

看完了这些 case,学绘画的朋友们,学 comfyui 的朋友们,你们还好吗?

图片

当然,除了一片叫好声外,也有质疑声。据说今早,Midjourney 的 CEO 就在内网大大嘲讽了 GPT-4o 一通:

GPT-4o 生成图像又慢,质量又差。

他们发这个功能只是为了筹集资金用的。

GPT-4o 不是一款创意工具。

一周后(Midjourney v7 即将发布),就没人会在讨论 GPT-4o 了。

图片

至于 Midjourney v7 发布后,GPT-4o 是不是还是这么火,我们无从得知,但 AI 好好用将持续关注,想要收看更多 Midjourney 和 ChatGPT 的爱恨情仇,请多多关注,转发,点赞~

以后我们会带来更多好玩有用的 AI 评测,也欢迎大家进群交流。

图片

© THE END 

转载请联系本公众号获得授权

相关资讯

OpenAI推全新语音转录模型gpt-4o-transcribe,语音转文字准确率飙升

继此前在语音 AI 领域引发一些关注后,OpenAI并未停下在该领域探索的脚步,现在这家ChatGPT的创造者再次发力,推出了三款全新的自主研发语音模型,分别为:gpt-4o-transcribe, gpt-4o-mini-transcribe and gpt-4o-mini-tts。 其中最受瞩目的当属gpt-4o-transcribe。 目前,这些新模型已经率先通过应用程序接口(API)向第三方开发者开放,开发者们可以利用它们打造更智能的应用程序。

行业沸腾!GPT-4o动动嘴秒出设计作品!Adobe真的顶得住?

这两天大家都被 OpenAI 的 GPT-4o 刷屏了吧。 这款更新后的多模态 AI 模型,直接把“开口就出图”变成了现实。 你只需要动动嘴皮子,说出想法,专业级别的设计作品就能跃然屏幕。

研究显示,AI 用户可与双人团队媲美,提升工作效率

最近的一项研究显示,使用人工智能(AI)的个人在工作表现上可与传统的双人团队相媲美。 此次研究由776名洁(Procter & Gamble)专家参与,他们在一天的工作坊中为多个业务单位开发产品创意。 研究将参与者分成两组,分别是由一名商业专家和一名技术专家组成的团队,和单独的个人,其中一半的团队和个人都获得了 GPT-4和 GPT-4o 的访问权限。