AI 圈,再次开卷图像生成。
一连串进展扎堆:8 月 21 日,Ideogram 正式推出 2.0 版本,声称文本渲染能力更强。
没错,就是那个成立于去年 8 月,由谷歌 AI 绘画 4 大牛集体离职创业的项目,曾获得过一众 AI 大佬投资。
此番 Ideogram 还公开叫板 Flux,官方自信表示其人类评估明显优于 Flux Pro。
要知道,Flux 由 Stable Diffusion 原班人马打造,最近正在因生成以假乱真的 TED 演讲“照片”而走红各大网络。
除此之外,一周前,谷歌正式放出了 Imagen 3,在官方评估中,号称表现优于 DALL-E 3、Midjourney v6、Stable Diffusion 3 等一众绘图模型。
或许是受刺激了(doge),Midjourney 竟然也转型了,在 8 月 22 日直接向所有用户推出了免费网页版。
这下有好戏看了!既然大家都宣称自己很强,那我们不妨把大家拉到一桌,来搞个面对面 PK。
谁是最强绘图 AI?
先请出咱们的 4 位参赛选手(全部使用网页版):
1 号选手:Ideogram 2.0。每天免费有 10 积分,1 积分可以生成 4 张图,每天最多生成 40 张图;
2 号选手:Flux.1。黑森林官方在 Hugging Chat 提供了免费 demo(选 FLUX.1 Schnell 版本);
3 号选手:Imagen 3。在 Image FX 上可以免费无限次使用;
4 号选手:Midjourney。免费试用期一共只有生成 25 张图的机会;
下面正式进入比赛环节。
黑猴子全翻车了
一上来,为了检验这些国外 AI 是否理解中文提示词,咱们也来蹭一波当今顶流黑猴子的热度。
prompt:游戏角色,一只猴子,身披盔甲,头戴凤羽金冠,手上拿着一根金箍棒,站在一座悬崖之上。
不出意外,意外发生了……
相信大家一眼都被 3 号的大红叉给吸引了。没错,同一提示词下,只有 3 号 Imagen 3 拒绝了生成请求。
看到这儿,第一反应是我们的提示词是不是触发了版权保护。于是先删掉了提示词中的“游戏角色”,结果还是提醒无法生成。
难道是谷歌 Imagen 3 不支持中文?于是又随机换了一个更简单的提示词,这下倒是有图了。
只不过结果一整个大错误,而且换了多个中文提示词,最终都是一些毫不相关的纹路图。看来谷歌 Imagen 3 确实对中文提示词不 ok。
3 号落榜之后,再看其他几位,也只有 1 号 Ideogram 2.0 表现最佳。2 号倒还能看出国漫的影子,4 号 Midjourney 则完全放飞自我了~(主打一个毫不相干)最后还是要表扬下 Ideogram 2.0,精准命中了所有关键元素。
虽然不是本人心中想要的东西(想要黑神话),但提示词还原度确实没毛病。
是真人还是 AI?傻傻分不清楚
接下来进入各位选手的舒适区 —— 人像生成。
遥想当年,Midjourney 以一张天台情侣合照火爆网络;眼下,Flux 更是以一组 TED 演讲图风靡全网……
究竟谁更胜一筹?答案马上揭晓。
prompt:A young man with auburn hair, wearing a checkered shirt in teal and cream, captured with a 50mm lens for a vintage look. Rich colors, sharp focus, and a touch of retro charm.
一位红褐色头发的年轻男性,身着蓝绿色奶油色方格衬衫,用 50mm 镜头捕捉复古风格。色彩丰富,焦点清晰,带有一丝复古魅力。
先单看 2 号和 4 号,很明显,Midjourney 赢了!
从细节上看,2 号 Flux.1 稍有偏差,衣服颜色多了两种,这在一水的蓝绿格子衬衫中尤为突出。
另外,一上来我们还发现了 Imagen 3 独有的一个小亮点:在生成开始前圈出关键词。
借着它完成的工作,我们正好可以检验几位选手对关键元素(蓝绿色方格衬衫、50mm 镜头等)的还原程度。
可以看到,整体上几位选手表现都不错(除了 2 号),还原度较高且都看向了镜头。而且,要不是这些都是本人亲自用 AI 生成的,还真无法一下子辨认与真人的区别。(汗颜)
最后悄咪咪说一句,4 号选手 Midjourney 颜值最高。
老大难:图片显示文字
成功骗过了所有人之后,是时候让 AI 吃点苦头了 —— 给图片加文字。
这事儿一直都是个老大难,也成了检验 AI 生图水平的标准之一。话不多说,直接让几位选手制作一块精美的广告牌。请各位看官老爷自行带入甲方爸爸角色。
prompt:A horizontal brass sign reading ‘Festive Season’ in a stylish script, encircled by pine and holly on a dark wood backdrop, with a close-up focus on the golden lettering.
一块水平黄铜标牌,上面以时尚手写体写着’Festive Season’,周围环绕着松枝和冬青,背景是深色木材,特写镜头聚焦于金色字体。
一眼扫过,是不是都还不错,好像都高度还原了提示词?但是,一旦拿出甲方爸爸的犀利眼神,这 2 号可就藏不住了。注意看,2 号 Flux.1 偷工减料了,单词“Season”少了一个字母“S”。不过除了 2 号,其他几位还是不错滴,看来各家 AI 在文字渲染功能上都下功夫了。
所以接下来就是,萝卜青菜各有所爱,大家凭个人喜好做选择。(私心投给了 Midjourney)对了,1 号 Ideogram 这次型号升级还特意拿“文字渲染”功能做宣传了,大家不妨多试试。
参考麦当劳,整点 AI 广告
最近,麦当劳请了 11 个 AI 美女为薯条疯狂打 call,狠狠火了一把~ 其实原理也比较简单,无非是用 AI 生成不同角色宣传薯条的图片,再拼接成一个视频。没想到效果惊人,仅在推特一个平台,相关视频就获得了近千万浏览量。
掌握财富密码后,咱们正式开干,身为中国人,AI 助农高低得走起~
prompt:Against the backdrop of a cyberpunk-style metropolis, a girl is promoting organic agricultural products in her hands.
在赛博朋克风格的都市背景下,一位女孩正宣传着手中的有机农产品。
很好,3 号选手再次“摆烂了”。不过这波着实令人费解,提示词既不是中文,也没有明显违禁的地方……
淘汰 3 号后,1 号选手 Ideogram 2.0 带货种类最为丰富,大白菜、西红柿、紫甘蓝等应有尽有。而且它是唯一一个打出文字招牌来宣传有机食品的,看得出来相当卖力了~ 另外,细看还能发现只有 1 号在尽力模仿真人,而 2 号和 4 号则完全走上了二刺猿。
u1s1,如果参考麦麦的广告风格,这一次的短暂生成确实没有达到理想效果。(希望更贴近真实一点)但是,好在这几个 AI 工具目前都可以免费用,多来几次也不是不行,重点还是方法论。[doge]
别急着走,其实还有一个更靠谱的搞钱方法 —— 用 AI 轻松拿捏棚拍商业宣传海报,省下请摄影师、场地和后期的钱不香嘛。
A sleek lipstick tube gleams against a backdrop of sophistication, highlighting the rich pigment and smooth glide. Evoke luxury with sharp focus and a hint of shimmer.
一支光滑的口红管在精致的背景前闪耀,突显出浓郁的色泽和顺滑的涂抹感。以锐利的焦点和一抹微光唤起奢华感。
考考大家,假如你要给身边某位女性挑一只口红,你会选哪只?(死亡考验来了)嘿嘿,所以有人选 4 号了吗?虽然 4 号 Midjourney 看起来灰常高级,但这个黑色可能有点小众了。(慎选)
除了它,接下来表现最好的是 3 号 Imagen 3,底下丝绒布料衬托出奢华感,且最重要的是,口红质地很真实。对比之下,1 号和 2 号都显得有点假,“塑料感”扑面而来。
因此这一局,整体来说 3 号选手获胜。小结一下,整体而言 4 位选手表现都非常不错。中文提示词下,黑马选手 Ideogram 2.0 表现最好。
谁是 Ideogram?
今年 2 月,Ideogram 推出了 1.0 版本,短短半年时间,它再次进化上线了 2.0 版本。事实上,Ideogram 与谷歌可谓“沾亲带故”。成立于去年 8 月,创始团队中前 4 人都是谷歌文生图研究 Imagen 论文作者。
CEO Mohammad Norouzi,论文共同一作,他在多伦多大学计算机科学博士就读期间拿到了谷歌 ML 博士奖学金。
毕业后他加入谷歌大脑工作了 7 年,职位也一路升至高级研究科学家,主要研究的就是生成模型。此外,他也是谷歌神经机器翻译团队的原始成员,Hinton 团队自监督对比学习框架 SimCLR 的合著者。
CTO William Chan(陳俊樂),论文共同一作,他先后就读于加拿大滑铁卢大学、卡内基梅隆大学。他 2012 年加入谷歌时先做的机器学习广告工程,后转到谷歌大脑作 NLP 研究。
联合创始人 Jonathan Ho,博士毕业于 UC 伯克利,曾在 OpenAI 工作一年,后加入谷歌。他除了是 Imagen 论文的核心贡献者,还是去噪扩散模型奠基之作《Denoising Diffusion Probabilistic Models》的一作,这篇论文合著者中的 Pieter Abbeel 也是 Ideogram AI 的投资人。
联合创始人 Chitwan Saharia,论文共同一作,本科毕业于孟买理工学院,2019 年加入谷歌,在谷歌主要负责领导 image-to-image 扩散模型的工作。
创始团队中的另外三人,Shayaan Abdullah 曾是 Twitter 的机器学习工程师,于去年 4 月离职,后加入 Ideogram AI。
Jacob Lu 为软件工程师,加入 Ideogram 之前曾在亚马逊等公司任职;Jenny Lei 是软件工程实习生,加入 Ideogram AI 之前曾在谷歌实习。
可以看出,Ideogram 由顶级扩散模型研究团队组成,自成立之初便获得了资本青睐。
Ideogram 种子轮融资由 a16z 和 Index Ventures 领投,金额 1650 万美元(当时约 1.2 亿人民币)。个人投资者中也不乏 Andrej Karpathy、强化学习大牛 Pieter Abbeel,GitHub 联合创始人 Tom Preston-Werner 等。
另外,今年 2 月,多方消息传出 Ideogram 进行了新一轮融资。据称成功筹集了 8000 万美元(约 57 亿人民币)A 轮融资,领投方为 Andreessen Horowitz,其他参与投资者包括 Index Ventures、Redpoint Ventures、Pear VC 和 SV Angel。
看来有钱、有技术的 Ideogram 无疑又是 AI 生图领域的一匹黑马。
卷,继续卷。
Ideogram 2.0 链接:
https://ideogram.ai/t/explore
Midjourney 链接:
https://www.midjourney.com/home
Flux 链接:
https://huggingface.co/spaces/black-forest-labs/FLUX.1-schnell
Imagen3 链接:
https://aitestkitchen.withgoogle.com/tools/image-fx
参考链接:
[1]https://x.com/ideogram_ai/status/1826277550798278804
[2]https://ideogram.ai/launch
[3]https://x.com/AIandDesign/status/1826277963681370213
本文来自微信公众号:量子位(ID:QbitAI),作者:一水