机器之能报道
编辑:杨文
MJ、Ideogram 2.0、Flux、Imagen 3,谁能坐上AI生图第一把交椅?
AI 圈,卷完视频卷图像。
继 FLUX 生成的各种恶搞图像满天飞后,其他 AI 生图玩家也坐不住了,纷纷迎战:
就在今天,Midjourney 一改往日「高冷范」,宣布所有用户可免费使用一个月(暗藏小心思:只能免费生成 25 张图像);
同时,Ideogram 也正式推出 2.0 版本,声称文本渲染能力更强;
谷歌曾多次「剧透」的 AI 生图模型 Imagen 3 前几天也终于亮相。
更有趣的是,Ideogram和谷歌,还沾点「亲戚」关系。
-1-
挑战 Midjourney 等老牌玩家
今年 2 月份,Ideogram 推出了 1.0 版本,短短半年时间,它再次进化,上线了 2.0 版本,并给每位用户免费体验额度,每天可免费生成 40 张图像。
不得不说,Ideogram 2.0 的「写字」能力有不小的长进,无论是贺卡、T 恤设计、海报还是插图,它都能呈现更长、更准确的文本。
Prompt:A modern website design with a bubble tea theme. The background is a soft teal color. There's a peach bubble tea with tapioca pearlsin a clear cup. Next to the cup is a peach laptop with a blog post open. There's a comfortable teal chair with a curved back. The text "Relax, create, and work from home" is written in a modern font.
prompt:A 3D render illustration of Hello Kitty in a celebration of love. Hello Kitty is the centerpiece, surrounded by five fluffy,star-shaped objects that glow with warmth and life. Each star displays a word in elegant golden italics: "Be," "Happy," "Kind," "Cool," and "Thankful." The background is a vibrant, contrasting yellow and pink. The scene is enchantingly adorned with soft pink transparent butterflies, small red and orange hearts, and delicate white flowers, adding a touch of romance and whimsy.
prompt:A 3D render of three emojis (Happy, Sad, and Angry) in a new fashion style. They are placed on a dark paper background. In front of the emojis, there is a panel with the text "Therapy Talk" written on it. The overall image has a great weather effect.
为了和 FLUX 掰掰手腕,Ideogram 2.0 也在写实图像方面下了苦功。
其现实主义风格可以创造出以假乱真的图像,纹理、人物肌肤以及头发都更逼真。
有网友直接使用 Ideogram2.0 生成图像,并让 Runway Gen-3 转成视频,几乎看不出 bug。
此外,Ideogram2.0 还打出了差异化,上线了「调色板控制」功能,用户可选择多种色彩方案,精准控制图像色彩,如此一来,无论是品牌一致性还是营造特定氛围,它都能实现。
据介绍,去年 Ideogram 的用户生成了超过 10 亿张图像,为了方便调用、激发创作灵感,他们还推出了搜索功能,用户只需通过文字进行搜索即可。
例如,我们在聊天框中输入「happy birthday」,系统自动跳出一系列相关图片。
不仅如此,Ideogram 还一口气推出了 iOS 应用程序以及 API 测试版。
-2-
四款文生图神器大乱斗
据官方介绍,Ideogram 2.0 在评估中的表现明显优于 Flux Pro 和 OpenAI 的 DALLE-3。
既然如此,我们就让它与市面上最牛的四款 AI 生图神器来个同台竞技,孰优孰劣,实力说话。
照片写实
Prompt:a young woman with red hair in a blue and white polka dot dress, in the style of helios 44-2 58mm f/2, intense coloration, photo-realistic techniques, dark orange and white, intensity, simplicity, webcam photography.
左上:Ideogram2.0 右上:Midjourney
左下:Imagen 3 右下:FLUX Pro
Prompt:There are houses on the streets, roadside, and across the street in Paris, captured by a Sony camera, high-resolution, masterpiece, 8k.
左上:Ideogram2.0 右上:Midjourney
左下:Imagen 3 右下:FLUX Pro
Prompt:the most epic japanes mini tart, high resolution photo, realistic photo CAMERA: Canon EF, 4k resolution, | LIGHTING: natural light, cinematic still, studio lighting | DETAILS: photorealism, ultra detail, 100mm, f 2.8 Macro IS USM —no wotermark.
左上:Ideogram2.0 右上:Midjourney
左下:Imagen 3 右下:FLUX Pro
Prompt:film still, a, exhausted with a messy hair young woman dancing alone, exhausted at the end of a day party.
左上:Ideogram2.0 右上:Midjourney
左下:Imagen 3 右下:FLUX Pro
文本渲染
Prompt:A horizontal bronze metal sign with the word "Studio Christmas" in an elegant font, surrounded by pine cones and evergreen branches on each side of it. The background is dark wood, creating a contrast between warm colors and cool tones. A close-up shot focuses only on the gold inscription, highlighting its texture and design. This scene evokes the feeling of Christmas season decor.
左上:Ideogram2.0 右上:Midjourney
左下:Imagen 3 右下:FLUX Pro
Prompt:Minimalistic stock photo of a little boy with blonde hair wearing glasses and a blue shirt holding a "Back to School" sign, standing outside in a sunny park, blurred green trees in the background, the boy is smiling confidently, waist-up shot, minimalistic background.
左上:Ideogram2.0 右上:Midjourney
左下:Imagen 3 右下:FLUX Pro
多风格生成
Prompt:A group of farmers are hard at work in the fields, they grow small vertical garden-like pumpkins. In one elaborate scene, tiny people make planks on top of giant, oversized pumpkins. The background is chloroplast, creating a cinematic feel. High-definition detail captures Descartes's resolution, creative composition and bold close-up shots of miniature character states, axial displacement photography, exquisite detail, 8K.
左上:Ideogram2.0 右上:Midjourney
左下:Imagen 3 右下:FLUX Pro
Prompt:The rabbit family plays happily in the room, Disney style, 3D, high detail.
左上:Ideogram2.0 右上:Midjourney
左下:Imagen 3 右下:FLUX Pro
Prompt:eucalyptus and mint classic refreshing drops minimalist packaging.
左上:Ideogram2.0 右上:Midjourney
左下:Imagen 3 右下:FLUX Pro
-3-
前谷歌工程师创立,AI 大佬投资
论起来,Ideogram 与谷歌还有点「亲戚关系」。
谷歌可以说是 AI 领域的「黄埔军校」,其内部搞出过不少好东西,但谷歌囿于安全、伦理方面的顾虑,不少好产品被「埋没」。因此不少工程师纷纷出走,自己创业。
Ideogram 亦是如此。
去年 8 月,Ideogram 成立,创始团队 7 人,来自 Google Brain、加州大学伯克利分校、卡内基梅隆大学和多伦多大学。
其中,Mohammad Norouzi(CEO )、Jonathan Ho (联合创始人)、 William Chan 和 Chitwan Saharia 都是谷歌 AI 文生图模型 Imagen 的核心作者,相关论文曾入围 NeurIPS 2022 Outstanding paper 。
创业前,Mohammad Norouzi 曾在谷歌大脑工作近 7 年,职位也一路升至高级研究科学家,主要研究的就是生成模型,但涉猎的范围很广,包括 Imagen 、 Imagen Video 、用于语音合成的 WaveGrad 、 神经机器翻译 、用于学习视觉表示的对比学习等。
联合创始人 Jonathan Ho ,UC 伯克利博士毕业,在扩散模型方面做了非常重要的工作,当年他离开谷歌时,一度被业内人士视为谷歌的重大损失。
2022 年 4 月,谷歌提出了视频扩散模型(Video Diffusion Models),首次报告了扩散模型根据文本生成视频的结果效果不俗。而 Mohammad Norouzi 、Jonathan Ho 正是文章的主要作者。
Jonathan Ho 也是扩散模型奠基作品之一、提出去噪扩散模型 Denoising Diffusion Probabilistic Models 一作。(有趣的是,合著者之一 Pieter Abbeel 也是这家公司的投资人)。
Chitwan Saharia 在谷歌工作时,主要负责领导 image-to-image 扩散模型的工作。
除了扩散模型方面的工作,Willian chan 在谷歌工作时从事过 神经语音识别 研究,与 Mohammad Norouzi 合作研究用于语音合成的 WaveGrad 。
工具链接 ——
Ideogram 2.0链接:
https://ideogram.ai/t/explore
Midjourney 链接:
https://www.midjourney.com/home
Flux 链接:
https://fal.ai/models/fal-ai/flux/schnell
Imagen3 链接:
https://aitestkitchen.withgoogle.com/tools/image-fx
延伸阅读:
实测最新文生图神器「FLUX.1」:「手刃」Midjourney?早了点
AI告别鬼画符!快手可图和国外写字小能手Ideogram打擂台,谁更牛?
Midjourney 迎来最强对手,种子轮融资大佬云集,测试版让马斯克一「键」穿越
以后我们会带来更多好玩的AI测评,也欢迎大家进群交流。