还记得让马斯克一键「穿越」的利器吗？现在面向所有人开放！免费！

作者：机器之能

2023-08-30 06:22

机器之能报道编辑：吴昕还记得一周前我们介绍过的那个文生图工具吗？对，让马斯克「穿越」，变身古风大侠的那个。也是让 Blackpink Jennie 「变胖」的那个：当时， Ideogram 官宣成立并公开了测试版 v0.1 。机器之能赶紧排队注册，试用了一下。据说，短短一周内，积累了超过 90,000 名用户，生成了超过 300 万张图像！今天， Ideogram 进一步宣布向地球上的每个人开放 Ideogram ！免费的，没有任何限制！（传送门）官方博客也第一次介绍了 Ideogram v0.1 —— 「它是

机器之能报道

编辑：吴昕

还记得一周前我们介绍过的那个文生图工具吗？对，让马斯克「穿越」，变身古风大侠的那个。

还记得让马斯克一键「穿越」的利器吗？现在面向所有人开放！免费！

也是让 Blackpink Jennie 「变胖」的那个：

当时， Ideogram 官宣成立并公开了测试版 v0.1 。机器之能赶紧排队注册，试用了一下。据说，短短一周内，积累了超过 90,000 名用户，生成了超过 300 万张图像！今天， Ideogram 进一步宣布向地球上的每个人开放 Ideogram ！免费的，没有任何限制！（传送门 https://ideogram.ai ）官方博客也第一次介绍了 Ideogram v0.1 —— 「它是一种新的基础 AI 模型，可将文本转换为图像。由 Ideogram 团队从头开始构建，解决了现有生成式 AI 工具的主要缺陷之一，可以在图像中呈现连贯的文本。」什么意思呢？其实，目前的生成模型技术还是有一个比较大的缺陷，就是无法在图像中呈现出可靠的视觉文本。

比如，在图片中生成连贯文本上，DALL-E 2 就非常不稳定（如下）。最新发布的 Stable Diffusion 直接将「无法呈现可读的文本」列为已知局限性。

上图连贯文本拼写错误，正确的分别是 (1) California: All Dreams Welcome, (2) Canada: For Glowing Hearts, (3) Colorado: It’s Our Nature, (4) St. Louis: All Within Reach.

针对模型的「文盲」问题， Ideogram 的核心成员（还在谷歌时）找到了改善问题的办法，他们魔改一个「文本编码器」，让模型学会了拼写。

除此之外，他们还提出了一个评估文生图模型的新基准，可以更全面地衡量文本到图像模型的文本渲染质量。

正如我们之前体验过的，Ideogram v0.1 的表现比较稳定。还记得这个例子吗？

「An adorable minion holding a sign that says 『It's over, MidJourney』， spelled exactly, 3d render, typography」（一个可爱的小黄人举着一个牌子，上面写着「结束了，Midjourney」）。

全部拼写正确。当时推友就表示，虽然系统并不总是能够正确拼写，但成功率还是不错的。

这个是不是也很厉害？用「poetry」这个词画出乌鸦的轮廓。博客还说了，Ideogram v0.1 还支持许多字体和文本样式，并生成漂亮的排版，这些都是非常耗费时间和精力的工作。「我们的文本渲染功能为许多创造性的应用程序铺平了道路，因为我们的用户已经制作了成千上万的徽标，海报，图形设计和图像，传达了有趣的信息。」还记得那张有关「巴本海默（barbenheimer）」的电影画报设计吗？

这是一个关于「暗夜行动（ night move ）」的电影海报作品，一名警察走在黑暗的道路上，只有一盏路灯，灯光投向他孤独的背影。

官博强调说，Ideogram 的关键特征之一是支持多种图像风格的标签，包括插图、排版、海报、照片、3D渲染、时尚、绘画、肖像摄影、电影、野生动物摄影、动漫和涂鸦，等等。这些样式标签可以以有趣的方式组合在一起，帮助用户生成他们想要的内容类型，他们利用人工智能确保这些标签准确地反映在生成的图像中。比如，这张雨中龙猫组合了 photo,、poster,、cinematic、painting、 3D render 等很多风格标签。