特朗普遇刺照,用一张2100元?! 文章标题、配图,AI免费给你来一打

机器之能报道编辑:Sia大模型替代编辑小助理,比萝卜快跑替代司机,靠谱得多。据说,自媒体使用特朗普遇刺照片作为配图,一张付费 2100 元!随便下一张图片给文章配图的日子,一去不复返咯。不过,创作者们的麻烦并未到此为止。写完一篇公众号文章,接下来的十几分钟最让人抓耳挠腮:标题铺位,黄金地段,寸土寸金。除了突出内容亮点,还要确保标题足够吸引人点开看,这可比写文章难多了!啥?酒香不怕巷子深?在红海的公众号圈子里,这条行不通。也别灰心!磨合一段时间,我们发现,大模型在解决这两个日常挑战上,还挺管用。-1-最短时间起一个合

机器之能报道

编辑:Sia

大模型替代编辑小助理,比萝卜快跑替代司机,靠谱得多。

据说,自媒体使用特朗普遇刺照片作为配图,一张付费 2100 元!

图片

随便下一张图片给文章配图的日子,一去不复返咯。

不过,创作者们的麻烦并未到此为止。

写完一篇公众号文章,接下来的十几分钟最让人抓耳挠腮:

标题铺位,黄金地段,寸土寸金。除了突出内容亮点,还要确保标题足够吸引人点开看,这可比写文章难多了!

啥?酒香不怕巷子深?

在红海的公众号圈子里,这条行不通。

也别灰心!磨合一段时间,我们发现,大模型在解决这两个日常挑战上,还挺管用。

-1-

最短时间起一个合格标题

为了方便唠,咱就以这篇机器人基础模型新公司 Skild AI 报导为例。

如果对文章需要突出的亮点了如指掌,只是不知道怎么整出一个吸引人的排列组合,不妨告诉大模型:

1、这是一篇微信公众号的文章,需要一个吸引人的标题;

2、标题要突出数据优势、融资额度和机器人GPT

这是 Claude 3.5 sonnet 的主意,还不赖!图片

连亮点有哪些也搞不清楚?

那就先让大模型帮忙找,再让 TA 将找到的亮点集中体现在标题上。

Claude 3.5 sonnet 归纳总结的能力,很不错。

图片

连亮点都懒得考虑?那就直接「依葫芦画瓢」!

有人说,喜欢「AI在线」那种风格的标题。等等,那是啥味儿?我们还真没统计过。

让大模型分析一下:技术性、大 IP 要突出、吸引眼球......

唔,好像是这样子。

图片给新报道起了几个类似标题。还真有内味儿,前三个几乎可以直接拿来用,除了有点长。图片如果更喜欢微博热搜风格的标题呢?

我们将 7 月 15 日某时点热搜,作为输入,让大模型分析这些热搜标题的特点。

图片接下来也给这篇文章起一个热搜风格的标题。是不是还可以?至少,咱有了进一步改善的基础方案(万事开头难呐):图片

还可以要求更多备选:图片有人喜欢专业、严肃的财经媒体标题风格,安排上。

我们集合了三年《财新周刊》封面报导标题,让 Claude 3.5 sonnet 分析。

短、双关、重大话题、问题导向......,几个要点都抓到了:图片

这是大模型为咱们这篇报道起的几个标题。

内什么,前三个标题的风格,是不是确有几分相似?图片-2-

模仿生图,AI 主打一个省

为了避免版权纠纷,越来越多的人开始用 AI 生成文章的封面。

很多时候,比起让 AI 毫无头绪地天马行空,我们更希望 TA 直接模仿一些现成图片。

一般,我们会先让大模型看图说话,给出提示词,再将这些提示词扔给图片生成器。 

这是一位同事的真实体验:

图片如果发现提示词不好使,可以让大模型( Claude 3.5 sonnet )「仔细描述图片细节和内容」:

图片

然后,将这些描述扔给图片生成器:

这张图片展示了一个独特而富有对比的场景:

背景:图片背景是一面灰色的混凝土墙,看起来质感粗糙,有些斑驳和纹理。

座席:图片中央有一个简单的黑色长凳或平台,看起来也是由混凝土或某种硬质材料制成。

人物:一个年轻男子坐在长凳的右侧。他穿着深色西装和高领毛衣,戴着黑框眼镜。他的姿势很放松,双手放在腿上。

机器人:在长凳的左侧,坐着一个小型白色机器人。这个机器人有一个圆形的头部,上面有红色的眼睛状灯光。它的身体上有一些彩色的装饰,看起来像是控制面板。

光线:图片的光线很有特点,从右侧打来,在墙上和地上投下了人和机器人的阴影。这种光影效果增添了图片的戏剧性和深度。

氛围:整个场景给人一种未来主义和科技感的氛围。人类和机器人并排而坐,似乎在暗示人机共存的未来。

构图:图片构图简洁有力,左右对称,中间留有空白,增强了人与机器人之间的对比和联系。

这张图片通过简洁而富有寓意的场景设置,巧妙地展现了人类与人工智能共处的主题,引发了对未来科技发展的思考。

这是 DALL-E-3 生成的图片。

内容、风格和构图都差不多,包括配色,完全可以作为替代方案。图片这是我们利用类似方法生成的一些配图。左边为原图,右边为大模型生成的图片。

图片

图片

图片

图片

图片

图片

当然,还可以用快手自研文生图大模型可图,现在限免中,口碑也不错。

不过,可图大模型不像 DALL-E-3 ,根本消化不了 Claude 3.5 sonnet 生成的大量描述内容。

因此,输入「创意概述」时,必须缩减、修改:

一个简单的黑色长凳,一个年轻男子坐在长凳的右侧。他穿着深色西装和高领毛衣,戴着黑框眼镜,双手放在腿上,长凳的左侧,坐着一个小型白色机器人,有一个圆形的头部,上面有红色的眼睛状灯光。它的身体上有一些彩色的装饰,看起来像是控制面板。图片的光线很有特点,从右侧打来,在墙上和地上投下了人和机器人的阴影。

然后「垫图」,调整相似程度,生成结果:图片不过,就这张图片来说,效果很不好。

除了人和机器突然变多,近看其中一张,人物还有一张乐高般的脸蛋儿。图片最近科技媒体 The verge  报道了首部生成式传记电影,主人公是 David Bowie、U2 、Coldplay 等人的音乐制作人 Brian Eno。

这部电影每播放一次,电影素材都会根据特殊的算法重新组合一次,因此,每次看到的内容都不一样。

这种拼贴风格的封面设计,很好迎合了电影主题,也展现出一个传记人物的多面性。

图片我们先让 Claude 3.5 sonnet 仔细描述这张图片,再将它的描述扔给 DALL-E-3 生图。

怎么说呢?感觉工整得有些呆板了。图片我们又将 Claude 3.5 sonnet 的描述精简到一句话,扔给可图大模型,垫上图。

这一次,可图的效果明显更胜一筹。图片我们也尝试模仿《经济学人》创意独特的封面。

这一次,可图的视觉效果(右下)要优于 DALL-E-3 (右上)。但,糟糕的拼写让结果功亏一篑。

图片

图片

图片

针对更加敏感的图片内容,可图大模型干脆拒绝原图上传。

我们用 DALL-E-3 生成了一种类似风格的图片,表达 LLM  对个人隐私和数据构成了威胁。

图片

图片

-3-

文字和手指

仍是图片生成器的软肋

前面的案例已经告诉我们:

如果图片必须包含单词、文字,TA 很难做到!

你看,可图还是会弄错 OpenAI 的拼写, DALL-E-3 也经常如此。

想要 DALL-E-3 的图片正确显示「西门子」,无论是英文还是中文,都很困难。

图片生成一个关于西门子 Industrial Copilot 的图片 ,两个关键单词也是错的。图片虽然早知道涉及手指细节部分,图片生成器依旧很容易出问题。

但万万没想到,哪怕是一张类似如花挖鼻孔的图片,也很难成功。图片

这是 DALL-E-3 的作品,真是「惊为天人」。

图片扔给可图,TA 也够为难的,手指都不好意思伸到鼻孔跟前:图片至于手里拿枪,好嘛,动不动就是六个指头:图片

这也不奇怪。图像生成器通常使用扩散模型,是从噪声中重建图像,学习的是覆盖更多像素的模式,文本、手指这样的细节生成上,自然表现较差。当然,这并不是说文本生成器就一定是拼写高手,尽管图像和文本生成器背后的底层技术不同,它们在拼写等细节方面,都有类似的困难。

毕竟,还是缺乏物理世界、语言世界的基本常识。

以后我们会带来更多 AIGC 案例演示,也欢迎大家进群交流。

图片

相关资讯

OpenAI 为 DALL-E 3 引入编辑功能:进一步精细化调整已生成图片

OpenAI 公司近日发布公告,宣布为 DALL-E 3 引入全新的编辑界面,在基于用户文本生成图片之后,可以继续根据用户描述精细化调整已生成的图片。DALL-E 编辑器提供两种主要编辑方法:基于选择区域的编辑:在 DALL-E 3 生成图片之后,用户可以选中已生成图片中的特定区域,然后再在聊天界面,输入提示词要求 DALL-E 3 进行微调。对话式编辑:在 DALL-E 3 生成图片之后,用户无需选择特定区域,在聊天窗口中直接描述自己的编辑内容,这种方法适用于编辑调整整个图像。OpenAI 表示通过引入该编辑器,

OpenAI 宣布 DALL-E 3 模型向 ChatGPT 免费用户开放,但每天只能生成两张图片

北京时间今天凌晨,OpenAI 宣布 ChatGPT 免费用户可以每天使用其 DALL-E 3 模型生成图片。AI在线注:DALL-E 3 于去年 9 月推出,起初只面向 ChatGPT Plus 付费订阅用户提供。用户可以直接在 ChatGPT 的输入框中键入生成图片相关指令,但经过实测,这项功能每天只能免费生成两张图片,否则 ChatGPT 会提示“您已达到图片创建上限,升级至 ChatGPT Plus 或于明天 XX:XX 后重试”。▲ AI在线实测生成的图片,下同今年 4 月,OpenAI 宣布 DALL-

博弈论让 AI 更加正确、高效,LLM 与自己竞争

编辑 | 绿罗想象一下,你有一位朋友对同一问题给出了不同的答案,具体取决于你提问的方式。「秘鲁的首都是哪里?」会得到一个答案;「利马是秘鲁的首都吗?」 会得到另一个。你可能会有点担心你朋友的智力,而且你几乎很难相信他们给出的任何答案。这正是许多大型语言模型 (LLM) 正在发生的事,这些超强大的机器学习工具为 ChatGPT 和其他人工智能奇迹提供了动力。开放式的生成性问题会产生一个答案,而涉及必须在选项之间进行选择的判别性问题,通常会产生不同的答案。麻省理工学院的博士生 Athul Paul Jacob 表示:「