OpenAI新项目Sora内测图像生成器,或将推出DALL-E 4?

近日,OpenAI 发布了一则引人注目的消息:在其内部测试的项目 Sora 中,除了已经推出的视频生成功能外,图像生成功能也在紧锣密鼓地研发中。 这个新功能让用户能够在视频和图像生成之间快速切换,提升创作的灵活性。 根据内部消息,Sora 将会增加一个隐藏的切换按钮,用户只需在提示栏中选择即可在两种模式之间切换。

近日,OpenAI 发布了一则引人注目的消息:在其内部测试的项目 Sora 中,除了已经推出的视频生成功能外,图像生成功能也在紧锣密鼓地研发中。这个新功能让用户能够在视频和图像生成之间快速切换,提升创作的灵活性。

根据内部消息,Sora 将会增加一个隐藏的切换按钮,用户只需在提示栏中选择即可在两种模式之间切换。当选择图像生成时,系统会自动提示用户描述一幅图像。这一设计旨在简化用户操作,提高生成内容的相关性和质量。

image.png

除了图像生成功能的改进,Sora 还对其视频推送进行了重新分类。新推出的 “Best” 和 “Top” 类别将帮助用户更好地筛选和查找内容。“Best” 类别与目前的特色频道类似,而 “Top” 类别则可能根据用户点赞数或时间段对视频进行排名。这一分类的变化让人们对 Sora 的内容推荐机制充满期待。

image.png

对于 DALL-E3的用户来说,这一消息无疑让人兴奋,因为 DALL-E3自发布以来已经显得有些过时,特别是在与 Midjourney 等竞争对手相比时。尽管目前 Sora 的图像生成功能尚未正式推出,但左侧导航栏中的 “Images Internal” 类别已经引发了用户的好奇心。虽然目前这个类别主要用于视频推送,但未来也可能会提供图片生成的相关内容。

有人猜测,这次的图像生成模型或许会被称为 DALL-E4,然而 OpenAI 尚未对此进行确认。业内专家推测,Sora 中的图像生成器可能不会直接使用 DALL-E4,而是会依赖于现有的 “sora-turbo” 模型。此外,业内人士也指出,ChatGPT 尚未推出基于 GPT-4o 的多模态图像生成功能,因此此次 Sora 项目的推出将是一个值得关注的新进展。

值得注意的是,Sora 中的文本到图像生成器的代号被称为 “papaya”,让人对这个项目充满好奇与期待。在 DALL-E3发布一年半之后,下一代模型究竟会带来怎样的创新,令人不禁想要一探究竟。

相关资讯

超10秒高分辨率,北大Open Sora视频生成更强了,还支持华为芯片

北大团队联合兔展发起的 Sora 复现计划,现在有了新成果。OpenAI 在今年年初扔出一项重大研究,Sora 将视频生成带入一个新的高度,很多人表示,现在的 OpenAI 一出手就是王炸。然而,众多周知的是,OpenAI 一向并不 Open,关于 Sora 的更多细节我们无从得知。谁能率先发布类 Sora 研究成了一个热门话题。今年 3 月初,北大团队联合兔展启动了 Sora 复现计划 ——Open Sora Plan,该项目希望通过开源社区的力量复现 Sora。项目上线一个月,星标量已经达到 6.6k。项目地址

谷歌推出Imagen 3图像生成 API,每张仅需0.03美元

谷歌近日宣布,旗下最新的图像生成模型 ——Imagen3,现已通过 Gemini API 向开发者开放。 这个模型不仅具备强大的图像生成能力,还能根据输入的文本提示创造出多种艺术风格的图像,涵盖从超现实主义到动漫角色的广泛范畴。 Imagen3的使用非常简单,开发者只需通过 API 提交文本描述,模型便会迅速生成高质量图像。

谷歌AI图像混合工具Google Whisk全球上线,覆盖100多个国家

谷歌近日宣布,其基于人工智能的图像混合工具Google Whisk已在全球100多个国家/地区正式推出。 这款工具最初于去年在美国发布,旨在通过创新的图像混合技术,为用户提供更简单、更具创意的图像生成体验。 与传统的图像生成工具不同,Google Whisk允许用户上传三张图像,分别代表主题、场景和风格。