谷歌大招网友玩疯了！Gemini原生图像输出抢先推出，OpenAI一年领先优势归零

2025-03-14 12:14

谷歌推出Gemini原生图像生成，测试版瞬间引爆网络。如果你迟到了，但没有好的借口，甚至还没有出家门——只需要一张自拍，然后让AI把你P到地铁故障现场。图片也可以凭空生成一个人物形象，把它放到原神游戏画面中（不用上传游戏截图），让角色往前走两步，再把视角往左移，走近一个建筑，开始爬墙。

谷歌推出Gemini原生图像生成，测试版瞬间引爆网络。

如果你迟到了，但没有好的借口，甚至还没有出家门——只需要一张自拍，然后让AI把你P到地铁故障现场。

图片

也可以凭空生成一个人物形象，把它放到原神游戏画面中（不用上传游戏截图），让角色往前走两步，再把视角往左移，走近一个建筑，开始爬墙。

图片

二次元选手最喜欢的玩法，是草稿一句话变线稿，再上色，再上阴影等操作，注意每一步执行后人物形象都是保持一致的。

图片

有漫画创作者用它来改变构图视角，同时保持画面内容的一致性。

图片

游戏开发者则可以用一些素材组件自动拼成关卡场景。

图片

除了精准遵循指令一键P图之外，还支持图文混排输出。

谷歌官方演示了生成菜谱，每个操作步骤都配上写实的图像，学起来更直观。

谷歌大招网友玩疯了！Gemini原生图像输出抢先推出，OpenAI一年领先优势归零

现在，这些功能都可以在Google AI Studio免费试玩。

模型命名很乱，请认准Gemini 2.0 Flash Experimental。

图片

原生图像输出首次开放

目前Gemini 2.0 Flash原生图像输出能力还没有公开技术细节，简短的介绍中只讲了“结合多模态输入、增强推理和自然语言理解”。

而其他AI产品语言大多是语言模型把图像生成模型当做工具去调用，如ChatGPT调用Dall·E 3，Grok调用flux.1。

新范式下，Gemini 2.0 Flash的主要优势包括：

图文故事模式：始终保持人物和场景的一致性。也可以中途提意见，让AI重新讲述故事或改变绘画风格。
对话式图像编辑：支持多轮编辑，可以一句话p图，反复完善图像，实现实时协作和创意探索。
基于世界知识的图像生成：利用大模型内置的知识和推理能力，生成与上下文更相关的图像
改进文本渲染：减少拼写错误或字符扭曲，适合生成广告、甚至邀请函。

其实早在2024年5月，OpenAI总裁Brockman就曾展示过GPT-4o的这种原生多模态能力，但后来就没了消息。

现在谷歌抢先部署这项功能，让网友不禁好奇，出于什么原因让OpenAI放弃一年以上的领先优势。

图片

OpenAI员工也只能感叹，谷歌真的回来了。

图片

还有隐藏玩法

除常规玩法之外，还有网友探索出了一种隐藏玩法：用文字提问，要求AI只用图片回答。

他的问题是“生命的意义是什么”，AI用一系列图片来表达，画面逐渐诡异起来，令人毛骨悚然。

图片

他把整个过程录制成视频，下面一起来看看。

谷歌大招网友玩疯了！Gemini原生图像输出抢先推出，OpenAI一年领先优势归零

在线试玩https://aistudio.google.com/

参考链接：[1]https://developers.googleblog.com/en/experiment-with-gemini-20-flash-native-image-generation/

[2]https://x.com/goodside/status/1900349595718148455

[3]https://x.com/ilumine_ai/status/1900017235898622025

[4]https://x.com/nobisiro_2023/status/1900150873734733859

[5]https://x.com/linaqruf_/status/1899977818563633466

[6]https://x.com/scaling01/status/1899932304388051216

过年了！Kimi深夜炸场：满血版多模态o1级推理模型！OpenAI外全球首次！Jim Fan：同天两款国产o1绝对不是巧合！

编辑 | 伊风出品 | 51CTO技术栈（微信号：blog51cto）昨晚十点，Kimi弹了条推送。大晚上的，他们就这么波澜不惊地发了一个SOTA 模型出来！就是这个 k1.5 多模态思考模型，性能实现有多逆天呢：在 short-CoT 模式下， Kimi k1.5 的多项能力，大幅超越了全球范围内短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet 的水平，领先达到 550%；在 long-CoT 模式下，Kimi k1.5 的数学、代码、多模态推理能力，也达到长思考 SOTA 模型 OpenAI o1 满血版的水平！

1/21/2025 1:15:15 PM

伊风

一文读懂多模态 embeddings

传统上，AI研究被划分为不同的领域：自然语言处理（NLP）、计算机视觉（CV）、机器人学、人机交互（HCI）等。然而，无数实际任务需要整合这些不同的研究领域，例如自动驾驶汽车（CV 机器人学）、AI代理（NLP CV HCI）、个性化学习（NLP HCI）等。尽管这些领域旨在解决不同的问题并处理不同的数据类型，但它们都共享一个基本过程。

2/10/2025 7:10:00 AM

二旺

具身智能新时代！VLA迎来最强基础模型Magma：UI导航、机器人操作全能

现有的大语言模型、图像生成模型等都只是在某几个模态数据上进行操作，无法像人类一样与物理世界产生交互。视觉-语言-行动（VLA，Vision-Language-Action）模型是可以感知视觉刺激、语言输入以及其他与环境相关数据的自主智能体，能够在物理和数字环境中生成有意义的「具身行动」（embodied actions）以完成特定任务。图片由于二维数字世界和三维物理世界之间存在差异，现有的VLA模型通常对任务进行简化，导致多模态理解能力偏弱，在跨任务和跨领域的泛化能力上不够通用。

3/10/2025 1:31:28 PM

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用全日程揭晓！ICLR 2025论文分享会我们北京见「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果模态 AI视频驾驶文本人形机器人 xAI 搜索大语言模型 Copilot 字节跳动神器推荐 LLaMA 具身智能 Claude 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

谷歌大招网友玩疯了！Gemini原生图像输出抢先推出，OpenAI一年领先优势归零

原生图像输出首次开放

还有隐藏玩法

相关资讯

过年了！Kimi深夜炸场：满血版多模态o1级推理模型！OpenAI外全球首次！Jim Fan：同天两款国产o1绝对不是巧合！

一文读懂多模态 embeddings

具身智能新时代！VLA迎来最强基础模型Magma：UI导航、机器人操作全能