图像

南洋理工&普渡大学提出CFG-Zero*：在Flow Matching模型中实现更稳健的无分类器引导方法

本篇论文是由南洋理工大学 S-Lab 与普渡大学提出的无分类引导新范式，支持所有 Flow Matching 的生成模型。目前已被集成至 Diffusers 与 ComfyUI。论文标题：CFG-Zero*: Improved Classifier-Free Guidance for Flow Matching Models论文地址：：： AI 的快速发展，文本生成图像与视频的扩散模型（Diffusion Models）已成为计算机视觉领域的研究与应用热点。

4/9/2025 1:16:26 PM

机器之心

GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器，还有4o图像生成全面测评基准

GPT-4o图像生成架构被“破解”了！最近一阵，“万物皆可吉卜力”让GPT-4o的图像生成功能一炮而红，人们随之好奇：4o图像生成的架构底层逻辑到底是什么？ GPT-4o究竟强在哪？

4/9/2025 9:08:34 AM

20万+围观GPT-4o整出Gif！我们玩出新高度

编辑 | Sia这届网友真是把 AI 玩出花！继谷歌 Gemini 2.0 Flash 去水印骚操作后，Reddit 社区的老哥们又用 GPT-4o 解锁动画制作新姿势——直接生成动画关键帧。只需简单指令，模型直接吐出连贯动作序列帧，丝滑程度堪比动画师原画。

4/8/2025 9:21:00 PM

AI好好用

首次引入强化学习！火山引擎Q-Insight让画质理解迈向深度思考

从 GPT-4o 吉卜力风、即梦的 3D 动画、再到苹果 Vision Pro，AI 视觉创作正迎来生产力大爆炸。一个重要问题随之浮现：如何评估机器生成的画质符合人眼审美？人眼能瞬间辨别图像优劣，但教会机器理解「好看」却充满挑战。

4/8/2025 9:50:00 AM

机器之心

OpenAI 的新 GPT-4o 图像生成技术绝对会改变游戏规则

GPT-4o 的图像生成功能刚刚发布就直接开始摧毁传统行业，甚至让 OpenAI 的 CEO 山姆·奥特曼（Sam Altman）都直呼：“我也看不懂眼前发生的一切！ ”图片传统的设计软件，比如 Photoshop，现在可真是如临大敌了。一、图像融合的能力彻底超越传统工具来看一个让人震惊的图像融合实例：图片传统的 Photoshop 顶多就是简单地将人物图层叠加到背景图上，对光影和角度的细节通常还要手动调整。

4/7/2025 12:00:00 AM

dev

我下下决心再给老板发哈哈哈

编辑 | 萝卜皮原子结构的高分辨率可视化对于理解材料微观结构与宏观性质之间的关系具有重要意义。然而，在原子分辨率显微镜中，快速、准确、稳健地自动解析复杂模式的方法仍然难以实现。北京大学、厦门大学、中南大学以及深势科技等组成的研究团队，提出了一种基于 Trident 策略增强的解缠结表示学习方法（生成模型）。

4/1/2025 2:30:00 PM

ScienceAI

GPT-4o骗了所有人，逐行画图只是前端特效？！底层架构细节成迷，奥特曼呼吁大家别玩了

GPT-4o玩家太疯狂，奥特曼紧急呼吁别再生成图片了：OpenAI团队为此一直在熬夜。为什么需要熬夜呢，自原生图像生成推出以来，必须一直有人守着才能保持服务器在线。与此同时，有人通过分析ChatGPT前端代码，发现用户看到的逐行生成效果只是浏览器端的动画。

3/31/2025 11:23:02 AM

不止吉卜力！GPT-4o新玩法全网疯传，网友：AI成精了

万万没想到，GPT-4o图像生成功如此火爆，奥特曼在线直呼太疯狂！前有「吉卜力风」一夜爆火，今有「文艺复兴」席卷全网。 GPT-4o直接让外国网友Cosplay「文艺复兴名场面」！

3/31/2025 9:27:03 AM

新智元

刷屏网络后，ChatGPT 开始屏蔽模仿吉卜力风格的图像生成请求

日前，随着 OpenAI 推出其新款 GPT-4o 图像生成能力，网络上涌现出大量模仿日本著名动画公司吉卜力风格的 AI 生成卡通和表情包，引起了广泛关注。用户们在社交平台上分享了许多恶搞作品，其中有一幅描绘肯尼迪遇刺事件的作品尤为引人注目。此外，许多人将自己的照片转化为吉卜力电影风格的图像，进一步推动了这一潮流。

3/28/2025 9:20:00 AM

AI在线

OpenAI在图片领域站起来了！

出品 | 51CTO技术栈（微信号：blog51cto）26日凌晨，OpenAI推出了GPT4o图像生成，可以说解决了此前Midjourney等扩散模型很难解决的问题，业内为之大为赞叹。这是用手机拍摄的玻璃白板的广角图像，拍摄地点是一间俯瞰海湾大桥的房间。视野中可以看到一位女士正在写字，她身穿一件印有大型 OpenAI 标志的 T 恤。

3/26/2025 9:29:12 AM

ChatGPT拒绝生成玫瑰图像引发网络热议，AI禁忌词再添新例

近日，一位网友在社交平台 X 上发现，ChatGPT 的最新版本 GPT-4o 在尝试生成一朵玫瑰花的图像时，竟然一口回绝，声称 “我无法生成这朵玫瑰的图像，因为它未能符合我们的内容政策”。这一意外的拒绝迅速引起了众多网友的关注和讨论，许多人开始探究其中的原因，甚至试图找到绕过这一限制的方法。为了验证这个现象，网友们纷纷进行了一系列实验。

3/6/2025 11:22:00 AM

AI在线

Gemini或将新增功能Image to Code 应用亮相AI Studio

2025 年 3 月 6 日消息，根据X平台用户最新爆料，一款名为“Image to Code”的隐藏初创应用悄然出现在AI Studio中。这款应用由Gemini技术驱动，能够以图像作为输入，通过分析和推理，最终生成相应的程序代码，绘制出程序化的图像。这一消息迅速引发了科技爱好者和开发者的广泛关注。

3/6/2025 10:12:00 AM

AI在线

微软开源图片模型ART，可生成多图层透明图片

在图像生成领域，多层图像生成技术正逐渐改变用户与生成模型的互动方式，允许用户隔离、选择并编辑特定的图像层。近日，微软研究人员推出了一种名为 “Anonymous Region Transformer”（ART）的新型技术，它能够根据全球文本提示和匿名区域布局，直接生成可变多层透明图像。 ART 的设计灵感来源于 “图式理论”，通过采用匿名区域布局，使生成模型可以自主决定哪些视觉信息与哪些文本信息对齐。

3/5/2025 9:56:00 AM

AI在线

官宣！可灵 AI 安卓应用正式上线

日前，可灵 AI 官方宣布，备受期待的安卓应用终于上线。这款应用将用户所喜爱的 Kling AI 功能集中于一处，用户只需轻轻点击，即可体验丰富多样的功能，包括 Frames、Elements 等。根据官方页面介绍，KLING AI 的核心功能包括 AI 视频生成和 AI 图像生成。

3/4/2025 3:58:00 PM

AI在线

智谱发布首个能生成汉字的开源文生图模型CogView4

2025年3月4日，北京智谱华章科技有限公司宣布推出首个支持生成汉字的开源文生图模型——CogView4。该模型在DPG-Bench基准测试中综合评分排名第一，成为开源文生图模型中的SOTA（State of the Art），并遵循Apache2.0协议，是首个支持该协议的图像生成模型。 CogView4具备强大的复杂语义对齐和指令跟随能力，支持任意长度的中英双语输入，并能生成任意分辨率的图像。

3/4/2025 1:39:00 PM

AI在线

重磅！MiniMax推全新图像生成模型 Image-01，使用成本仅为 1/10

日前，AI科技公司MiniMax 宣布推出其首款文本到图像生成模型 ——Image-01，用户现在可以通过 MiniMax 的 API 平台访问这一服务。 Image-01的几个主要特点令人瞩目。该模型具有精确的提示控制能力，基于 MiniMax 在开发 Hailuo AI Video-01系列中的行业领先经验，Image-01能够提供优越的提示与图像之间的保真度。

3/4/2025 9:39:00 AM

AI在线

谷歌发布 SpeciesNet AI 模型助力野生动物识别

近日，谷歌宣布开源一款名为 SpeciesNet 的人工智能模型，该模型旨在通过分析相机捕捉到的照片来识别动物种类。随着科研工作者在全球范围内使用相机陷阱（连接红外传感器的数字相机）进行野生动物研究，这些设备虽然提供了宝贵的数据，但同时也会产生大量数据，处理这些数据往往需要耗费数天到数周的时间。为了解决这一问题，谷歌在六年前启动了 “野生动物洞察” 项目，属于其谷歌地球外展慈善计划的一部分。

3/4/2025 9:29:00 AM

AI在线

PhotoDoodle AI 只需几个提示即可将您的照片变成异想天开的艺术作品

字节跳动携手中国和新加坡大学研究团队推出的新型AI图像编辑系统PhotoDoodle，正在重新定义我们对图像创作的理解。这款基于Flux.1模型的创新技术，能够从少量样本中学习艺术风格，并精准执行特定编辑指令，为创意表达开辟了全新可能。以 Flux.1为基础PhotoDoodle的核心是研究团队首先开发的OmniEditor系统，它巧妙地利用LoRA（低秩自适应）技术对德国初创公司Black Forest Labs的Flux.1图像生成模型进行了改良。

2/26/2025 9:27:00 AM

AI在线

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型大模型部署工具 Ollama 使用指南：技巧与问题解决全攻略全能且实用！实战测评谷歌最新模型Gemini 2.5 Pro 基于 DeepSeek GRPO 的 1.5B Rust 代码生成模型训练实战 DeepSeek R1 vs OpenAI O3 vs Gemini 2 Pro—谁最适合做客服主管的AI 50组多风格提示词，全面测评Midjourney V7生图效果！模态编码器|CLIP详细解读 PandasAI：当数据分析遇上自然语言处理

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习 GPT 开源微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science AI设计 3D Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习模态苹果 AI视频驾驶文本搜索 xAI Copilot 人形机器人神器推荐具身智能 LLaMA 大语言模型字节跳动 Claude 算力安全应用视频生成科技视觉干货合集亚马逊 2024 AGI 特斯拉 DeepMind 架构

图像

南洋理工&普渡大学提出CFG-Zero*：在Flow Matching模型中实现更稳健的无分类器引导方法

GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器，还有4o图像生成全面测评基准

20万+围观GPT-4o整出Gif！我们玩出新高度

首次引入强化学习！火山引擎Q-Insight让画质理解迈向深度思考

OpenAI 的新 GPT-4o 图像生成技术绝对会改变游戏规则

我下下决心再给老板发哈哈哈

GPT-4o骗了所有人，逐行画图只是前端特效？！底层架构细节成迷，奥特曼呼吁大家别玩了

不止吉卜力！GPT-4o新玩法全网疯传，网友：AI成精了

刷屏网络后，​ChatGPT 开始屏蔽模仿吉卜力风格的图像生成请求

OpenAI在图片领域站起来了！

ChatGPT拒绝生成玫瑰图像引发网络热议，AI禁忌词再添新例

Gemini或将新增功能Image to Code 应用亮相AI Studio

微软开源图片模型ART，可生成多图层透明图片

官宣！可灵 AI 安卓应用正式上线

智谱发布首个能生成汉字的开源文生图模型CogView4

重磅！MiniMax推全新图像生成模型 Image-01，使用成本仅为 1/10

谷歌发布 SpeciesNet AI 模型 助力野生动物识别

PhotoDoodle AI 只需几个提示即可将您的照片变成异想天开的艺术作品

刷屏网络后，ChatGPT 开始屏蔽模仿吉卜力风格的图像生成请求

谷歌发布 SpeciesNet AI 模型助力野生动物识别