图像

Midjourney 官宣网页版免费用，前谷歌大佬祭出 AI 生图 Ideogram 2.0

Midjourney 一度稳居 AI 生图的第一梯队，甚至是很多人心中的 Top1。但是 Ideogram 2.0 的发布，抢夺了 Midjourney 的荣光，不仅一举拉高了图像生成质量，还打起了价格战。曾经在 AI 图像生成领域无可匹敌的领导者 Midjourney，终于听劝了，上周五推出了网页版图像编辑器。新编辑器巧妙集成了重绘、缩放等核心功能。不仅提高了操作效率，而且使整体交互逻辑更加清晰，对于高频使用 Midjourney 的用户来说，绝对欣喜！今天，Midjourney 宣布，将升级后的新工具向所有人免

8/22/2024 11:27:13 PM

问舟

谷歌 Pixel 9 手机的 AI 图像生成工具“放飞自我”，或成“造假利器”

谷歌上周发布了 Pixel 9 系列智能手机，其中包含一系列以人工智能为核心的新功能。所有 Pixel 9 手机均支持 Gemini 人工智能，谷歌还加入了基于人工智能的图像生成和编辑工具。然而，评测人员测试了这些新功能后发现，人工智能图像生成很可能会成为谷歌的公关噩梦。据AI在线了解，谷歌为 Pixel 手机推出了一个名为 Pixel Studio 的人工智能图像生成应用，其能够通过文本提示创建贴纸和图像，功能与苹果计划推出的 Image Playground 非常相似。目前，评测人员能够使用 Pixel Stu

8/22/2024 6:59:00 AM

远洋

特朗普持枪火拼、哈里斯扮作小丑……发布不到一天的Grok 2，摊上大事了！

机器之能报道编辑：杨文Grok 2，你是懂如何背刺自家老板的。Grok 2 刚发布不到一天，就摊上事了。事情是这样的：昨天，马斯克旗下的 xAI 发布新一代大模型 Grok 2，并称已与初创公司 Black Forest Labs 展开合作，试验他们的 FLUX 模型。本来是强强联合的一件好事，但由于 FLUX 模型对于生成的图像没有严格的限制，导致 X 上充斥着大量让人瞠目结舌的图像。例如，扮作小丑的哈里斯开怀大笑：颇具喜感的特朗普持枪火拼：还有更离谱的，特朗普的枪口对准了一个黑人小男孩：要知道，现在正值美国大选

8/15/2024 6:04:00 PM

机器之能

号称 Elo 评分“凌驾竞品”，Black Forest Labs 推出文生图 AI 模型 FLUX.1

美国初创公司黑森林实验室（BlackForestLabs）在 8 月 1 日推出了 AI 文生图模型 FLUX.1，该模型据称在“潜在扩散、稳定扩散及对抗性扩散蒸馏”方面较为突出，能够即时根据用户提示词生成各种图像。官方将该模型与其他友商产品进行比拼，结果显示系列模型的 Elo 评分（AI在线注：Elo 评分系统是一种在国际象棋等竞技游戏中广泛使用的评分方法，主要用于计算比赛对手实力等级）“凌驾” Stable Diffusion 3 Ultra、Ideogram、Midjourney 6.0、DALL・E 3 等

8/12/2024 3:58:29 PM

漾仔

AI 美女全军覆没：赛博照妖镜下集体变“鬼”，AI 代码拆台 AI 生图

赛博照妖镜下，AI 美女全变鬼。来看它的牙。把图像饱和度拉满，AI 人像的牙齿就会变得非常诡异，边界模糊不清。整体图片的颜色也正常，麦克风部分更是奇怪。对比真实人类照片，则应该是这样的。牙齿是清晰的，图片色块都是均匀一致的。这个工具已经开放，人人都能拿着照片去试试。AI 生成视频中的某一帧，也难逃此大法。不漏牙的照片也会暴露问题。不过 BTW，这个工具出自 Claude 之手。用 AI 破解 AI，奇妙的闭环。有一说一，最近 AI 人像太逼真又引发了不小讨论，比如一组大火的“TED 演讲者视频”，其实没有一个是真人

8/12/2024 12:37:45 PM

汪淼

AIGCRank：2024年7月出海AI网站流量排行榜

AI在线发布 2024年7月全球和国内AI网站流量排行榜、全球AI网站增长率排行榜，并联合哥飞的朋友们出海社群发布出海AI网站流量排行榜！

8/9/2024 4:11:43 PM

最强开源文生图模型一夜易主：SD 原班人马打造，要发 SOTA 视频生成模型

感谢AI在线网友刺客的线索投递！最强开源文生图模型一夜易主！昨日晚间，开源文生图模型霸主 Stable Diffusion 原班人马，宣布推出全新的图像生成模型 FLUX.1。FLUX.1 包含专业版、开发者版、快速版三种模型，其中前两款模型击败 SD3-Ultra 等主流模型，较小规模的 FLUX.1 [schnell] 也超越了 Midjourney v6.0、DALL・E 3 等更大的模型。▲ FLUX.1 ELO 分数与主流模型对比FLUX.1 在文字生成、复杂指令遵循和人手生成上具备优势。以下是其最强

8/2/2024 2:22:20 PM

汪淼

ECCV 2024 | 让GPT-4图像理解更易出错，全新策略增强VLP模型对抗迁移性

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本文作者分别来自南开大学、南洋理工大学和新加坡科技局。第一作者高森森为南开大学大四学生，此工作为其在新加坡科技局实习期间完成，实习导师为本文通讯作者郭青研究员（主页：）。本文的共同第一作者

7/22/2024 11:25:00 AM

机器之心

Midjourney 的 Style Raw 模式到底怎么用？一篇文章帮你弄懂！

大家好，这里是和你们一起探索 AI 的花生~ 与 stylize、chaos 一样，style raw 也是 Midjourney 出图中常用的的参数之一，可以帮我们实现特定的出图需求，但肯定有很多小伙伴依旧对它的具体作用不太了解，今天就通过这篇文章，详细为大家讲解一下 style raw 的适用场景和使用方法。上期回顾：一、Style Raw 简介之前我们提到过，Midjourney 的默认模型（ v5.2、v6 等）是自带 “美学滤镜” 的，它们在生成图像时会进行一定的风格化处理，让画面更有艺术性、更好看。

7/5/2024 7:39:14 AM

夏花生

300多篇相关研究，复旦、南洋理工最新多模态图像编辑综述论文

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]该文章的第一作者帅欣成，目前在复旦大学FVL实验室攻读博士学位，本科毕业于上海交通大学。他的主要研究方向包括图像和视频编辑以及多模态学习。前言本文提出了解决一般性编辑任务的统一框架！近期，

6/28/2024 6:26:00 PM

机器之心

涵盖文本、定位和分割任务，智源、港中文联合提出首个多功能3D医学多模态大模型

作者 | 香港中文大学白帆编辑 | ScienceAI近日，香港中文大学和智源联合提出的 M3D 系列工作，包括 M3D-Data, M3D-LaMed 和 M3D-Bench，从数据集、模型和测评全方面推动 3D 医学图像分析的发展。（1）M3D-Data 是目前最大的 3D 医学图像数据集，包括 M3D-Cap (120K 3D 图文对), M3D-VQA (510K 问答对)，M3D-Seg（150K 3D Mask），M3D-RefSeg (3K 推理分割)共四个子数据集。（2）M3D-LaMed 是目前最

6/21/2024 6:08:00 PM

ScienceAI

CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖

北京时间 6 月 20 日凌晨，在西雅图举办的国际计算机视觉顶会 CVPR 2024 正式公布了最佳论文等奖项。今年共有 10 篇论文获奖，其中 2 篇最佳论文，2 篇最佳学生论文，另外还有 2 篇最佳论文提名和 4 篇最佳学生论文提名。作为计算机视觉（CV）领域的顶级会议，CVPR 每年都会吸引大量研究机构和高校参会。据统计，今年共提交了 11532 份论文，2719 篇被接收，录用率为 23.6%。根据佐治亚理工学院对 CVPR 2024 录用数据的统计分析，从研究主题来看，论文数量最多的是图像和视频合成与生成

6/20/2024 2:56:00 PM

机器之心

苹果文生图应用：仅生成卡通图片、元数据标注 AI 生成

苹果 WWDC 2024 全球开发者大会后续 The Talk Show Live 访谈中，苹果公司软件工程副总裁克雷格・费德里吉（Craig Federighi）简短地提到，iOS 将为生成的图片元数据会标注“AI 生成”。科技媒体 9to5Mac 挖掘 iOS 18 Beta 1 更新代码，在 VisualGeneration 框架中提到了用于标记和识别人工智能图像的“取证”（forensics）功能。IT之家从报道中获悉，苹果 Image Playground 应用只生成卡通化的图像，而不会生成逼真的照片，这

6/15/2024 9:33:40 AM

故渊

视觉语言模型导论：这篇论文能成为你进军VLM的第一步

近些年，语言建模领域进展非凡。Llama 或 ChatGPT 等许多大型语言模型（LLM）有能力解决多种不同的任务，它们也正在成为越来越常用的工具。这些模型之前基本都局限于文本输入，但现在也正在具备处理视觉输入的能力。如果能将视觉与语言打通，那么势必能造就多种多样的应用 —— 这实际上也正是当前 AI 技术革命的关键方向。即便现在已有不少研究将大型语言模型扩展到了视觉领域，但视觉与语言之间的连接尚未被彻底打通。举些例子，大多数模型都难以理解空间位置关系或计数 —— 这还需要复杂的工程设计并依赖额外的数据标注。许多视

6/11/2024 2:45:00 PM

机器之心

GPT-4o 再秀神操作，“复现”OpenAI 总裁讲课，网友当真了

OpenAI 总裁兼联合创始人 Greg 再次大秀 GPT-4o 操作，结果网友直接缅怀 DALL-E。直接看效果。文本拼写达到惊人的一致！手部细节、光照全都有，甚至后背上的 Logo 也完全正确。有网友表示：恍惚间还以为真的是本人在讲课。也有人感叹图像生成技术发展的飞跃：Holy Cow！从完全破碎的文本到风格一致、拼写正确的写作，只用了一次迭代。GPT-4o 让网友直接缅怀 DALL-EGPT-4o 发布以来，简直就被玩儿疯了，尤其是图像生成这块。比如有网友发现，GPT-4o 在组合任意图像上面就像是打通了任督

5/16/2024 2:56:58 PM

清源

准确率 98%，OpenAI 推出专用 AI 工具：能识别 DALL・E 3 生成的图片

感谢OpenAI 公司今天发布新闻稿，宣布推出专用的 AI 检测工具，能够识别某张图片是否由 DALL・E 3 模型生成，且准确率高达 98%。OpenAI 公司在博文中表示，之所以推出这项新工具，主要是为了帮助研究人员研究内容真实性，此外该公司还宣布加入 C2PA（内容来源和真实性联盟）的指导委员会。C2PA 是一种广泛使用的数字内容认证标准，由包括软件公司、相机制造商和在线平台在内的众多参与者开发和采用，C2PA 可用于证明内容来自特定来源。OpenAI 表示自今年早些时候，在 ChatGPT 和 OpenAI

5/8/2024 7:44:38 AM

故渊

参数量不到10亿的OctopusV3，如何媲美GPT-4V和GPT-4？

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]。

5/1/2024 4:26:00 PM

机器之心

一键换装神器爆火，老黄换上抱抱脸 T 恤，CEO 本人：我被替代了，和他争 CEO 职位争不过

笑不活，最新虚拟试穿神器被网友们玩坏了。黄院士、马斯克、阿尔特曼、史密斯等一众大佬衣服集体被扒。前有老黄卸下皮衣套上糖果包装袋：后有阿尔特曼大秀花臂穿 GUCCI：再有老马变成了蛛蛛侠：好莱坞巨星史密斯也风格大变：但说回研究本身，确实正儿八经的研究。名为 IDM–VTON，由来自韩国科学技术院和 OMNIOUS.AI 公司的研究团队基于扩散模型打造。目前官方放出了 demo，大伙儿可以试玩，推理代码已开源。除了开头所展示的，抱抱脸研究员也玩得不亦乐乎，给老黄换上了专属战袍。其 CEO 连忙转发打趣：我被替代了，没法

4/28/2024 9:30:57 AM

清源

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型全能且实用！实战测评谷歌最新模型Gemini 2.5 Pro 大模型部署工具 Ollama 使用指南：技巧与问题解决全攻略基于 DeepSeek GRPO 的 1.5B Rust 代码生成模型训练实战 DeepSeek R1 vs OpenAI O3 vs Gemini 2 Pro—谁最适合做客服主管的AI 模态编码器|CLIP详细解读 50组多风格提示词，全面测评Midjourney V7生图效果！斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习 GPT 开源微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习模态苹果 AI视频驾驶文本搜索 xAI 人形机器人 Copilot 神器推荐 LLaMA 大语言模型具身智能字节跳动 Claude 算力安全应用视频生成科技视觉干货合集亚马逊 2024 AGI 特斯拉 DeepMind 架构

图像

Midjourney 官宣网页版免费用，前谷歌大佬祭出 AI 生图 Ideogram 2.0

谷歌 Pixel 9 手机的 AI 图像生成工具“放飞自我”，或成“造假利器”

特朗普持枪火拼、哈里斯扮作小丑……发布不到一天的Grok 2，摊上大事了！

号称 Elo 评分“凌驾竞品”，Black Forest Labs 推出文生图 AI 模型 FLUX.1

AI 美女全军覆没：赛博照妖镜下集体变“鬼”，AI 代码拆台 AI 生图

AIGCRank：2024年7月出海AI网站流量排行榜

最强开源文生图模型一夜易主：SD 原班人马打造，要发 SOTA 视频生成模型

ECCV 2024 | 让GPT-4图像理解更易出错，全新策略增强VLP模型对抗迁移性

Midjourney 的 Style Raw 模式到底怎么用？ 一篇文章帮你弄懂！

300多篇相关研究，复旦、南洋理工最新多模态图像编辑综述论文

涵盖文本、定位和分割任务，智源、港中文联合提出首个多功能3D医学多模态大模型

CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖

苹果文生图应用：仅生成卡通图片、元数据标注 AI 生成

视觉语言模型导论：这篇论文能成为你进军VLM的第一步

GPT-4o 再秀神操作，“复现”OpenAI 总裁讲课，网友当真了

准确率 98%，OpenAI 推出专用 AI 工具：能识别 DALL・E 3 生成的图片

参数量不到10亿的OctopusV3，如何媲美GPT-4V和GPT-4？

一键换装神器爆火，老黄换上抱抱脸 T 恤，CEO 本人：我被替代了，和他争 CEO 职位争不过

Midjourney 的 Style Raw 模式到底怎么用？一篇文章帮你弄懂！