AI在线 AI在线

图像

Midjourney 官宣网页版免费用,前谷歌大佬祭出 AI 生图 Ideogram 2.0

Midjourney 一度稳居 AI 生图的第一梯队,甚至是很多人心中的 Top1。但是 Ideogram 2.0 的发布,抢夺了 Midjourney 的荣光,不仅一举拉高了图像生成质量,还打起了价格战。曾经在 AI 图像生成领域无可匹敌的领导者 Midjourney,终于听劝了,上周五推出了网页版图像编辑器。新编辑器巧妙集成了重绘、缩放等核心功能。不仅提高了操作效率,而且使整体交互逻辑更加清晰,对于高频使用 Midjourney 的用户来说,绝对欣喜!今天,Midjourney 宣布,将升级后的新工具向所有人免
8/22/2024 11:27:13 PM
问舟

谷歌 Pixel 9 手机的 AI 图像生成工具“放飞自我”,或成“造假利器”

谷歌上周发布了 Pixel 9 系列智能手机,其中包含一系列以人工智能为核心的新功能。所有 Pixel 9 手机均支持 Gemini 人工智能,谷歌还加入了基于人工智能的图像生成和编辑工具。然而,评测人员测试了这些新功能后发现,人工智能图像生成很可能会成为谷歌的公关噩梦。据AI在线了解,谷歌为 Pixel 手机推出了一个名为 Pixel Studio 的人工智能图像生成应用,其能够通过文本提示创建贴纸和图像,功能与苹果计划推出的 Image Playground 非常相似。目前,评测人员能够使用 Pixel Stu
8/22/2024 6:59:00 AM
远洋

特朗普持枪火拼、哈里斯扮作小丑……发布不到一天的Grok 2,摊上大事了!

机器之能报道编辑:杨文Grok 2,你是懂如何背刺自家老板的。Grok 2 刚发布不到一天,就摊上事了。事情是这样的:昨天,马斯克旗下的 xAI 发布新一代大模型 Grok 2,并称已与初创公司 Black Forest Labs 展开合作,试验他们的 FLUX 模型。本来是强强联合的一件好事,但由于 FLUX 模型对于生成的图像没有严格的限制,导致 X 上充斥着大量让人瞠目结舌的图像。例如,扮作小丑的哈里斯开怀大笑:颇具喜感的特朗普持枪火拼:还有更离谱的,特朗普的枪口对准了一个黑人小男孩:要知道,现在正值美国大选
8/15/2024 6:04:00 PM
机器之能

号称 Elo 评分“凌驾竞品”,Black Forest Labs 推出文生图 AI 模型 FLUX.1

美国初创公司黑森林实验室(BlackForestLabs)在 8 月 1 日推出了 AI 文生图模型 FLUX.1,该模型据称在“潜在扩散、稳定扩散及对抗性扩散蒸馏”方面较为突出,能够即时根据用户提示词生成各种图像。官方将该模型与其他友商产品进行比拼,结果显示系列模型的 Elo 评分(AI在线注:Elo 评分系统是一种在国际象棋等竞技游戏中广泛使用的评分方法,主要用于计算比赛对手实力等级)“凌驾” Stable Diffusion 3 Ultra、Ideogram、Midjourney 6.0、DALL・E 3 等
8/12/2024 3:58:29 PM
漾仔

AI 美女全军覆没:赛博照妖镜下集体变“鬼”,AI 代码拆台 AI 生图

赛博照妖镜下,AI 美女全变鬼。来看它的牙。把图像饱和度拉满,AI 人像的牙齿就会变得非常诡异,边界模糊不清。整体图片的颜色也正常,麦克风部分更是奇怪。对比真实人类照片,则应该是这样的。牙齿是清晰的,图片色块都是均匀一致的。这个工具已经开放,人人都能拿着照片去试试。AI 生成视频中的某一帧,也难逃此大法。不漏牙的照片也会暴露问题。不过 BTW,这个工具出自 Claude 之手。用 AI 破解 AI,奇妙的闭环。有一说一,最近 AI 人像太逼真又引发了不小讨论,比如一组大火的“TED 演讲者视频”,其实没有一个是真人
8/12/2024 12:37:45 PM
汪淼

AIGCRank:2024年7月出海AI网站流量排行榜

AI在线 发布 2024年7月全球和国内AI网站流量排行榜、全球AI网站增长率排行榜,并联合 哥飞的朋友们出海社群 发布出海AI网站流量排行榜!
8/9/2024 4:11:43 PM

最强开源文生图模型一夜易主:SD 原班人马打造,要发 SOTA 视频生成模型

感谢AI在线网友 刺客 的线索投递!最强开源文生图模型一夜易主!昨日晚间,开源文生图模型霸主 Stable Diffusion 原班人马,宣布推出全新的图像生成模型 FLUX.1。FLUX.1 包含专业版、开发者版、快速版三种模型,其中前两款模型击败 SD3-Ultra 等主流模型,较小规模的 FLUX.1 [schnell] 也超越了 Midjourney v6.0、DALL・E 3 等更大的模型。▲ FLUX.1 ELO 分数与主流模型对比FLUX.1 在文字生成、复杂指令遵循和人手生成上具备优势。以下是其最强
8/2/2024 2:22:20 PM
汪淼

ECCV 2024 | 让GPT-4图像理解更易出错,全新策略增强VLP模型对抗迁移性

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]本文作者分别来自南开大学、南洋理工大学和新加坡科技局。第一作者高森森为南开大学大四学生,此工作为其在新加坡科技局实习期间完成,实习导师为本文通讯作者郭青研究员(主页:)。本文的共同第一作者
7/22/2024 11:25:00 AM
机器之心

Midjourney 的 Style Raw 模式到底怎么用? 一篇文章帮你弄懂!

大家好,这里是和你们一起探索 AI 的花生~ 与 stylize、chaos 一样,style raw 也是 Midjourney 出图中常用的的参数之一,可以帮我们实现特定的出图需求,但肯定有很多小伙伴依旧对它的具体作用不太了解,今天就通过这篇文章,详细为大家讲解一下 style raw 的适用场景和使用方法。 上期回顾:一、Style Raw 简介 之前我们提到过,Midjourney 的默认模型( v5.2、v6 等)是自带 “美学滤镜” 的,它们在生成图像时会进行一定的风格化处理,让画面更有艺术性、更好看。
7/5/2024 7:39:14 AM
夏花生

300多篇相关研究,复旦、南洋理工最新多模态图像编辑综述论文

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]该文章的第一作者帅欣成,目前在复旦大学FVL实验室攻读博士学位,本科毕业于上海交通大学。他的主要研究方向包括图像和视频编辑以及多模态学习。前言本文提出了解决一般性编辑任务的统一框架!近期,
6/28/2024 6:26:00 PM
机器之心

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

作者 | 香港中文大学白帆编辑 | ScienceAI近日,香港中文大学和智源联合提出的 M3D 系列工作,包括 M3D-Data, M3D-LaMed 和 M3D-Bench,从数据集、模型和测评全方面推动 3D 医学图像分析的发展。(1)M3D-Data 是目前最大的 3D 医学图像数据集,包括 M3D-Cap (120K 3D 图文对), M3D-VQA (510K 问答对),M3D-Seg(150K 3D Mask),M3D-RefSeg (3K 推理分割)共四个子数据集。(2)M3D-LaMed 是目前最
6/21/2024 6:08:00 PM
ScienceAI

CVPR 2024全部奖项公布!近万人线下参会,谷歌华人研究员获最佳论文奖

北京时间 6 月 20 日凌晨,在西雅图举办的国际计算机视觉顶会 CVPR 2024 正式公布了最佳论文等奖项。今年共有 10 篇论文获奖,其中 2 篇最佳论文,2 篇最佳学生论文,另外还有 2 篇最佳论文提名和 4 篇最佳学生论文提名。作为计算机视觉(CV)领域的顶级会议,CVPR 每年都会吸引大量研究机构和高校参会。据统计,今年共提交了 11532 份论文,2719 篇被接收,录用率为 23.6%。根据佐治亚理工学院对 CVPR 2024 录用数据的统计分析,从研究主题来看,论文数量最多的是图像和视频合成与生成
6/20/2024 2:56:00 PM
机器之心

苹果文生图应用:仅生成卡通图片、元数据标注 AI 生成

苹果 WWDC 2024 全球开发者大会后续 The Talk Show Live 访谈中,苹果公司软件工程副总裁克雷格・费德里吉(Craig Federighi)简短地提到,iOS 将为生成的图片元数据会标注“AI 生成”。科技媒体 9to5Mac 挖掘 iOS 18 Beta 1 更新代码,在 VisualGeneration 框架中提到了用于标记和识别人工智能图像的“取证”(forensics)功能。IT之家从报道中获悉,苹果 Image Playground 应用只生成卡通化的图像,而不会生成逼真的照片,这
6/15/2024 9:33:40 AM
故渊

视觉语言模型导论:这篇论文能成为你进军VLM的第一步

近些年,语言建模领域进展非凡。Llama 或 ChatGPT 等许多大型语言模型(LLM)有能力解决多种不同的任务,它们也正在成为越来越常用的工具。这些模型之前基本都局限于文本输入,但现在也正在具备处理视觉输入的能力。如果能将视觉与语言打通,那么势必能造就多种多样的应用 —— 这实际上也正是当前 AI 技术革命的关键方向。即便现在已有不少研究将大型语言模型扩展到了视觉领域,但视觉与语言之间的连接尚未被彻底打通。举些例子,大多数模型都难以理解空间位置关系或计数 —— 这还需要复杂的工程设计并依赖额外的数据标注。许多视
6/11/2024 2:45:00 PM
机器之心

GPT-4o 再秀神操作,“复现”OpenAI 总裁讲课,网友当真了

OpenAI 总裁兼联合创始人 Greg 再次大秀 GPT-4o 操作,结果网友直接缅怀 DALL-E。直接看效果。文本拼写达到惊人的一致!手部细节、光照全都有,甚至后背上的 Logo 也完全正确。有网友表示:恍惚间还以为真的是本人在讲课。也有人感叹图像生成技术发展的飞跃:Holy Cow!从完全破碎的文本到风格一致、拼写正确的写作,只用了一次迭代。GPT-4o 让网友直接缅怀 DALL-EGPT-4o 发布以来,简直就被玩儿疯了,尤其是图像生成这块。比如有网友发现,GPT-4o 在组合任意图像上面就像是打通了任督
5/16/2024 2:56:58 PM
清源

准确率 98%,OpenAI 推出专用 AI 工具:能识别 DALL・E 3 生成的图片

感谢OpenAI 公司今天发布新闻稿,宣布推出专用的 AI 检测工具,能够识别某张图片是否由 DALL・E 3 模型生成,且准确率高达 98%。OpenAI 公司在博文中表示,之所以推出这项新工具,主要是为了帮助研究人员研究内容真实性,此外该公司还宣布加入 C2PA(内容来源和真实性联盟)的指导委员会。C2PA 是一种广泛使用的数字内容认证标准,由包括软件公司、相机制造商和在线平台在内的众多参与者开发和采用,C2PA 可用于证明内容来自特定来源。OpenAI 表示自今年早些时候,在 ChatGPT 和 OpenAI
5/8/2024 7:44:38 AM
故渊

参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]
5/1/2024 4:26:00 PM
机器之心

一键换装神器爆火,老黄换上抱抱脸 T 恤,CEO 本人:我被替代了,和他争 CEO 职位争不过

笑不活,最新虚拟试穿神器被网友们玩坏了。黄院士、马斯克、阿尔特曼、史密斯等一众大佬衣服集体被扒。前有老黄卸下皮衣套上糖果包装袋:后有阿尔特曼大秀花臂穿 GUCCI:再有老马变成了蛛蛛侠:好莱坞巨星史密斯也风格大变:但说回研究本身,确实正儿八经的研究。名为 IDM–VTON,由来自韩国科学技术院和 OMNIOUS.AI 公司的研究团队基于扩散模型打造。目前官方放出了 demo,大伙儿可以试玩,推理代码已开源。除了开头所展示的,抱抱脸研究员也玩得不亦乐乎,给老黄换上了专属战袍。其 CEO 连忙转发打趣:我被替代了,没法
4/28/2024 9:30:57 AM
清源