图像
号称 Elo 评分“凌驾竞品”,Black Forest Labs 推出文生图 AI 模型 FLUX.1
美国初创公司黑森林实验室(BlackForestLabs)在 8 月 1 日推出了 AI 文生图模型 FLUX.1,该模型据称在“潜在扩散、稳定扩散及对抗性扩散蒸馏”方面较为突出,能够即时根据用户提示词生成各种图像。官方将该模型与其他友商产品进行比拼,结果显示系列模型的 Elo 评分(AI在线注:Elo 评分系统是一种在国际象棋等竞技游戏中广泛使用的评分方法,主要用于计算比赛对手实力等级)“凌驾” Stable Diffusion 3 Ultra、Ideogram、Midjourney 6.0、DALL・E 3 等
AI 美女全军覆没:赛博照妖镜下集体变“鬼”,AI 代码拆台 AI 生图
赛博照妖镜下,AI 美女全变鬼。来看它的牙。把图像饱和度拉满,AI 人像的牙齿就会变得非常诡异,边界模糊不清。整体图片的颜色也正常,麦克风部分更是奇怪。对比真实人类照片,则应该是这样的。牙齿是清晰的,图片色块都是均匀一致的。这个工具已经开放,人人都能拿着照片去试试。AI 生成视频中的某一帧,也难逃此大法。不漏牙的照片也会暴露问题。不过 BTW,这个工具出自 Claude 之手。用 AI 破解 AI,奇妙的闭环。有一说一,最近 AI 人像太逼真又引发了不小讨论,比如一组大火的“TED 演讲者视频”,其实没有一个是真人
AIGCRank:2024年7月出海AI网站流量排行榜
AI在线 发布 2024年7月全球和国内AI网站流量排行榜、全球AI网站增长率排行榜,并联合 哥飞的朋友们出海社群 发布出海AI网站流量排行榜!
最强开源文生图模型一夜易主:SD 原班人马打造,要发 SOTA 视频生成模型
感谢AI在线网友 刺客 的线索投递!最强开源文生图模型一夜易主!昨日晚间,开源文生图模型霸主 Stable Diffusion 原班人马,宣布推出全新的图像生成模型 FLUX.1。FLUX.1 包含专业版、开发者版、快速版三种模型,其中前两款模型击败 SD3-Ultra 等主流模型,较小规模的 FLUX.1 [schnell] 也超越了 Midjourney v6.0、DALL・E 3 等更大的模型。▲ FLUX.1 ELO 分数与主流模型对比FLUX.1 在文字生成、复杂指令遵循和人手生成上具备优势。以下是其最强
ECCV 2024 | 让GPT-4图像理解更易出错,全新策略增强VLP模型对抗迁移性
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本文作者分别来自南开大学、南洋理工大学和新加坡科技局。第一作者高森森为南开大学大四学生,此工作为其在新加坡科技局实习期间完成,实习导师为本文通讯作者郭青研究员(主页:)。本文的共同第一作者
Midjourney 的 Style Raw 模式到底怎么用? 一篇文章帮你弄懂!
大家好,这里是和你们一起探索 AI 的花生~
与 stylize、chaos 一样,style raw 也是 Midjourney 出图中常用的的参数之一,可以帮我们实现特定的出图需求,但肯定有很多小伙伴依旧对它的具体作用不太了解,今天就通过这篇文章,详细为大家讲解一下 style raw 的适用场景和使用方法。
上期回顾:一、Style Raw 简介
之前我们提到过,Midjourney 的默认模型( v5.2、v6 等)是自带 “美学滤镜” 的,它们在生成图像时会进行一定的风格化处理,让画面更有艺术性、更好看。
300多篇相关研究,复旦、南洋理工最新多模态图像编辑综述论文
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]该文章的第一作者帅欣成,目前在复旦大学FVL实验室攻读博士学位,本科毕业于上海交通大学。他的主要研究方向包括图像和视频编辑以及多模态学习。前言本文提出了解决一般性编辑任务的统一框架!近期,
涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型
作者 | 香港中文大学白帆编辑 | ScienceAI近日,香港中文大学和智源联合提出的 M3D 系列工作,包括 M3D-Data, M3D-LaMed 和 M3D-Bench,从数据集、模型和测评全方面推动 3D 医学图像分析的发展。(1)M3D-Data 是目前最大的 3D 医学图像数据集,包括 M3D-Cap (120K 3D 图文对), M3D-VQA (510K 问答对),M3D-Seg(150K 3D Mask),M3D-RefSeg (3K 推理分割)共四个子数据集。(2)M3D-LaMed 是目前最
CVPR 2024全部奖项公布!近万人线下参会,谷歌华人研究员获最佳论文奖
北京时间 6 月 20 日凌晨,在西雅图举办的国际计算机视觉顶会 CVPR 2024 正式公布了最佳论文等奖项。今年共有 10 篇论文获奖,其中 2 篇最佳论文,2 篇最佳学生论文,另外还有 2 篇最佳论文提名和 4 篇最佳学生论文提名。作为计算机视觉(CV)领域的顶级会议,CVPR 每年都会吸引大量研究机构和高校参会。据统计,今年共提交了 11532 份论文,2719 篇被接收,录用率为 23.6%。根据佐治亚理工学院对 CVPR 2024 录用数据的统计分析,从研究主题来看,论文数量最多的是图像和视频合成与生成
苹果文生图应用:仅生成卡通图片、元数据标注 AI 生成
苹果 WWDC 2024 全球开发者大会后续 The Talk Show Live 访谈中,苹果公司软件工程副总裁克雷格・费德里吉(Craig Federighi)简短地提到,iOS 将为生成的图片元数据会标注“AI 生成”。科技媒体 9to5Mac 挖掘 iOS 18 Beta 1 更新代码,在 VisualGeneration 框架中提到了用于标记和识别人工智能图像的“取证”(forensics)功能。IT之家从报道中获悉,苹果 Image Playground 应用只生成卡通化的图像,而不会生成逼真的照片,这
视觉语言模型导论:这篇论文能成为你进军VLM的第一步
近些年,语言建模领域进展非凡。Llama 或 ChatGPT 等许多大型语言模型(LLM)有能力解决多种不同的任务,它们也正在成为越来越常用的工具。这些模型之前基本都局限于文本输入,但现在也正在具备处理视觉输入的能力。如果能将视觉与语言打通,那么势必能造就多种多样的应用 —— 这实际上也正是当前 AI 技术革命的关键方向。即便现在已有不少研究将大型语言模型扩展到了视觉领域,但视觉与语言之间的连接尚未被彻底打通。举些例子,大多数模型都难以理解空间位置关系或计数 —— 这还需要复杂的工程设计并依赖额外的数据标注。许多视
GPT-4o 再秀神操作,“复现”OpenAI 总裁讲课,网友当真了
OpenAI 总裁兼联合创始人 Greg 再次大秀 GPT-4o 操作,结果网友直接缅怀 DALL-E。直接看效果。文本拼写达到惊人的一致!手部细节、光照全都有,甚至后背上的 Logo 也完全正确。有网友表示:恍惚间还以为真的是本人在讲课。也有人感叹图像生成技术发展的飞跃:Holy Cow!从完全破碎的文本到风格一致、拼写正确的写作,只用了一次迭代。GPT-4o 让网友直接缅怀 DALL-EGPT-4o 发布以来,简直就被玩儿疯了,尤其是图像生成这块。比如有网友发现,GPT-4o 在组合任意图像上面就像是打通了任督
准确率 98%,OpenAI 推出专用 AI 工具:能识别 DALL・E 3 生成的图片
感谢OpenAI 公司今天发布新闻稿,宣布推出专用的 AI 检测工具,能够识别某张图片是否由 DALL・E 3 模型生成,且准确率高达 98%。OpenAI 公司在博文中表示,之所以推出这项新工具,主要是为了帮助研究人员研究内容真实性,此外该公司还宣布加入 C2PA(内容来源和真实性联盟)的指导委员会。C2PA 是一种广泛使用的数字内容认证标准,由包括软件公司、相机制造商和在线平台在内的众多参与者开发和采用,C2PA 可用于证明内容来自特定来源。OpenAI 表示自今年早些时候,在 ChatGPT 和 OpenAI
参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]。
一键换装神器爆火,老黄换上抱抱脸 T 恤,CEO 本人:我被替代了,和他争 CEO 职位争不过
笑不活,最新虚拟试穿神器被网友们玩坏了。黄院士、马斯克、阿尔特曼、史密斯等一众大佬衣服集体被扒。前有老黄卸下皮衣套上糖果包装袋:后有阿尔特曼大秀花臂穿 GUCCI:再有老马变成了蛛蛛侠:好莱坞巨星史密斯也风格大变:但说回研究本身,确实正儿八经的研究。名为 IDM–VTON,由来自韩国科学技术院和 OMNIOUS.AI 公司的研究团队基于扩散模型打造。目前官方放出了 demo,大伙儿可以试玩,推理代码已开源。除了开头所展示的,抱抱脸研究员也玩得不亦乐乎,给老黄换上了专属战袍。其 CEO 连忙转发打趣:我被替代了,没法
Adobe Photoshop 引入全新 Firefly Image 3 图像 AI 模型,Beta 版开放下载
去年以来,Adobe 一直在其各种软件产品中添加大量基于 AI 的功能,其中包括基于 Firefly AI 的图像生成功能,用于 Photoshop 等 Creative Cloud 应用。今天,Adobe 宣布推出新版 Photoshop,不仅包含一些新的 AI 图像编辑功能和改进,还包含新的 Firefly Image 3 Foundation Model,用于根据文本提示制作基于 AI 的内容。Adobe 在官方新闻稿中表示,与之前的版本相比,Firefly Image 3 将能够创建质量更高、种类更多、细节
融合 ChatGPT+DALL・E 3,贾佳亚团队新作开源畅玩:识图推理生图一站解决
在开源社区中把 GPT-4 Dall・E 3 能⼒整合起来的模型该有多强?香港中文大学终身教授贾佳亚团队提出多模态模型 Mini-Gemini:更高清图像的精确理解、更高质量的训练数据、更强的图像解析推理能力,还能结合图像推理和生成,堪称王炸。Mini-Gemini 还提供了 2B 小杯到 34B 的超大杯,最强模型在多个指标上相比谷歌的 Gemini Pro 甚至 GPT-4V 都不遑多让。目前,Mini-Gemini 从代码、模型到数据已全部开源,登上了 PaperWithCode 热榜。Mini-Gemini
AI在用 | 想让手机壁纸脱胎换骨?试试Midjourney
机器之能报道编辑:Cardinal以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式,但绝大部分人依然不知道该如何使用因此,我们推出了「AI在用」专栏,通过直观、有趣且简洁的人工智能使用案例,来具体介绍AI使用方法,并激发大家思考。 我们也欢迎读者投稿亲自实践的创新型用例。周末了,我们分享一个轻松有趣的玩法——用图像生成器 Midjourney (v 6.0)DIY 漂亮壁纸。来自X用户@eslwithtinaX 用户 @umesh_ai 用一个简单提示就创建非常美丽壁纸!案例地址::w