图像

ChatGPT拒绝生成玫瑰图像引发网络热议,AI禁忌词再添新例

近日,一位网友在社交平台 X 上发现,ChatGPT 的最新版本 GPT-4o 在尝试生成一朵玫瑰花的图像时,竟然一口回绝,声称 “我无法生成这朵玫瑰的图像,因为它未能符合我们的内容政策”。 这一意外的拒绝迅速引起了众多网友的关注和讨论,许多人开始探究其中的原因,甚至试图找到绕过这一限制的方法。 为了验证这个现象,网友们纷纷进行了一系列实验。

Gemini或将新增功能Image to Code 应用亮相AI Studio

2025 年 3 月 6 日消息,根据X平台用户最新爆料,一款名为“Image to Code”的隐藏初创应用悄然出现在AI Studio中。 这款应用由Gemini技术驱动,能够以图像作为输入,通过分析和推理,最终生成相应的程序代码,绘制出程序化的图像。 这一消息迅速引发了科技爱好者和开发者的广泛关注。

微软开源图片模型ART,可生成多图层透明图片

在图像生成领域,多层图像生成技术正逐渐改变用户与生成模型的互动方式,允许用户隔离、选择并编辑特定的图像层。 近日,微软研究人员推出了一种名为 “Anonymous Region Transformer”(ART)的新型技术,它能够根据全球文本提示和匿名区域布局,直接生成可变多层透明图像。 ART 的设计灵感来源于 “图式理论”,通过采用匿名区域布局,使生成模型可以自主决定哪些视觉信息与哪些文本信息对齐。

官宣!可灵 AI 安卓应用正式上线

日前,可灵 AI 官方宣布,备受期待的安卓应用终于上线。 这款应用将用户所喜爱的 Kling AI 功能集中于一处,用户只需轻轻点击,即可体验丰富多样的功能,包括 Frames、Elements 等。 根据官方页面介绍,KLING AI 的核心功能包括 AI 视频生成和 AI 图像生成。

智谱发布首个能生成汉字的开源文生图模型CogView4

2025年3月4日,北京智谱华章科技有限公司宣布推出首个支持生成汉字的开源文生图模型——CogView4。 该模型在DPG-Bench基准测试中综合评分排名第一,成为开源文生图模型中的SOTA(State of the Art),并遵循Apache2.0协议,是首个支持该协议的图像生成模型。 CogView4具备强大的复杂语义对齐和指令跟随能力,支持任意长度的中英双语输入,并能生成任意分辨率的图像。

重磅!MiniMax推全新图像生成模型 Image-01,使用成本仅为 1/10

日前,AI科技公司MiniMax 宣布推出其首款文本到图像生成模型 ——Image-01,用户现在可以通过 MiniMax 的 API 平台访问这一服务。 Image-01的几个主要特点令人瞩目。 该模型具有精确的提示控制能力,基于 MiniMax 在开发 Hailuo AI Video-01系列中的行业领先经验,Image-01能够提供优越的提示与图像之间的保真度。

谷歌发布 SpeciesNet AI 模型 助力野生动物识别

近日,谷歌宣布开源一款名为 SpeciesNet 的人工智能模型,该模型旨在通过分析相机捕捉到的照片来识别动物种类。 随着科研工作者在全球范围内使用相机陷阱(连接红外传感器的数字相机)进行野生动物研究,这些设备虽然提供了宝贵的数据,但同时也会产生大量数据,处理这些数据往往需要耗费数天到数周的时间。 为了解决这一问题,谷歌在六年前启动了 “野生动物洞察” 项目,属于其谷歌地球外展慈善计划的一部分。

PhotoDoodle AI 只需几个提示即可将您的照片变成异想天开的艺术作品

字节跳动携手中国和新加坡大学研究团队推出的新型AI图像编辑系统PhotoDoodle,正在重新定义我们对图像创作的理解。 这款基于Flux.1模型的创新技术,能够从少量样本中学习艺术风格,并精准执行特定编辑指令,为创意表达开辟了全新可能。 以 Flux.1为基础PhotoDoodle的核心是研究团队首先开发的OmniEditor系统,它巧妙地利用LoRA(低秩自适应)技术对德国初创公司Black Forest Labs的Flux.1图像生成模型进行了改良。

ImageNet-D 详解:严格评估神经网络的鲁棒性

神经网络在零样本图像分类中取得了惊人的成就,但它们真的能“看”得有多好呢? 现有的用于评估这些模型鲁棒性的数据集仅限于网络上的图像或通过耗时且资源密集的手动收集创建的图像。 这使得系统评估这些模型在面对未见数据和真实世界条件(包括背景、纹理和材质的变化)时的泛化能力变得困难。

耶鲁大学和Adobe提出SynthLight:智能重塑人像照明,打造完美光影

耶鲁大学和Adobe提出一种用于人像重新照明的扩散模型SynthLight,该方法将图像重新照明视为重新渲染问题,其中像素会根据环境照明条件的变化而变化。 在真实肖像照片上可以产生逼真的照明效果,包括颈部的明显投射阴影和皮肤上的自然镜面高光。 相关链接论文:: 是一种用于人像重新照明的扩散模型。

小红书提出新面部视频交换方法DynamicFace,可生成高质量且一致的视频面部图像

DynamicFace是一种新颖的面部视频交换方法,旨在生成高质量且一致的视频面部图像。 该方法结合了扩散模型的强大能力和可插拔的时间层,以解决传统面部交换技术面临的两个主要挑战:在保持源面部身份的同时,准确传递目标面部的运动信息。 通过引入四种细粒度的面部条件,DynamicFace能够对面部特征进行更精确的控制,从而实现高保真度的面部交换。

图像编辑大一统?多功能图像编辑框架Dedit:可基于图像、文本和掩码进行图像编辑

本文经AIGC Studio公众号授权转载,转载请联系出处。 今天给大家介绍一个基于图像和文本的编辑的框架D-Edit,它是第一个可以通过掩码编辑实现图像编辑的项目,近期已经在HuggingFace开放使用,并一度冲到了热门项目Top5。 使用 D-Edit 的编辑流程。

UIUC提出InstructG2I:从多模态属性图合成图像​,结合文本和图信息生成内容更丰富有趣!

今天给大家介绍的这项工作是伊利诺伊大学厄巴纳-香槟分校的研究者们提出的一个新任务 Graph2Image,其特点是通过调节图信息来合成图像,并引入了一种名为InstructG2I的新型图调节扩散模型来解决这个问题。 在INSTRUCTG2I的工作中,研究者们开发了一种新方法来生成图像,这种方法不仅依赖于文本描述,还考虑到图中其他相关信息。 想象一下,如果你要画一幅画,除了有一个简单的描述,比如“雪中的房子”,你还可以参考与这个房子相关的其他房子或景物的信息。

Retinex-Diffusion:让图像照明更加自然、细腻、富有层次感。

本文经AIGC Studio公众号授权转载,转载请联系出处。 这项研究主要是针对如何智能控制图像中的光照,采用了一种不需要重新训练模型的新方法。 简而言之,研究人员利用一种叫作Retinex理论的方法,先识别出图像中的光照元素,然后用这些元素来指导图像生成模型。

Adobe发布TurboEdit:可以通过文本来编辑图像,编辑时间<0.5秒!

今天给大家介绍Adobe研究院新的研究TurboEdit,可以通过文本来编辑图像,通过一句话就能改变图像中的头发颜色、衣服、帽子、围巾等等。 而且编辑飞快,0.5秒。 简直是图像编辑的利器。

北大开源全新图像压缩感知网络:参数量、推理时间大幅节省,性能显著提升 | 顶刊TPAMI

压缩感知(Compressed Sensing,CS)是一种信号降采样技术,可大幅节省图像获取成本,其核心思想是「无需完整记录图像信息,通过计算即可还原目标图像」。 CS的典型应用包括:降低相机成本:利用廉价设备就能拍摄出高质量图像;加速医疗成像:将核磁共振成像(MRI)时间从40分钟缩短至10分钟内,减少被检查者的不适;探索未知世界,助力科学研究:将「看不见」的事物变为「看得见」,如观测细胞活动等转瞬即逝的微观现象,以及通过分布式射电望远镜观测银河系中心的黑洞。 CS的两个核心问题是:如何设计采样矩阵,从而尽可能多地保留图像信息?

图像领域再次与LLM一拍即合!idea撞车OpenAI强化微调,西湖大学发布图像链CoT

OpenAI最近推出了在大语言模型LLM上的强化微调(Reinforcement Finetuning,ReFT),能够让模型利用CoT进行多步推理之后,通过强化学习让最终输出符合人类偏好。 无独有偶,齐国君教授领导的MAPLE实验室在OpenAI发布会一周前公布的工作中也发现了图像生成领域的主打方法扩散模型和流模型中也存在类似的过程:模型从高斯噪声开始的多步去噪过程也类似一个思维链,逐步「思考」怎样生成一张高质量图像,是一种图像生成领域的「图像链CoT」。 与OpenAI不谋而和的是,机器学习与感知(MAPLE)实验室认为强化学习微调方法同样可以用于优化多步去噪的图像生成过程,论文指出利用与人类奖励对齐的强化学习监督训练,能够让扩散模型和流匹配模型自适应地调整推理过程中噪声强度,用更少的步数生成高质量图像内容。

CCF-CV携手合合信息打造技术分享论坛,聚焦大模型时代中的视觉安全前沿热点

近期,《咬文嚼字》杂志发布了2024年度十大流行语,“智能向善”位列其中,过去一年时间里,深度伪造、AI诈骗等话题屡次登上热搜,AI技术“野蛮生长”引发公众担忧。 今年9月,全国网络安全标准化技术委员会发布了《人工智能安全治理框架》,指出人工智能既面临自身技术缺陷、不足带来的内生风险,也面临不当使用、滥用甚至恶意利用带来的外部风险。 为探寻AI安全治理道路,近期,由中国计算机学会计算机视觉专委会主办,合合信息承办,中国运筹学会数学与智能分会协办的《打造大模型时代的可信AI》论坛(简称“论坛”)顺利举行。