图像

苹果、俄勒冈州立提出AutoFocusFormer: 摆脱传统栅格,采用自适应下采样的图像分割

AFF 在小物体识别上向前再迈一步。

CVPR23 Highlight | 多模态新任务、新数据集:NTU提出广义引用分割问题GRES

引用表达分割(Referring Expression Segmentation,简称引用分割或RES)是一个基础的视觉语言多模态任务。给定一张图像和一个描述该图像中某个对象的自然语言表达式,RES旨在找到该目标对象并将其分割。现有的引用分割数据集和方法通常仅支持单目标表达式,即一个表达式指代一个目标对象。而对于多目标和无目标表达式的情况,则没有考虑在内。严重限制了引用分割的实际应用。基于这个问题,来自新加坡南洋理工大学的研究者们定义了一个名为广义引用分割(Generalized Referring Expression Segmentation,GRES)的新任务,将经典的引用分割扩展到允许表达式指代任意数量的目标对象。同时,文章还构建了第一个大规模的GRES数据集gRefCOCO,其同时包含多目标、无目标和单目标表达式。

论文插图也能自动生成了,用到了扩散模型,还被ICLR接收

如果论文中的图表不用绘制,对于研究者来说是不是一种便利呢?有人在这方面进行了探索,利用文本描述生成论文图表,结果还挺有模有样的呢!

无人机+ AI 图像分析:里斯本大学高效检测林业害虫

林木虫害早预警

像相机一样变焦、填充画面细节,还能自定义风格,AI作画神器Midjourney又更新了

这次,Midjourney 5.2 又给用户带来了新的惊喜!

华盛顿大学医学院放射系助理教授朱成成实验室招收博士后、博士生、科研助理和实习生

本期将为大家介绍新华盛顿大学医学院放射系助理教授朱成成实验室招收博士后,博士生,科研助理和实习生的相关信息。

利用 PRIMO 重构 M87 黑洞图像,普林斯顿高等研究院成功将「甜甜圈」变身「金戒指」

内容一览:2019 年,「事件视界望远镜 (Event Horizon Telescope,简称 EHT)」全球研究团队发布了人类历史上第一张黑洞照片,受限于当时的观测条件,这张黑洞图像只呈现出一个模糊不清的轮廓。近日,天体物理学期刊《The Astrophysical Journal Letters》上发布了一篇基于 PRIMO 算法 重构 M87 黑洞图像的论文,该研究成果带来了更加清晰的黑洞图像。 关键词:M87 黑洞 PRIMO 算法 PCA

谷歌下场优化扩散模型,三星手机运行Stable Diffusion,12秒内出图

Speed Is All You Need:谷歌提出针对 Stable Diffusion 一些优化建议,生成图片速度快速提升。Stable Diffusion 在图像生成领域的知名度不亚于对话大模型中的 ChatGPT。其能够在几十秒内为任何给定的输入文本创建逼真图像。由于 Stable Diffusion 的参数量超过 10 亿,并且由于设备上的计算和内存资源有限,因而这种模型主要运行在云端。在没有精心设计和实施的情况下,在设备上运行这些模型可能会导致延迟增加,这是由于迭代降噪过程和内存消耗过多造成的。如何在设

平息画师怒火:Stable Diffusion学会在绘画中直接「擦除」侵权概念

Stable Diffusion 学会了「偷天换日」的本领。

AI知道你脑子里在想什么,还帮你画了出来,项目代码已开源

一个「所见即所思」的世界将是什么样子?

DALL-E发明者受访:我对其两年来产生的影响感到惊讶

在 DALL-E 2、Stable Diffusion 和 Midjourney 出现之前,该领域仅有一篇论文,即《零样本文本到图像生成》(Zero-Shot Text-to-Image Generation)。

AIGC时代已来,跨模态内容生成技术发展得怎么样了

最近一年里,AIGC 是人工智能领域里最火的词汇之一。

PS上的开源Stable Diffusion插件来了:一键AI脑补,即装即用

网友:「它能颠覆整个行业。」

多模态文档LayoutLM版面智能理解技术演进-纪传俊

LayoutLM经过从1.0到3.0版本的迭代,不断优化模型,可见多模态技术对于文档理解的可行性和未来巨大的潜力未读抱拳拒绝赞感谢找文档图片文件@消息更多酷应用

把游戏AI用于疾病诊断,腾讯AI Lab一研究成果登上国际顶会

12月19日,腾讯AI Lab发布其决策智能 AI 「绝悟」的最新成果「绝悟RLogist」,将 AI 深度强化学习技术迁移到病理全片扫描图像诊断领域,在性能接近的情况下,将传统病理阅片效率提升400%。该研究相关论文被国际人工智能顶级学术会议 「AAAI 2023」接收,代码已开源。「绝悟」AI 是腾讯将游戏场景与人工智能技术进行融合研究的核心探索之一,此前先后在 MOBA、RTS、3D开放世界(Minecraft)等多类型游戏中取得了业界领先的研究成果,证明了其在游戏复杂环境中较为优秀的决策智能水平。本次发布的

130亿光年:刚刚,NASA发布了宇宙最深处的影像

北京时间 7 月 12 日早晨,美国宇航局(NASA)公布了詹姆斯・韦伯太空望远镜拍摄的第一张全彩图像,这是深空天文台的一次重要时刻,标志着其进入科学研究第一年的开始。

39亿参数模型公开可用,采样速度7倍提升,残差量化生成图片入选CVPR'22

基于残差量化的自回归图像生成,官方已将代码公开。

华为诺亚调研200多篇文献,视觉Transformer综述入选TPAMI 2022

华为诺亚方舟实验室联合北大和悉大整理了业界第一篇视觉Transformer综述。