AI在线 AI在线

CVPR 2025

CVPR 2025|视频抠图MatAnyone来了,一次指定全程追踪,发丝级还原

本文由南洋理工大学和商汤科技联合完成。 第一作者杨沛青为南洋理工大学 MMLab@NTU 在读博士生,在 CVPR、NeurIPS、IJCV 等国际顶级会议与期刊上发表多篇研究成果。 项目负责作者为该校研究助理教授周尚辰和校长讲席教授吕建勤。
4/17/2025 8:37:00 PM
机器之心

CVPR 2025 | 2D 大模型赋能3D Affordance 预测,GEAL助力可泛化的3D场景可交互区域识别

GEAL 由新加坡国立大学的研究团队开展,第一作者为博士生鲁东岳,通讯作者为该校副教授 Gim Hee Lee,团队其他成员还包括孔令东与黄田鑫博士。 主页:::,如何让智能体理解并挖掘 3D 场景中可交互的部位(Affordance)对于机器人操作与人机交互至关重要。 所谓 3D Affordance Learning,就是希望模型能够根据视觉和语言线索,自动推理出物体可供哪些操作、以及可交互区域的空间位置,从而为机器人或人工智能系统提供对物体潜在操作方式的理解。
4/10/2025 4:20:00 PM
机器之心

铰链物体的通用世界模型,超越扩散方法,入选CVPR 2025

基于当前观察,预测铰链物体的的运动,尤其是 part-level 级别的运动,是实现世界模型的关键一步。 尽管现在基于 diffusion 的方法取得了很多进展,但是这些方法存在处理效率低,同时缺乏三维感知等问题,难以投入真实环境中使用。 清华大学联合北京大学提出了第一个基于重建模型的 part-level 运动的建模——PartRM。
4/7/2025 1:10:00 PM
机器之心

CVPR 2025 | GaussianCity: 60倍加速,让3D城市瞬间生成

想象一下,一座生机勃勃的 3D 城市在你眼前瞬间成型 —— 没有漫长的计算,没有庞大的存储需求,只有极速的生成和惊人的细节。 然而,现实却远非如此。 现有的 3D 城市生成方法,如基于 NeRF 的 CityDreamer [1],虽然能够生成逼真的城市场景,但渲染速度较慢,难以满足游戏、虚拟现实和自动驾驶模拟对实时性的需求。
4/5/2025 5:07:00 PM
机器之心

CVPR 2025 | EmoEdit:情感可编辑?深大VCC带你见证魔法!

EmoEdit 由深圳大学可视计算研究中心黄惠教授课题组完成,第一作者为杨景媛助理教授。 深圳大学可视计算研究中心(VCC)以计算机图形学、计算机视觉、人机交互、机器学习、具身智能、可视化和可视分析为学科基础,致力前沿探索与跨学科创新。 中心主任黄惠为深圳大学讲席教授、计算机学科带头人、计算机与软件学院院长。
3/30/2025 5:11:00 PM
机器之心

CVPR 2025高分论文:从照片重建3D矢量,告别模糊渲染,重建边缘更清晰

三维高斯泼溅(3D Gaussian Splatting, 3DGS)技术基于高斯分布的概率模型叠加来表征场景,但其重建结果在几何和纹理边界处往往存在模糊问题。 这种模糊效应会随着重建过程中不确定性的累积而愈发显著。 如图 1 所示,通过提高渲染分辨率可以明显观察到这种边界模糊现象。
3/29/2025 8:11:00 PM
机器之心

CVPR 2025 | Qwen让AI「看见」三维世界,SeeGround实现零样本开放词汇3D视觉定位

3D 视觉定位(3D Visual Grounding, 3DVG)是智能体理解和交互三维世界的重要任务,旨在让 AI 根据自然语言描述在 3D 场景中找到指定物体。 具体而言,给定一个 3D 场景和一段文本描述,模型需要准确预测目标物体的 3D 位置,并以 3D 包围框的形式输出。 相比于传统的目标检测任务,3DVG 需要同时理解文本、视觉和空间信息,挑战性更高。
3/24/2025 1:06:00 PM
机器之心

CVPR 2025 高分论文 | 单图秒变3D真人!IDOL技术开启数字分身新时代

在虚拟现实、游戏以及 3D 内容创作领域,从单张图像重建高保真且可动画的全身 3D 人体一直是一个极具挑战性的问题:人体多样性、姿势复杂性、数据稀缺性等等。 终于,近期由来自南京大学、中科院、清华大学、腾讯等机构的联合研究团队,提出一个名为 IDOL 的全新解决方案,高分拿下 2025 CVPR。 项目主页目前访问次数已超 2500  次,且是可商用的 MIT 开源协议,备受业界瞩目。
3/22/2025 8:59:00 PM
机器之心

CVPR 2025|复旦&微软开源StableAnimator: 首个端到端ID一致性人类视频生成,Github Star破千

第一作者、第二作者分别为复旦大学研究生涂树源、邢桢,通讯作者为复旦大学吴祖煊副教授。 近年来,扩散模型在图像与视频合成领域展现出强大能力,为图像动画技术的发展带来了新的契机。 特别是在人物图像动画方面,该技术能够基于一系列预设姿态驱动参考图像,使其动态化,从而生成高度可控的人体动画视频。
3/19/2025 5:36:00 PM
机器之心

没有归一化层的Transformer!刘壮带队,何恺明、Yann LeCun都参与了

何恺明又双叒叕发新作了,这次还是与图灵奖得主 Yann LeCun 合作。 这项研究的主题是没有归一化层的 Transformer(Transformers without Normalization),并已被 CVPR 2025 会议接收。                                                          Meta FAIR 研究科学家刘壮的推文过去十年,归一化层已经巩固了其作为现代神经网络最基本组件之一的地位。
3/14/2025 3:54:00 PM
机器之心

CVPR 2025 | VAST和北航开源MIDI,从单张图像端到端生成三维组合场景

本文的主要作者来自 VAST、北京航空航天大学、清华大学和香港大学。 本文的第一作者为北京航空航天大学硕士生黄泽桓,主要研究方向为生成式人工智能和三维视觉。 本文的通讯作者为 VAST 首席科学家曹炎培和北京航空航天大学副教授盛律。
3/14/2025 11:55:00 AM
机器之心

CVPR 2025|北大开源多模态驱动的定制化漫画生成框架DiffSensei,还有4.3万页漫画数据集

随着生成式人工智能技术(AIGC)的突破,文本到图像模型在故事可视化领域展现出巨大潜力,但在多角色场景中仍面临角色一致性差、布局控制难、动态叙事不足等挑战。 为此,北京大学、上海人工智能实验室、南洋理工大学联合推出 DiffSensei,首个结合多模态大语言模型(MLLM)与扩散模型的定制化漫画生成框架。 论文地址: 仓库: - - ,实现了对多角色外观、表情、动作的精确控制,并支持对话布局的灵活编码。
3/7/2025 12:48:00 PM
机器之心

CVPR 2025有作者用AI生成审稿意见,被发现了,论文也被拒了

有人用 LLM 来审查有关 LLM 的论文? 这个星期,每个 AI 研究组都在焦急地等待全球顶会 CVPR 2025 放榜。 AI 领域的热度一年比一年高,今年的审稿工作也是时间紧,任务重。
2/27/2025 4:05:00 PM
机器之心
  • 1