CVPR 2025

CVPR 2025｜视频抠图MatAnyone来了，一次指定全程追踪，发丝级还原

本文由南洋理工大学和商汤科技联合完成。第一作者杨沛青为南洋理工大学 MMLab@NTU 在读博士生，在 CVPR、NeurIPS、IJCV 等国际顶级会议与期刊上发表多篇研究成果。项目负责作者为该校研究助理教授周尚辰和校长讲席教授吕建勤。

4/17/2025 8:37:00 PM

机器之心

CVPR 2025 | 2D 大模型赋能3D Affordance 预测，GEAL助力可泛化的3D场景可交互区域识别

GEAL 由新加坡国立大学的研究团队开展，第一作者为博士生鲁东岳，通讯作者为该校副教授 Gim Hee Lee，团队其他成员还包括孔令东与黄田鑫博士。主页：：：，如何让智能体理解并挖掘 3D 场景中可交互的部位（Affordance）对于机器人操作与人机交互至关重要。所谓 3D Affordance Learning，就是希望模型能够根据视觉和语言线索，自动推理出物体可供哪些操作、以及可交互区域的空间位置，从而为机器人或人工智能系统提供对物体潜在操作方式的理解。

4/10/2025 4:20:00 PM

机器之心

铰链物体的通用世界模型，超越扩散方法，入选CVPR 2025

基于当前观察，预测铰链物体的的运动，尤其是 part-level 级别的运动，是实现世界模型的关键一步。尽管现在基于 diffusion 的方法取得了很多进展，但是这些方法存在处理效率低，同时缺乏三维感知等问题，难以投入真实环境中使用。清华大学联合北京大学提出了第一个基于重建模型的 part-level 运动的建模——PartRM。

4/7/2025 1:10:00 PM

机器之心

CVPR 2025 | GaussianCity: 60倍加速，让3D城市瞬间生成

想象一下，一座生机勃勃的 3D 城市在你眼前瞬间成型 —— 没有漫长的计算，没有庞大的存储需求，只有极速的生成和惊人的细节。然而，现实却远非如此。现有的 3D 城市生成方法，如基于 NeRF 的 CityDreamer [1]，虽然能够生成逼真的城市场景，但渲染速度较慢，难以满足游戏、虚拟现实和自动驾驶模拟对实时性的需求。

4/5/2025 5:07:00 PM

机器之心

CVPR 2025 | EmoEdit：情感可编辑？深大VCC带你见证魔法！

EmoEdit 由深圳大学可视计算研究中心黄惠教授课题组完成，第一作者为杨景媛助理教授。深圳大学可视计算研究中心（VCC）以计算机图形学、计算机视觉、人机交互、机器学习、具身智能、可视化和可视分析为学科基础，致力前沿探索与跨学科创新。中心主任黄惠为深圳大学讲席教授、计算机学科带头人、计算机与软件学院院长。

3/30/2025 5:11:00 PM

机器之心

CVPR 2025高分论文：从照片重建3D矢量，告别模糊渲染，重建边缘更清晰

三维高斯泼溅（3D Gaussian Splatting, 3DGS）技术基于高斯分布的概率模型叠加来表征场景，但其重建结果在几何和纹理边界处往往存在模糊问题。这种模糊效应会随着重建过程中不确定性的累积而愈发显著。如图 1 所示，通过提高渲染分辨率可以明显观察到这种边界模糊现象。

3/29/2025 8:11:00 PM

机器之心

CVPR 2025 | Qwen让AI「看见」三维世界，SeeGround实现零样本开放词汇3D视觉定位

3D 视觉定位（3D Visual Grounding, 3DVG）是智能体理解和交互三维世界的重要任务，旨在让 AI 根据自然语言描述在 3D 场景中找到指定物体。具体而言，给定一个 3D 场景和一段文本描述，模型需要准确预测目标物体的 3D 位置，并以 3D 包围框的形式输出。相比于传统的目标检测任务，3DVG 需要同时理解文本、视觉和空间信息，挑战性更高。

3/24/2025 1:06:00 PM

机器之心

CVPR 2025 高分论文 | 单图秒变3D真人！IDOL技术开启数字分身新时代

在虚拟现实、游戏以及 3D 内容创作领域，从单张图像重建高保真且可动画的全身 3D 人体一直是一个极具挑战性的问题：人体多样性、姿势复杂性、数据稀缺性等等。终于，近期由来自南京大学、中科院、清华大学、腾讯等机构的联合研究团队，提出一个名为 IDOL 的全新解决方案，高分拿下 2025 CVPR。项目主页目前访问次数已超 2500 次，且是可商用的 MIT 开源协议，备受业界瞩目。

3/22/2025 8:59:00 PM

机器之心

CVPR 2025|复旦&微软开源StableAnimator: 首个端到端ID一致性人类视频生成，Github Star破千

第一作者、第二作者分别为复旦大学研究生涂树源、邢桢，通讯作者为复旦大学吴祖煊副教授。近年来，扩散模型在图像与视频合成领域展现出强大能力，为图像动画技术的发展带来了新的契机。特别是在人物图像动画方面，该技术能够基于一系列预设姿态驱动参考图像，使其动态化，从而生成高度可控的人体动画视频。

3/19/2025 5:36:00 PM

机器之心

没有归一化层的Transformer！刘壮带队，何恺明、Yann LeCun都参与了

何恺明又双叒叕发新作了，这次还是与图灵奖得主 Yann LeCun 合作。这项研究的主题是没有归一化层的 Transformer（Transformers without Normalization），并已被 CVPR 2025 会议接收。 Meta FAIR 研究科学家刘壮的推文过去十年，归一化层已经巩固了其作为现代神经网络最基本组件之一的地位。

3/14/2025 3:54:00 PM

机器之心

CVPR 2025 | VAST和北航开源MIDI，从单张图像端到端生成三维组合场景

本文的主要作者来自 VAST、北京航空航天大学、清华大学和香港大学。本文的第一作者为北京航空航天大学硕士生黄泽桓，主要研究方向为生成式人工智能和三维视觉。本文的通讯作者为 VAST 首席科学家曹炎培和北京航空航天大学副教授盛律。

3/14/2025 11:55:00 AM

机器之心

CVPR 2025｜北大开源多模态驱动的定制化漫画生成框架DiffSensei，还有4.3万页漫画数据集

随着生成式人工智能技术（AIGC）的突破，文本到图像模型在故事可视化领域展现出巨大潜力，但在多角色场景中仍面临角色一致性差、布局控制难、动态叙事不足等挑战。为此，北京大学、上海人工智能实验室、南洋理工大学联合推出 DiffSensei，首个结合多模态大语言模型（MLLM）与扩散模型的定制化漫画生成框架。论文地址：仓库： - - ，实现了对多角色外观、表情、动作的精确控制，并支持对话布局的灵活编码。

3/7/2025 12:48:00 PM

机器之心

CVPR 2025有作者用AI生成审稿意见，被发现了，论文也被拒了

有人用 LLM 来审查有关 LLM 的论文？这个星期，每个 AI 研究组都在焦急地等待全球顶会 CVPR 2025 放榜。 AI 领域的热度一年比一年高，今年的审稿工作也是时间紧，任务重。

2/27/2025 4:05:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型