CVPR 2025
CVPR 2025|视频抠图MatAnyone来了,一次指定全程追踪,发丝级还原
本文由南洋理工大学和商汤科技联合完成。 第一作者杨沛青为南洋理工大学 MMLab@NTU 在读博士生,在 CVPR、NeurIPS、IJCV 等国际顶级会议与期刊上发表多篇研究成果。 项目负责作者为该校研究助理教授周尚辰和校长讲席教授吕建勤。
4/17/2025 8:37:00 PM
机器之心
CVPR 2025 | 2D 大模型赋能3D Affordance 预测,GEAL助力可泛化的3D场景可交互区域识别
GEAL 由新加坡国立大学的研究团队开展,第一作者为博士生鲁东岳,通讯作者为该校副教授 Gim Hee Lee,团队其他成员还包括孔令东与黄田鑫博士。 主页:::,如何让智能体理解并挖掘 3D 场景中可交互的部位(Affordance)对于机器人操作与人机交互至关重要。 所谓 3D Affordance Learning,就是希望模型能够根据视觉和语言线索,自动推理出物体可供哪些操作、以及可交互区域的空间位置,从而为机器人或人工智能系统提供对物体潜在操作方式的理解。
4/10/2025 4:20:00 PM
机器之心
铰链物体的通用世界模型,超越扩散方法,入选CVPR 2025
基于当前观察,预测铰链物体的的运动,尤其是 part-level 级别的运动,是实现世界模型的关键一步。 尽管现在基于 diffusion 的方法取得了很多进展,但是这些方法存在处理效率低,同时缺乏三维感知等问题,难以投入真实环境中使用。 清华大学联合北京大学提出了第一个基于重建模型的 part-level 运动的建模——PartRM。
4/7/2025 1:10:00 PM
机器之心
CVPR 2025 | GaussianCity: 60倍加速,让3D城市瞬间生成
想象一下,一座生机勃勃的 3D 城市在你眼前瞬间成型 —— 没有漫长的计算,没有庞大的存储需求,只有极速的生成和惊人的细节。 然而,现实却远非如此。 现有的 3D 城市生成方法,如基于 NeRF 的 CityDreamer [1],虽然能够生成逼真的城市场景,但渲染速度较慢,难以满足游戏、虚拟现实和自动驾驶模拟对实时性的需求。
4/5/2025 5:07:00 PM
机器之心
CVPR 2025 | EmoEdit:情感可编辑?深大VCC带你见证魔法!
EmoEdit 由深圳大学可视计算研究中心黄惠教授课题组完成,第一作者为杨景媛助理教授。 深圳大学可视计算研究中心(VCC)以计算机图形学、计算机视觉、人机交互、机器学习、具身智能、可视化和可视分析为学科基础,致力前沿探索与跨学科创新。 中心主任黄惠为深圳大学讲席教授、计算机学科带头人、计算机与软件学院院长。
3/30/2025 5:11:00 PM
机器之心
CVPR 2025高分论文:从照片重建3D矢量,告别模糊渲染,重建边缘更清晰
三维高斯泼溅(3D Gaussian Splatting, 3DGS)技术基于高斯分布的概率模型叠加来表征场景,但其重建结果在几何和纹理边界处往往存在模糊问题。 这种模糊效应会随着重建过程中不确定性的累积而愈发显著。 如图 1 所示,通过提高渲染分辨率可以明显观察到这种边界模糊现象。
3/29/2025 8:11:00 PM
机器之心
CVPR 2025 | Qwen让AI「看见」三维世界,SeeGround实现零样本开放词汇3D视觉定位
3D 视觉定位(3D Visual Grounding, 3DVG)是智能体理解和交互三维世界的重要任务,旨在让 AI 根据自然语言描述在 3D 场景中找到指定物体。 具体而言,给定一个 3D 场景和一段文本描述,模型需要准确预测目标物体的 3D 位置,并以 3D 包围框的形式输出。 相比于传统的目标检测任务,3DVG 需要同时理解文本、视觉和空间信息,挑战性更高。
3/24/2025 1:06:00 PM
机器之心
CVPR 2025 高分论文 | 单图秒变3D真人!IDOL技术开启数字分身新时代
在虚拟现实、游戏以及 3D 内容创作领域,从单张图像重建高保真且可动画的全身 3D 人体一直是一个极具挑战性的问题:人体多样性、姿势复杂性、数据稀缺性等等。 终于,近期由来自南京大学、中科院、清华大学、腾讯等机构的联合研究团队,提出一个名为 IDOL 的全新解决方案,高分拿下 2025 CVPR。 项目主页目前访问次数已超 2500 次,且是可商用的 MIT 开源协议,备受业界瞩目。
3/22/2025 8:59:00 PM
机器之心
CVPR 2025|复旦&微软开源StableAnimator: 首个端到端ID一致性人类视频生成,Github Star破千
第一作者、第二作者分别为复旦大学研究生涂树源、邢桢,通讯作者为复旦大学吴祖煊副教授。 近年来,扩散模型在图像与视频合成领域展现出强大能力,为图像动画技术的发展带来了新的契机。 特别是在人物图像动画方面,该技术能够基于一系列预设姿态驱动参考图像,使其动态化,从而生成高度可控的人体动画视频。
3/19/2025 5:36:00 PM
机器之心
没有归一化层的Transformer!刘壮带队,何恺明、Yann LeCun都参与了
何恺明又双叒叕发新作了,这次还是与图灵奖得主 Yann LeCun 合作。 这项研究的主题是没有归一化层的 Transformer(Transformers without Normalization),并已被 CVPR 2025 会议接收。 Meta FAIR 研究科学家刘壮的推文过去十年,归一化层已经巩固了其作为现代神经网络最基本组件之一的地位。
3/14/2025 3:54:00 PM
机器之心
CVPR 2025 | VAST和北航开源MIDI,从单张图像端到端生成三维组合场景
本文的主要作者来自 VAST、北京航空航天大学、清华大学和香港大学。 本文的第一作者为北京航空航天大学硕士生黄泽桓,主要研究方向为生成式人工智能和三维视觉。 本文的通讯作者为 VAST 首席科学家曹炎培和北京航空航天大学副教授盛律。
3/14/2025 11:55:00 AM
机器之心
CVPR 2025|北大开源多模态驱动的定制化漫画生成框架DiffSensei,还有4.3万页漫画数据集
随着生成式人工智能技术(AIGC)的突破,文本到图像模型在故事可视化领域展现出巨大潜力,但在多角色场景中仍面临角色一致性差、布局控制难、动态叙事不足等挑战。 为此,北京大学、上海人工智能实验室、南洋理工大学联合推出 DiffSensei,首个结合多模态大语言模型(MLLM)与扩散模型的定制化漫画生成框架。 论文地址: 仓库: - - ,实现了对多角色外观、表情、动作的精确控制,并支持对话布局的灵活编码。
3/7/2025 12:48:00 PM
机器之心
CVPR 2025有作者用AI生成审稿意见,被发现了,论文也被拒了
有人用 LLM 来审查有关 LLM 的论文? 这个星期,每个 AI 研究组都在焦急地等待全球顶会 CVPR 2025 放榜。 AI 领域的热度一年比一年高,今年的审稿工作也是时间紧,任务重。
2/27/2025 4:05:00 PM
机器之心
- 1
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
DeepSeek
AI绘画
数据
机器人
谷歌
模型
大模型
Midjourney
智能
用户
学习
开源
GPT
微软
Meta
AI创作
图像
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
生成式
芯片
代码
英伟达
腾讯
神经网络
计算
研究
Sora
AI for Science
3D
Anthropic
AI设计
机器学习
GPU
开发者
场景
华为
预测
伟达
Transformer
百度
苹果
深度学习
AI视频
模态
人形机器人
xAI
驾驶
字节跳动
文本
搜索
大语言模型
Claude
Copilot
具身智能
神器推荐
LLaMA
算力
安全
应用
视频生成
科技
视觉
亚马逊
干货合集
2024
AGI
特斯拉
训练
大型语言模型