AI在线 AI在线

3D

Llama 4重测竞技场排名大跳水,网友:社区很难再信任Meta了

Llama 4被曝在大模型竞技场作弊后,重新上架了非特供版模型。 但是你很可能没发现它。 因为排名一下子从第2掉到了第32,要往下翻好久才能看到。
4/13/2025 5:04:23 PM
量子位

孪生世界动态仿真新突破!北大发布RainyGS:降雨/洪涝/风速精准可控

神经辐射场(NeRF)及三维高斯泼溅(3D Gaussian Splatting,3DGS)虽能构建静态数字孪生,却无法模拟真实世界的动态,不仅限制了虚拟现实和混合现实的真实感,也是智能训练与Real2Sim2Real范式突破的关键瓶颈。 如何让数字孪生世界具备真实物理规律,实现可预测、可操控的动态环境,是自动驾驶、具身智能等空间智能应用亟待解决的核心挑战。 为此,北京大学陈宝权教授研究团队提出RainyGS技术(合作者为楚梦渝、陈文拯助理教授,博士生戴启宇、倪星宇和本科生沈千帆),探索了一条通向「孪生世界动态仿真」的新路径。
4/9/2025 1:25:34 PM
新智元

CVPR 2025 HighLight|打通视频到3D的最后一公里,清华团队推出一键式视频扩散模型VideoScene

论文有两位共同一作。 汪晗阳,清华大学计算机系本科四年级,研究方向为三维视觉、生成模型,已在CVPR、ECCV、NeurIPS等会议发表论文。 刘芳甫,清华大学电子工程系直博二年级,研究方向为生成模型 (3D AIGC和Video Generation等),已在CVPR、ECCV、NeurIPS、ICLR、KDD等计算机视觉与人工智能顶会发表过多篇论文。
4/9/2025 1:11:27 PM
机器之心

单张照片生成360°3D场景,支持灵活视角漫游|人大&北师大&字节

从单张图像生成灵活视角3D场景的技术来了,在考古保护、自主导航等直接获取3D数据成本高昂或不可行的领域具有重要应用价值。 这一任务本质上是高度不适定的:单一的2D图像无法提供足够的信息来消除完整3D结构的歧义,尤其是在极端视角(如180°旋转)下,先前被遮挡或缺失的内容可能会引入显著的不确定性。 生成模型,特别是扩散模型,为解决这一问题提供了一种潜在的技术路径。
3/31/2025 8:27:00 AM
量子位

纯RGB输入,解决户外场景SLAM!误差降低至9.8%,港科广开源 | ICRA 2025

在自主驾驶、机器人导航、AR/VR等前沿应用中,Simultaneous Localization and Mapping (SLAM) 是核心技术之一。 现有基于3D高斯分布(3DGS)的SLAM方法虽在室内场景表现出色,但使用仅RGB输入来处理无界的户外场景仍然面临挑战:准确的深度和尺度估计困难,这影响了姿态精度和3DGS初始化图像重叠有限且视角单一,缺乏有效的约束,导致训练难以收敛为了解决上述挑战,港科广团队提出全新解决方案OpenGS-SLAM,仅凭RGB图像实现高精度定位与逼真场景重建。 论文链接:::,该方法采用了一个点图回归网络来生成帧间一致的点图,储存了来自多个标准视角的3D结构,包含了视角关系、2D到3D的对应关系和场景几何信息,使得相机位姿估计更加稳健,有效缓解了预训练深度网络的误差问题。
3/27/2025 10:54:06 AM
新智元

Stable Diffusion变身3D神器!一个LoRA将2D图像转3D模型

在Stable Diffusion当中,只需加入一个LoRA就能根据图像创建3D模型了? 港科大(广州)与趣丸科技合作推出了全新三维生成大模型——Kiss3DGen,创新性地将3D生成与成熟的图像生成模型进行了对齐。 并且与主流2D扩散模型技术(如ControlNet、Flux-Redux)兼容协同,无需额外训练即可即插即用。
3/27/2025 9:26:30 AM
量子位

腾讯把AI生3D玩明白了,一口气开源两款模型,消费级显卡可跑!明天还有重磅开源!

出品 | 51CTO技术栈(微信号:blog51cto)Hunyuan3D 2.0上线后就好评不断。 该家族又在今天的开源日中迎来了重磅的新成员——Hunyuan 3D-2mini以及Hunyuan 3D-2mv!今天腾讯的演示中,感觉他们真的把AI生3D玩明白了,真的能用AI重构游戏行业。 不愧是腾讯,手握众多王牌游戏就是有经验啊!
3/18/2025 2:17:57 PM

0行代码打造3D游戏,氛围编码席卷全网!开发30分爆赚28万

用「vide coding」制作3D游戏正在成为一股新风潮。 从大V到普通网友,越来越多人加入到了这场狂欢之中。 资深软件工程师Grégory D'Angelo上传了一段他vide coding出来的游戏视频。
3/17/2025 9:27:45 AM
新智元

CVPR2025最新!探索3D场景推理问答新高度:双视觉感知网络

0.背景信息在人工智能的前沿领域,3D场景问答(3D QA)正在成为视觉与语言理解的关键挑战。 相比于传统的2D视觉问答(VQA),3D QA需要模型不仅能够感知复杂的三维空间结构,还要理解语言描述与场景之间的关系。 然而,目前的3D QA方法大多依赖于3D点云数据,而忽视了多视角图像提供的丰富局部纹理信息,这使得模型在面对小型、扁平物体时表现受限。
3/14/2025 10:26:58 AM
Jingzhou Luo等

MegaSynth:用70万合成数据突破3D场景重建瓶颈,PSNR提升1.8dB!

一眼概览MegaSynth 提出了一种基于非语义合成数据的大规模 3D 场景重建方法,生成 70 万个合成场景数据集,训练大型重建模型(LRMs),相比使用真实数据训练的模型,PSNR 提升 1.2~1.8 dB,显著增强 3D 场景重建的广覆盖能力。 核心问题当前 3D 场景重建方法受限于:数据规模受限:现有真实数据集 DL3DV 仅 10K 场景,远小于物体级数据集(如 Objaverse 80 万个实例)。 数据分布不理想:现有数据集多为人工采集,难以确保场景多样性,摄像机运动范围受限,且可能包含噪声和不精确标注。
3/6/2025 12:15:00 AM
萍哥学AI

​全新技术 Fast3R :实现千张图片一键3D 重建,速度惊人!

在计算机视觉领域,多视角3D 重建一直是一项重要且具挑战性的任务,尤其是在需要精确且可扩展的表示时。 现有的主流方法,例如 DUSt3R,主要采用成对处理的方式,这种方法在进行多视角重建时需要复杂的全局对齐程序,既耗时又耗力。 为了解决这一问题,研究团队提出了 Fast3R,这是一种创新的多视角重建技术,它可以在一次前向传播中处理多达1500张图片,大幅提升了重建速度。
3/5/2025 1:57:00 PM
AI在线

颠覆城市建模!AI生成3D城市模型GaussianCity,生成速度提升 60 倍!

南洋理工大学研究团第一项名为“GaussianCity”的超大规模3D城市模型生成技术引发了不少关注,这款由研究团队开发的全新框架,不仅在生成速度上实现了惊人的60倍提升,还突破了传统方法在规模上的限制,支持无边界的3D城市生成。 这一技术成果已被CVPR2025(计算机视觉与模式识别顶级会议)接收,成为虚拟现实、自动驾驶和数字孪生领域的重大突破。 据了解,GaussianCity在生成无人机视角和街道视角的3D城市模型方面达到了最先进的水平。
3/4/2025 11:37:00 AM
AI在线

Zero-shot重建物理高斯资产,清华&光轮视觉大模型让机器人理解物理属性|ICRA 2025

理解物体的物理属性,对机器人执行操作十分重要,但是应该如何实现呢? 光轮智能与清华AIR、同济大学等机构联合提出了一种基于3D高斯溅射的方法——PUGS(Zero-shot Physical Understandingwith Gaussian Splatting)无需训练、零样本,它就能够从多视角图像中重建物体,并对各种指定的物理属性进行密集重建。 该论文已被ICRA 2025接收。
2/24/2025 2:22:00 PM
量子位

魔发奇缘,3D发型生成新突破!TANGLED:可用任意样式和视点的图像生成 3D 发束

在数字时代,发型不仅是时尚的标志,更是个人文化身份的彰显。 但传统3D发型生成技术往往难以捕捉复杂发型的细腻之美。 为此,上海科技大学和华中科技大学推出了ANGLED技术,能从任意风格、视角的图像中,轻松生成逼真3D发型。
2/24/2025 10:40:00 AM
AIGC Studio

剧本自动生成3D动画!北航中大等提出新方法,破解多人交互难题 | ICLR 2025

设定一个3D场景,你便可以用文字编织你的剧情。 一句话,就能让两个人激烈争吵。 吵完之后,又温馨共舞起来~想怎么排就怎么排,就像影视拍摄或舞台剧的编排一样,只需在剧本中设定角色的行动、互动和环境要素,就能自动生成符合逻辑的3D角色动画,让你的剧情真正“动”起来。
2/21/2025 9:35:00 AM
量子位

英伟达黑科技登场!RTX神经纹理压缩,显存用量狂减96%

在显卡技术不断迭代的当下,NVIDIA再次凭借其前沿创新,吸引了全球科技爱好者的目光。 RTX神经纹理压缩(NTC)技术在beta测试演示中的表现,堪称惊艳。 它成功地将3D应用中的内存纹理占用大幅降低,最高降幅可达96%,为图形处理领域带来了全新的变革可能。
2/14/2025 9:30:00 AM
新智元

Diffusion-SS3D:用扩散去噪革新半监督3D检测,伪标签更准,mAP提升6%!

一眼概览SemCity 是一种 基于三平面扩散(Triplane Diffusion) 的 3D 语义场景生成模型,能够在 真实户外环境 中进行 场景生成、语义补全、场景扩展(Outpainting)和修补(Inpainting),并在 SemanticKITTI 数据集 上显著提升生成质量。 核心问题背景问题:当前 3D 扩散模型大多专注于 单个物体 或 室内合成场景,对于 真实户外场景 仍然缺乏研究。 此外,户外数据由于传感器局限性(空白区域较多),导致模型难以学习 完整的三维语义分布。
2/14/2025 9:02:19 AM
萍哥学AI

StochSync:可在任意空间中生成高质量360°全景图和3D网格纹理

本文经AIGC Studio公众号授权转载,转载请联系出处。 StochSync方法可以用于在任意空间中生成图像,尤其是360°全景图和3D网格纹理。 该方法利用了预训练的图像扩散模型,以实现zero-shot生成,消除了对新数据收集和单独训练生成模型的需求。
2/8/2025 9:23:08 AM
AIGC Studio