3D

Llama 4重测竞技场排名大跳水，网友：社区很难再信任Meta了

Llama 4被曝在大模型竞技场作弊后，重新上架了非特供版模型。但是你很可能没发现它。因为排名一下子从第2掉到了第32，要往下翻好久才能看到。

4/13/2025 5:04:23 PM

量子位

孪生世界动态仿真新突破！北大发布RainyGS：降雨/洪涝/风速精准可控

神经辐射场（NeRF）及三维高斯泼溅（3D Gaussian Splatting，3DGS）虽能构建静态数字孪生，却无法模拟真实世界的动态，不仅限制了虚拟现实和混合现实的真实感，也是智能训练与Real2Sim2Real范式突破的关键瓶颈。如何让数字孪生世界具备真实物理规律，实现可预测、可操控的动态环境，是自动驾驶、具身智能等空间智能应用亟待解决的核心挑战。为此，北京大学陈宝权教授研究团队提出RainyGS技术（合作者为楚梦渝、陈文拯助理教授，博士生戴启宇、倪星宇和本科生沈千帆），探索了一条通向「孪生世界动态仿真」的新路径。

4/9/2025 1:25:34 PM

新智元

CVPR 2025 HighLight｜打通视频到3D的最后一公里，清华团队推出一键式视频扩散模型VideoScene

论文有两位共同一作。汪晗阳，清华大学计算机系本科四年级，研究方向为三维视觉、生成模型，已在CVPR、ECCV、NeurIPS等会议发表论文。刘芳甫，清华大学电子工程系直博二年级，研究方向为生成模型 (3D AIGC和Video Generation等)，已在CVPR、ECCV、NeurIPS、ICLR、KDD等计算机视觉与人工智能顶会发表过多篇论文。

4/9/2025 1:11:27 PM

机器之心

单张照片生成360°3D场景，支持灵活视角漫游｜人大&北师大&字节

从单张图像生成灵活视角3D场景的技术来了，在考古保护、自主导航等直接获取3D数据成本高昂或不可行的领域具有重要应用价值。这一任务本质上是高度不适定的：单一的2D图像无法提供足够的信息来消除完整3D结构的歧义，尤其是在极端视角（如180°旋转）下，先前被遮挡或缺失的内容可能会引入显著的不确定性。生成模型，特别是扩散模型，为解决这一问题提供了一种潜在的技术路径。

3/31/2025 8:27:00 AM

量子位

纯RGB输入，解决户外场景SLAM！误差降低至9.8%，港科广开源 | ICRA 2025

在自主驾驶、机器人导航、AR/VR等前沿应用中，Simultaneous Localization and Mapping (SLAM) 是核心技术之一。现有基于3D高斯分布（3DGS）的SLAM方法虽在室内场景表现出色，但使用仅RGB输入来处理无界的户外场景仍然面临挑战：准确的深度和尺度估计困难，这影响了姿态精度和3DGS初始化图像重叠有限且视角单一，缺乏有效的约束，导致训练难以收敛为了解决上述挑战，港科广团队提出全新解决方案OpenGS-SLAM，仅凭RGB图像实现高精度定位与逼真场景重建。论文链接：：：，该方法采用了一个点图回归网络来生成帧间一致的点图，储存了来自多个标准视角的3D结构，包含了视角关系、2D到3D的对应关系和场景几何信息，使得相机位姿估计更加稳健，有效缓解了预训练深度网络的误差问题。

3/27/2025 10:54:06 AM

新智元

Stable Diffusion变身3D神器！一个LoRA将2D图像转3D模型

在Stable Diffusion当中，只需加入一个LoRA就能根据图像创建3D模型了？港科大（广州）与趣丸科技合作推出了全新三维生成大模型——Kiss3DGen，创新性地将3D生成与成熟的图像生成模型进行了对齐。并且与主流2D扩散模型技术（如ControlNet、Flux-Redux）兼容协同，无需额外训练即可即插即用。

3/27/2025 9:26:30 AM

量子位

腾讯把AI生3D玩明白了，一口气开源两款模型，消费级显卡可跑！明天还有重磅开源！

出品 | 51CTO技术栈（微信号：blog51cto）Hunyuan3D 2.0上线后就好评不断。该家族又在今天的开源日中迎来了重磅的新成员——Hunyuan 3D-2mini以及Hunyuan 3D-2mv!今天腾讯的演示中，感觉他们真的把AI生3D玩明白了，真的能用AI重构游戏行业。不愧是腾讯，手握众多王牌游戏就是有经验啊！

3/18/2025 2:17:57 PM

0行代码打造3D游戏，氛围编码席卷全网！开发30分爆赚28万

用「vide coding」制作3D游戏正在成为一股新风潮。从大V到普通网友，越来越多人加入到了这场狂欢之中。资深软件工程师Grégory D'Angelo上传了一段他vide coding出来的游戏视频。

3/17/2025 9:27:45 AM

新智元

CVPR2025最新！探索3D场景推理问答新高度：双视觉感知网络

0.背景信息在人工智能的前沿领域，3D场景问答（3D QA）正在成为视觉与语言理解的关键挑战。相比于传统的2D视觉问答（VQA），3D QA需要模型不仅能够感知复杂的三维空间结构，还要理解语言描述与场景之间的关系。然而，目前的3D QA方法大多依赖于3D点云数据，而忽视了多视角图像提供的丰富局部纹理信息，这使得模型在面对小型、扁平物体时表现受限。

3/14/2025 10:26:58 AM

Jingzhou Luo等

MegaSynth：用70万合成数据突破3D场景重建瓶颈，PSNR提升1.8dB！

一眼概览MegaSynth 提出了一种基于非语义合成数据的大规模 3D 场景重建方法，生成 70 万个合成场景数据集，训练大型重建模型（LRMs），相比使用真实数据训练的模型，PSNR 提升 1.2~1.8 dB，显著增强 3D 场景重建的广覆盖能力。核心问题当前 3D 场景重建方法受限于：数据规模受限：现有真实数据集 DL3DV 仅 10K 场景，远小于物体级数据集（如 Objaverse 80 万个实例）。数据分布不理想：现有数据集多为人工采集，难以确保场景多样性，摄像机运动范围受限，且可能包含噪声和不精确标注。

3/6/2025 12:15:00 AM

萍哥学AI

全新技术 Fast3R ：实现千张图片一键3D 重建，速度惊人!

在计算机视觉领域，多视角3D 重建一直是一项重要且具挑战性的任务，尤其是在需要精确且可扩展的表示时。现有的主流方法，例如 DUSt3R，主要采用成对处理的方式，这种方法在进行多视角重建时需要复杂的全局对齐程序，既耗时又耗力。为了解决这一问题，研究团队提出了 Fast3R，这是一种创新的多视角重建技术，它可以在一次前向传播中处理多达1500张图片，大幅提升了重建速度。

3/5/2025 1:57:00 PM

AI在线

颠覆城市建模！AI生成3D城市模型GaussianCity，生成速度提升 60 倍！

南洋理工大学研究团第一项名为“GaussianCity”的超大规模3D城市模型生成技术引发了不少关注，这款由研究团队开发的全新框架，不仅在生成速度上实现了惊人的60倍提升，还突破了传统方法在规模上的限制，支持无边界的3D城市生成。这一技术成果已被CVPR2025（计算机视觉与模式识别顶级会议）接收，成为虚拟现实、自动驾驶和数字孪生领域的重大突破。据了解，GaussianCity在生成无人机视角和街道视角的3D城市模型方面达到了最先进的水平。

3/4/2025 11:37:00 AM

AI在线

Zero-shot重建物理高斯资产，清华&光轮视觉大模型让机器人理解物理属性｜ICRA 2025

理解物体的物理属性，对机器人执行操作十分重要，但是应该如何实现呢？光轮智能与清华AIR、同济大学等机构联合提出了一种基于3D高斯溅射的方法——PUGS（Zero-shot Physical Understandingwith Gaussian Splatting）无需训练、零样本，它就能够从多视角图像中重建物体，并对各种指定的物理属性进行密集重建。该论文已被ICRA 2025接收。

2/24/2025 2:22:00 PM

量子位

魔发奇缘，3D发型生成新突破！TANGLED：可用任意样式和视点的图像生成 3D 发束

在数字时代，发型不仅是时尚的标志，更是个人文化身份的彰显。但传统3D发型生成技术往往难以捕捉复杂发型的细腻之美。为此，上海科技大学和华中科技大学推出了ANGLED技术，能从任意风格、视角的图像中，轻松生成逼真3D发型。

2/24/2025 10:40:00 AM

AIGC Studio

剧本自动生成3D动画！北航中大等提出新方法，破解多人交互难题 | ICLR 2025

设定一个3D场景，你便可以用文字编织你的剧情。一句话，就能让两个人激烈争吵。吵完之后，又温馨共舞起来~想怎么排就怎么排，就像影视拍摄或舞台剧的编排一样，只需在剧本中设定角色的行动、互动和环境要素，就能自动生成符合逻辑的3D角色动画，让你的剧情真正“动”起来。

2/21/2025 9:35:00 AM

量子位

英伟达黑科技登场！RTX神经纹理压缩，显存用量狂减96%

在显卡技术不断迭代的当下，NVIDIA再次凭借其前沿创新，吸引了全球科技爱好者的目光。 RTX神经纹理压缩（NTC）技术在beta测试演示中的表现，堪称惊艳。它成功地将3D应用中的内存纹理占用大幅降低，最高降幅可达96%，为图形处理领域带来了全新的变革可能。

2/14/2025 9:30:00 AM

新智元

Diffusion-SS3D：用扩散去噪革新半监督3D检测，伪标签更准，mAP提升6%！

一眼概览SemCity 是一种基于三平面扩散（Triplane Diffusion）的 3D 语义场景生成模型，能够在真实户外环境中进行场景生成、语义补全、场景扩展（Outpainting）和修补（Inpainting），并在 SemanticKITTI 数据集上显著提升生成质量。核心问题背景问题：当前 3D 扩散模型大多专注于单个物体或室内合成场景，对于真实户外场景仍然缺乏研究。此外，户外数据由于传感器局限性（空白区域较多），导致模型难以学习完整的三维语义分布。

2/14/2025 9:02:19 AM