3D
理想汽车提出3DRealCar:首个大规模3D真实汽车数据集!
本文经AIGC Studio公众号授权转载,转载请联系出处。 理想提出3DRealCar,这是第一个大规模 3D 实车数据集,包含 2500 辆在真实场景中拍摄的汽车。 3DRealCar的目标是可以成为促进汽车相关任务的宝贵资源。
单图秒变3D对象,还可交互实时编辑!Stability AI中科大校友新作
近日,Stability AI发布消息,公开3D重建新方法SPAR3D的设计原理、代码、模型权重等。 SPAR3D可在一秒内从单张图像生成3D物体的完整结构并且可以实时编辑。 文章亮点:新方法SPAR3D实现了实时编辑,在不到一秒内可从单图完成3D对象的结构生成。
大步迈向VLA!港中文GPT4Scene:从视频中理解3D场景~
写在前面&笔者的个人理解具身人工智能是指能够通过与物理环境交互来执行各种任务的智能系统。 它在工业检测、智能家居和智能城市中有着广泛的应用和发展前景。 3D 场景理解涉及多模态语言模型理解室内环境整体布局和物体之间空间关系的能力。
3D虚拟试穿来了,上大、腾讯等提出ClotheDreamer,数字人也能实现穿,脱衣自由!
今天,给大家介绍上大、腾讯等提出的3D服装合成新方法ClotheDreamer,它以其革命性的能力,从简单的文本提示直接生成高保真、可穿戴的3D服装资产,正在重塑电商与空间计算领域的未来。 数字人也能实现穿、脱衣自由了!相关链接论文阅读::(即将开源)项目地址: 3D 服装对于数字化身创建来说既是理想的也是具有挑战性的。 最近基于扩散的分数蒸馏采样 (SDS) 方法已经实现了新的可能性,但要么与人体错综复杂地耦合,要么难以重复使用。
3D数字人生成来了!南洋理工提出StructLDM:高质量可控3D生成并支持编辑
三维数字人生成和编辑在数字孪生、元宇宙、游戏、全息通讯等领域有广泛应用。 传统三维数字人制作往往费时耗力,近年来研究者提出基于三维生成对抗网络(3D GAN)从 2D 图像中学习三维数字人,极大提高了数字人制作效率。 这些方法往往在一维隐向量空间建模数字人,而一维隐向量无法表征人体的几何结构和语义信息,因此限制了其生成质量和编辑能力。
3D服装生成新SOTA!谷歌和CMU提出FabricDiffusion:可将织物纹理从单个图像迁移到3D服装
本文经AIGC Studio公众号授权转载,转载请联系出处。 3D服装生成新工作! 谷歌和CMU提出FabricDiffusion:一种将织物纹理从单个服装图像迁移到任意形状的 3D 服装的方法。
一秒内从单个图像生成3D对象,Stability AI推出3D生成新方法
2025 年来了,3D 生成也迎来了新突破。 刚刚,Stability AI 在 CES 上宣布为 3D 生成推出一种两阶段新方法 ——SPAR3D(Stable Point Aware 3D),旨在为游戏开发者、产品设计师和环境构建者开拓 3D 原型设计新方式。 无论是精致的艺术品,还是纹理复杂的日常用品,SPAR3D 都能提供精确的几何形状和完整的 360 度视图的详细预测,包括通常隐藏的区域(例如物体的背面):值得一提的是,SPAR3D 还引入了实时编辑功能,能在不到一秒的时间内从单个图像生成 3D 对象的完整结构。
2025 年来了,3D 生成也迎来了新突破
2025 年来了,3D 生成也迎来了新突破。 刚刚,Stability AI 在 CES 上宣布为 3D 生成推出一种两阶段新方法 ——SPAR3D(Stable Point Aware 3D),旨在为游戏开发者、产品设计师和环境构建者开拓 3D 原型设计新方式。 无论是精致的艺术品,还是纹理复杂的日常用品,SPAR3D 都能提供精确的几何形状和完整的 360 度视图的详细预测,包括通常隐藏的区域(例如物体的背面):值得一提的是,SPAR3D 还引入了实时编辑功能,能在不到一秒的时间内从单个图像生成 3D 对象的完整结构。
单幅图像合成 360° 3D场景的新方法:PanoDreamer,可同时生成全景图像和相应的深度信息。
论文介绍了一种从单幅图像合成 360° 3D 场景的新方法。 该方法以连贯的方式生成全景图及其相应的深度,解决了现有最先进方法(如 LucidDreamer 和 WonderJourney 的局限性。 这些方法按照生成轨迹依次添加细节,通常在循环回输入图像时导致可见的接缝。
解放人工标注!理想多模态框架UniPLV:开放3D场景理解新SOTA
写在前面 & 笔者的个人理解开放世界的3D场景理解旨在从点云等3D数据中识别和区分开放世界的对象和类别,而无需人工标注。 这对于真实世界的应用,如自动驾驶和虚拟现实等至关重要。 传统的依赖人工标注的闭集识别方法无法满足开放世界识别的挑战,尤其3D语义标注,非常耗费人力和物力。
OpenAI最大秘密,竟被中国研究者破解?复旦等惊人揭秘o1路线图
就在今天,国内的一篇论文,引得全球AI学者震惊不已。 推上多位网友表示,OpenAI o1和o3模型背后究竟是何原理——这一未解之谜,被中国研究者「发现」了! 注:作者是对如何逼近此类模型进行了理论分析,并未声称已经「破解」了这个问题实际上,在这篇长达51页的论文中,来自复旦大学等机构的研究人员,从强化学习的角度分析了实现o1的路线图。
InfiniCube:来自英伟达的高保真度高可控大规模动态3D驾驶场景生成方法
本文经3D视觉之心公众号授权转载,转载请联系出处。 InfiniCube: Unbounded and Controllable Dynamic 3D Driving Scene Generation with World-Guided Video Models介绍:: 是由英伟达主导开发的一种新型3D生成方法,用于生成无界且可控制的动态3D驾驶场景。 InfiniCube 通过结合高清地图、车辆边界框和文本描述,利用最新的3D表示和视频模型技术,实现了大规模动态场景的生成。
大规模3D场景2分钟生成,效率提升30倍!中科院发布空间智能新框架
「空间智能」和「世界模型」是最近学术界和产业界非常火热的研究方向,走向虚实结合、模拟世界机理的关键一步,就是创造出一个生动的虚拟世界。 然而,想要打造丰富多样、充满细节,同时具备高度可编辑性和物理真实性的3D虚拟世界,仍然困难重重。 为了解决这些难题,来自中国科学院自动化研究所和北京科技大学的联合团队,首次提出了一种全新的3D场景生成框架SceneX,只需简单的文字描述,就能快速生成高质量的3D虚拟场景。
3D世界的新视角:以Object为中心的占用补全技术(港中文&小米)
写在前面 && 笔者理解传统的感知主要采用3D对象边界框(bboxes)来表征感知,但是这样的表示其实是有局限性的,它无法捕捉物体形状的精确细节,特别是对于具有不规则几何形状的物体,因为它本质上是一个包含物体的长方体。 比如下图1(a)所示,起重机被一个3D边界框完美包围。 但是,其相对于驾驶室的长突出部分在3D边界框内产生了大量未占用的空间。
全球首个AI圣彼得大教堂上线,40万照片毫米级3D还原文艺复兴巅峰!
不用排队、不用签证,现在只需打开屏幕,就能探索圣彼得大教堂的一切——从壮美的圆顶到鲜有人见的教皇墓地,全方位感受这座文艺复兴与巴洛克建筑巅峰之作的震撼。 梵蒂冈联手Iconem和微软,仅用不到一个月的时间,就打造了这座教堂的数字双胞胎,并推出沉浸式展览和互动网站——La Basilica di San Pietro(意大利语:圣彼得大教堂)。 探索地址:,圣彼得大教堂见证了米开朗基罗与贝尔尼尼的建筑天才。
闭环仿真日新月异的今天,如何紧跟节奏?自动驾驶3DGS最新综述!
写在前面NeRF技术兴起于2020年,自此掀起了三维重建领域新一轮的革新风暴。 三年时间飞逝,新的算法和改进层出不穷,其视觉质量逐步提高突破。 并且在该技术的支持下,许多领域都取得了突破性的成果。
首个VR端3D角色扮演AI发布!南洋理工公开SOLAMI技术报告,端到端VLA模型驱动,唱跳都能陪你玩
世界上第一个VR端 3D版的角色扮演AI就在刚刚诞生了! AI角色扮演类游戏(如C.AI、Talkie)从发布以来,一直都是人们最喜欢的AI产品之一。 虽然广受欢迎,但不少用户提出,期待和这些角色在VR中有更进一步的交流。
北大王选最新OpenAD!助力自动驾驶迈向开放3D世界
写在前面 & 笔者的个人理解开放世界自动驾驶包括域泛化和开放词汇。 领域泛化是指自动驾驶系统在不同场景和传感器参数配置下的能力。 开放词汇是指识别训练中没有遇到的各种语义类别的能力。