3D

解放人工标注！理想多模态框架UniPLV：开放3D场景理解新SOTA

写在前面 & 笔者的个人理解开放世界的3D场景理解旨在从点云等3D数据中识别和区分开放世界的对象和类别，而无需人工标注。这对于真实世界的应用，如自动驾驶和虚拟现实等至关重要。传统的依赖人工标注的闭集识别方法无法满足开放世界识别的挑战，尤其3D语义标注，非常耗费人力和物力。

1/7/2025 9:11:07 AM

Yuru Wang等

OpenAI最大秘密，竟被中国研究者破解？复旦等惊人揭秘o1路线图

就在今天，国内的一篇论文，引得全球AI学者震惊不已。推上多位网友表示，OpenAI o1和o3模型背后究竟是何原理——这一未解之谜，被中国研究者「发现」了！注：作者是对如何逼近此类模型进行了理论分析，并未声称已经「破解」了这个问题实际上，在这篇长达51页的论文中，来自复旦大学等机构的研究人员，从强化学习的角度分析了实现o1的路线图。

1/6/2025 8:30:00 AM

新智元

InfiniCube：来自英伟达的高保真度高可控大规模动态3D驾驶场景生成方法

本文经3D视觉之心公众号授权转载，转载请联系出处。 InfiniCube: Unbounded and Controllable Dynamic 3D Driving Scene Generation with World-Guided Video Models介绍：：是由英伟达主导开发的一种新型3D生成方法，用于生成无界且可控制的动态3D驾驶场景。 InfiniCube 通过结合高清地图、车辆边界框和文本描述，利用最新的3D表示和视频模型技术，实现了大规模动态场景的生成。

1/3/2025 10:00:00 AM

ADFeed

大规模3D场景2分钟生成，效率提升30倍！中科院发布空间智能新框架

「空间智能」和「世界模型」是最近学术界和产业界非常火热的研究方向，走向虚实结合、模拟世界机理的关键一步，就是创造出一个生动的虚拟世界。然而，想要打造丰富多样、充满细节，同时具备高度可编辑性和物理真实性的3D虚拟世界，仍然困难重重。为了解决这些难题，来自中国科学院自动化研究所和北京科技大学的联合团队，首次提出了一种全新的3D场景生成框架SceneX，只需简单的文字描述，就能快速生成高质量的3D虚拟场景。

1/2/2025 12:22:09 PM

新智元

3D世界的新视角：以Object为中心的占用补全技术（港中文&小米）

写在前面 && 笔者理解传统的感知主要采用3D对象边界框（bboxes）来表征感知，但是这样的表示其实是有局限性的，它无法捕捉物体形状的精确细节，特别是对于具有不规则几何形状的物体，因为它本质上是一个包含物体的长方体。比如下图1(a)所示，起重机被一个3D边界框完美包围。但是，其相对于驾驶室的长突出部分在3D边界框内产生了大量未占用的空间。

12/24/2024 9:56:51 AM

自动驾驶之心

全球首个AI圣彼得大教堂上线，40万照片毫米级3D还原文艺复兴巅峰！

不用排队、不用签证，现在只需打开屏幕，就能探索圣彼得大教堂的一切——从壮美的圆顶到鲜有人见的教皇墓地，全方位感受这座文艺复兴与巴洛克建筑巅峰之作的震撼。梵蒂冈联手Iconem和微软，仅用不到一个月的时间，就打造了这座教堂的数字双胞胎，并推出沉浸式展览和互动网站——La Basilica di San Pietro（意大利语：圣彼得大教堂）。探索地址：，圣彼得大教堂见证了米开朗基罗与贝尔尼尼的建筑天才。

12/23/2024 10:50:00 AM

新智元

闭环仿真日新月异的今天，如何紧跟节奏？自动驾驶3DGS最新综述！

写在前面NeRF技术兴起于2020年，自此掀起了三维重建领域新一轮的革新风暴。三年时间飞逝，新的算法和改进层出不穷，其视觉质量逐步提高突破。并且在该技术的支持下，许多领域都取得了突破性的成果。

12/13/2024 10:20:00 AM

自动驾驶之心

首个VR端3D角色扮演AI发布！南洋理工公开SOLAMI技术报告，端到端VLA模型驱动，唱跳都能陪你玩

世界上第一个VR端 3D版的角色扮演AI就在刚刚诞生了！ AI角色扮演类游戏（如C.AI、Talkie）从发布以来，一直都是人们最喜欢的AI产品之一。虽然广受欢迎，但不少用户提出，期待和这些角色在VR中有更进一步的交流。

12/9/2024 2:30:00 PM

新智元

北大王选最新OpenAD！助力自动驾驶迈向开放3D世界

写在前面 & 笔者的个人理解开放世界自动驾驶包括域泛化和开放词汇。领域泛化是指自动驾驶系统在不同场景和传感器参数配置下的能力。开放词汇是指识别训练中没有遇到的各种语义类别的能力。

12/4/2024 10:00:00 AM

自动驾驶之心

3个月估值10亿，李飞飞空间智能首个模型诞生！一张图生成3D世界，视频游戏要变天

AI生成3D世界成真了！就在刚刚，AI教母李飞飞创立的World Labs首次官宣「空间智能」模型，一张图，即可生成一个3D世界。用李飞飞的话说，「无论怎样理论化这个想法，都很难用语言描述一张照片或一句话生成3D场景的互动体验。

12/3/2024 3:47:00 PM

新智元

李飞飞「世界实验室」重磅推出 AI“造物主”：一张图片生成 3D 世界“任意门”

刚刚斯坦福大学的李飞飞教授宣布，她带领的World Labs团队推出一个能从单张图片生成 3D 世界的 AI 系统！不是简单的 3D 建模，而是真正可以交互的 3D 物理场景！ 3D场景在浏览器里就能实时渲染，还能用WASD键和鼠标自由控制视角，就像玩游戏一样！

12/3/2024 10:15:00 AM

准确、快速地从头预测RNA 3D结构，港中大、复旦等深度学习方法RhoFold+登Nature子刊

编辑 | KXRNA 分子在分子生物学中心法则中起关键作用，RNA 结构如何影响基因调控和功能一直是研究的热门话题。准确预测 RNA 三维 (3D) 结构仍是一个难题。 RNA 的结构灵活性导致实验确定的数据稀缺，从而使计算预测工作变得复杂。

11/29/2024 11:54:00 AM

ScienceAI

Babylon.js：如何与3D场景中的物体交互？

图片开发棋类游戏，需要实现鼠标控制棋子的功能，使得游戏能够将鼠标在屏幕上的位置准确地映射到棋盘上的对应落子点。如果开发的是2D游戏的话，实现就比较简单，鼠标屏幕坐标和棋盘都是二维平面。就像下图围棋所示，可以根据xy坐标表示鼠标的位置，同时围棋落子点的坐标也可以计算得出xy坐标，这样很轻松地就能实现鼠标位置和围棋落子点坐标的映射和距离比较。

11/26/2024 7:40:44 AM

一点鑫得

AI解锁500多年的圣殿，米开朗基罗杰作，你我触手可及

AI好好用报道编辑：Sia有了AI ，咱就更能理解什么是：条条大路通罗马。活久见!就连世界六分之一人口的信仰中心、「文化瑰宝」——梵蒂冈也开始 AI 了！要知道，教皇弗朗西斯一直呼吁警惕人工智能风险，本人也被 AI 恶搞过。

11/13/2024 4:06:00 PM

AI好好用

腾讯混元宣布大语言模型和3D模型正式开源

腾讯混元大模型正在加快开源步伐。 11月5日，腾讯混元宣布最新的MoE模型“混元Large“以及混元3D生成大模型“ Hunyuan3D-1.0”正式开源，支持企业及开发者精调、部署等不同场景的使用需求，可在HuggingFace、Github等技术社区直接下载，免费可商用。本次开源是腾讯混元继文生图模型后持续开放的一大举措。

11/6/2024 9:47:00 AM

腾讯混元开源 Hunyuan3D-1.0：首个同时支持文生和图生的 3D 开源大模型

腾讯混元今日开源了 Hunyuan3D-1.0 大模型，官方称这是首个同时支持文生和图生的 3D 开源大模型。 ▲ 文生模型▲ 图生模型模型采用两阶段生成方法，官方表示在保证质量和可控的基础上，10 秒即可生成 3D 资产：第一阶段，团队采用了一种多视角扩散模型，轻量版模型能够在大约 4 秒内生成多视角图像。这些多视角图像从不同的视角捕捉了 3D 资产的丰富的纹理和几何先验，将任务从单视角重建松弛到多视角重建第二阶段，团队引入了一种前馈重建模型，利用上一阶段生成的多视角图像。

11/5/2024 6:44:21 PM

沛霖（实习）

索尼 PlayStation 将使用更多 AI 技术，实现游戏开发降本增效

据 Insider Gaming 28 日报道，在索尼公司本月发布的《2024 年企业报告》中，索尼提出了未来的愿景 —— 要成为一家适应社会变革和技术发展的娱乐公司，AI 和机器学习将在 PlayStation 发挥核心作用，尤其是在游戏领域。报告举例说，在《漫威蜘蛛侠 2》的制作过程中，工作人员就使用了语音识别软件来自动同步字幕和人物对话，大大缩短了开发过程。据了解，索尼的目标是在不影响质量的前提下加快流程、降低成本，为此还计划将实时 3D 处理和传感器技术等技术整合到游戏开发中。“今后，我们计划在集团内跨职能

9/30/2024 11:03:38 PM

清源

单图就能解锁全景视角，北大 / 港中文 / 腾讯等推出 ViewCrafter 开源项目

随便给张图就能从更多视角查看全景了？！话不多说，先看一波效果，单视角输入 be like：难度升级，接下来换成双视角，看起来衔接也非常丝滑。以上来自 ViewCrafter，由北大、港中文、腾讯等机构的研究人员提出，可以从单张或稀疏输入图像生成精确相机可控的新视角视频。还支持场景级文生 3D、图生 3D、以及稀疏视角重建等应用。目前论文和代码均已开源，并提供了在线 Huggingface demo 供用户使用。ViewCrafter：一种新视角生成方法传统的新视角生成方法，如 NeRF 和 3D-GS 等技术，存在

9/18/2024 4:01:54 PM

汪淼

资讯热榜

Manus开源平替！Kortix-AI正式发布开源通用AI智能体平台Suna AI视频资讯早读！7个产品更新+8个案例精选纳米AI发布MCP万能工具箱，简化AI工具集成与调用即梦3.0海外版发布，电影级视觉与精准英文排版引领AI创作新高度 DeepWiki：AI驱动的GitHub代码库百科全书正式亮相 OpenAI发布gpt-image-1 API，4o图像生成能力正式开放腾讯混元3D AI引擎2.5即将揭晓，3D生成技术再升级白板+代码编辑器组合工具pad.ws：开发者可在同一界面画图编程，实现边画边写代码

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据机器人模型谷歌大模型 Midjourney 智能开源用户学习 GPT 微软 Meta 图像 AI创作技术论文 Stable Diffusion Gemini 马斯克算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Anthropic Sora 3D AI for Science AI设计机器学习 GPU 开发者 AI视频场景华为预测人形机器人百度苹果伟达 Transformer 深度学习 xAI 模态字节跳动大语言模型 Claude 搜索驾驶神器推荐文本具身智能 Copilot LLaMA 算力安全视觉视频生成干货合集应用训练大型语言模型科技亚马逊特斯拉 AGI DeepMind

3D

解放人工标注！理想多模态框架UniPLV：开放3D场景理解新SOTA

OpenAI最大秘密，竟被中国研究者破解？复旦等惊人揭秘o1路线图

InfiniCube：来自英伟达的高保真度高可控大规模动态3D驾驶场景生成方法

大规模3D场景2分钟生成，效率提升30倍！中科院发布空间智能新框架

3D世界的新视角：以Object为中心的占用补全技术（港中文&小米）

全球首个AI圣彼得大教堂上线，40万照片毫米级3D还原文艺复兴巅峰！

闭环仿真日新月异的今天，如何紧跟节奏？自动驾驶3DGS最新综述！

首个VR端3D角色扮演AI发布！南洋理工公开SOLAMI技术报告，端到端VLA模型驱动，唱跳都能陪你玩

北大王选最新OpenAD！助力自动驾驶迈向开放3D世界

3个月估值10亿，李飞飞空间智能首个模型诞生！一张图生成3D世界，视频游戏要变天

李飞飞「世界实验室」重磅推出 AI“造物主”：一张图片生成 3D 世界“任意门”

准确、快速地从头预测RNA 3D结构，港中大、复旦等深度学习方法RhoFold+登Nature子刊

Babylon.js：如何与3D场景中的物体交互？

AI解锁500多年的圣殿，米开朗基罗杰作，你我触手可及

腾讯混元宣布大语言模型和3D模型正式开源 ​

腾讯混元开源 Hunyuan3D-1.0：首个同时支持文生和图生的 3D 开源大模型

索尼 PlayStation 将使用更多 AI 技术，实现游戏开发降本增效

单图就能解锁全景视角，北大 / 港中文 / 腾讯等推出 ViewCrafter 开源项目

腾讯混元宣布大语言模型和3D模型正式开源