3D
Llama 4重测竞技场排名大跳水,网友:社区很难再信任Meta了
Llama 4被曝在大模型竞技场作弊后,重新上架了非特供版模型。 但是你很可能没发现它。 因为排名一下子从第2掉到了第32,要往下翻好久才能看到。
4/13/2025 5:04:23 PM
量子位
孪生世界动态仿真新突破!北大发布RainyGS:降雨/洪涝/风速精准可控
神经辐射场(NeRF)及三维高斯泼溅(3D Gaussian Splatting,3DGS)虽能构建静态数字孪生,却无法模拟真实世界的动态,不仅限制了虚拟现实和混合现实的真实感,也是智能训练与Real2Sim2Real范式突破的关键瓶颈。 如何让数字孪生世界具备真实物理规律,实现可预测、可操控的动态环境,是自动驾驶、具身智能等空间智能应用亟待解决的核心挑战。 为此,北京大学陈宝权教授研究团队提出RainyGS技术(合作者为楚梦渝、陈文拯助理教授,博士生戴启宇、倪星宇和本科生沈千帆),探索了一条通向「孪生世界动态仿真」的新路径。
4/9/2025 1:25:34 PM
新智元
CVPR 2025 HighLight|打通视频到3D的最后一公里,清华团队推出一键式视频扩散模型VideoScene
论文有两位共同一作。 汪晗阳,清华大学计算机系本科四年级,研究方向为三维视觉、生成模型,已在CVPR、ECCV、NeurIPS等会议发表论文。 刘芳甫,清华大学电子工程系直博二年级,研究方向为生成模型 (3D AIGC和Video Generation等),已在CVPR、ECCV、NeurIPS、ICLR、KDD等计算机视觉与人工智能顶会发表过多篇论文。
4/9/2025 1:11:27 PM
机器之心
单张照片生成360°3D场景,支持灵活视角漫游|人大&北师大&字节
从单张图像生成灵活视角3D场景的技术来了,在考古保护、自主导航等直接获取3D数据成本高昂或不可行的领域具有重要应用价值。 这一任务本质上是高度不适定的:单一的2D图像无法提供足够的信息来消除完整3D结构的歧义,尤其是在极端视角(如180°旋转)下,先前被遮挡或缺失的内容可能会引入显著的不确定性。 生成模型,特别是扩散模型,为解决这一问题提供了一种潜在的技术路径。
3/31/2025 8:27:00 AM
量子位
纯RGB输入,解决户外场景SLAM!误差降低至9.8%,港科广开源 | ICRA 2025
在自主驾驶、机器人导航、AR/VR等前沿应用中,Simultaneous Localization and Mapping (SLAM) 是核心技术之一。 现有基于3D高斯分布(3DGS)的SLAM方法虽在室内场景表现出色,但使用仅RGB输入来处理无界的户外场景仍然面临挑战:准确的深度和尺度估计困难,这影响了姿态精度和3DGS初始化图像重叠有限且视角单一,缺乏有效的约束,导致训练难以收敛为了解决上述挑战,港科广团队提出全新解决方案OpenGS-SLAM,仅凭RGB图像实现高精度定位与逼真场景重建。 论文链接:::,该方法采用了一个点图回归网络来生成帧间一致的点图,储存了来自多个标准视角的3D结构,包含了视角关系、2D到3D的对应关系和场景几何信息,使得相机位姿估计更加稳健,有效缓解了预训练深度网络的误差问题。
3/27/2025 10:54:06 AM
新智元
Stable Diffusion变身3D神器!一个LoRA将2D图像转3D模型
在Stable Diffusion当中,只需加入一个LoRA就能根据图像创建3D模型了? 港科大(广州)与趣丸科技合作推出了全新三维生成大模型——Kiss3DGen,创新性地将3D生成与成熟的图像生成模型进行了对齐。 并且与主流2D扩散模型技术(如ControlNet、Flux-Redux)兼容协同,无需额外训练即可即插即用。
3/27/2025 9:26:30 AM
量子位
腾讯把AI生3D玩明白了,一口气开源两款模型,消费级显卡可跑!明天还有重磅开源!
出品 | 51CTO技术栈(微信号:blog51cto)Hunyuan3D 2.0上线后就好评不断。 该家族又在今天的开源日中迎来了重磅的新成员——Hunyuan 3D-2mini以及Hunyuan 3D-2mv!今天腾讯的演示中,感觉他们真的把AI生3D玩明白了,真的能用AI重构游戏行业。 不愧是腾讯,手握众多王牌游戏就是有经验啊!
3/18/2025 2:17:57 PM
0行代码打造3D游戏,氛围编码席卷全网!开发30分爆赚28万
用「vide coding」制作3D游戏正在成为一股新风潮。 从大V到普通网友,越来越多人加入到了这场狂欢之中。 资深软件工程师Grégory D'Angelo上传了一段他vide coding出来的游戏视频。
3/17/2025 9:27:45 AM
新智元
CVPR2025最新!探索3D场景推理问答新高度:双视觉感知网络
0.背景信息在人工智能的前沿领域,3D场景问答(3D QA)正在成为视觉与语言理解的关键挑战。 相比于传统的2D视觉问答(VQA),3D QA需要模型不仅能够感知复杂的三维空间结构,还要理解语言描述与场景之间的关系。 然而,目前的3D QA方法大多依赖于3D点云数据,而忽视了多视角图像提供的丰富局部纹理信息,这使得模型在面对小型、扁平物体时表现受限。
3/14/2025 10:26:58 AM
Jingzhou Luo等
MegaSynth:用70万合成数据突破3D场景重建瓶颈,PSNR提升1.8dB!
一眼概览MegaSynth 提出了一种基于非语义合成数据的大规模 3D 场景重建方法,生成 70 万个合成场景数据集,训练大型重建模型(LRMs),相比使用真实数据训练的模型,PSNR 提升 1.2~1.8 dB,显著增强 3D 场景重建的广覆盖能力。 核心问题当前 3D 场景重建方法受限于:数据规模受限:现有真实数据集 DL3DV 仅 10K 场景,远小于物体级数据集(如 Objaverse 80 万个实例)。 数据分布不理想:现有数据集多为人工采集,难以确保场景多样性,摄像机运动范围受限,且可能包含噪声和不精确标注。
3/6/2025 12:15:00 AM
萍哥学AI
全新技术 Fast3R :实现千张图片一键3D 重建,速度惊人!
在计算机视觉领域,多视角3D 重建一直是一项重要且具挑战性的任务,尤其是在需要精确且可扩展的表示时。 现有的主流方法,例如 DUSt3R,主要采用成对处理的方式,这种方法在进行多视角重建时需要复杂的全局对齐程序,既耗时又耗力。 为了解决这一问题,研究团队提出了 Fast3R,这是一种创新的多视角重建技术,它可以在一次前向传播中处理多达1500张图片,大幅提升了重建速度。
3/5/2025 1:57:00 PM
AI在线
颠覆城市建模!AI生成3D城市模型GaussianCity,生成速度提升 60 倍!
南洋理工大学研究团第一项名为“GaussianCity”的超大规模3D城市模型生成技术引发了不少关注,这款由研究团队开发的全新框架,不仅在生成速度上实现了惊人的60倍提升,还突破了传统方法在规模上的限制,支持无边界的3D城市生成。 这一技术成果已被CVPR2025(计算机视觉与模式识别顶级会议)接收,成为虚拟现实、自动驾驶和数字孪生领域的重大突破。 据了解,GaussianCity在生成无人机视角和街道视角的3D城市模型方面达到了最先进的水平。
3/4/2025 11:37:00 AM
AI在线
Zero-shot重建物理高斯资产,清华&光轮视觉大模型让机器人理解物理属性|ICRA 2025
理解物体的物理属性,对机器人执行操作十分重要,但是应该如何实现呢? 光轮智能与清华AIR、同济大学等机构联合提出了一种基于3D高斯溅射的方法——PUGS(Zero-shot Physical Understandingwith Gaussian Splatting)无需训练、零样本,它就能够从多视角图像中重建物体,并对各种指定的物理属性进行密集重建。 该论文已被ICRA 2025接收。
2/24/2025 2:22:00 PM
量子位
魔发奇缘,3D发型生成新突破!TANGLED:可用任意样式和视点的图像生成 3D 发束
在数字时代,发型不仅是时尚的标志,更是个人文化身份的彰显。 但传统3D发型生成技术往往难以捕捉复杂发型的细腻之美。 为此,上海科技大学和华中科技大学推出了ANGLED技术,能从任意风格、视角的图像中,轻松生成逼真3D发型。
2/24/2025 10:40:00 AM
AIGC Studio
剧本自动生成3D动画!北航中大等提出新方法,破解多人交互难题 | ICLR 2025
设定一个3D场景,你便可以用文字编织你的剧情。 一句话,就能让两个人激烈争吵。 吵完之后,又温馨共舞起来~想怎么排就怎么排,就像影视拍摄或舞台剧的编排一样,只需在剧本中设定角色的行动、互动和环境要素,就能自动生成符合逻辑的3D角色动画,让你的剧情真正“动”起来。
2/21/2025 9:35:00 AM
量子位
英伟达黑科技登场!RTX神经纹理压缩,显存用量狂减96%
在显卡技术不断迭代的当下,NVIDIA再次凭借其前沿创新,吸引了全球科技爱好者的目光。 RTX神经纹理压缩(NTC)技术在beta测试演示中的表现,堪称惊艳。 它成功地将3D应用中的内存纹理占用大幅降低,最高降幅可达96%,为图形处理领域带来了全新的变革可能。
2/14/2025 9:30:00 AM
新智元
Diffusion-SS3D:用扩散去噪革新半监督3D检测,伪标签更准,mAP提升6%!
一眼概览SemCity 是一种 基于三平面扩散(Triplane Diffusion) 的 3D 语义场景生成模型,能够在 真实户外环境 中进行 场景生成、语义补全、场景扩展(Outpainting)和修补(Inpainting),并在 SemanticKITTI 数据集 上显著提升生成质量。 核心问题背景问题:当前 3D 扩散模型大多专注于 单个物体 或 室内合成场景,对于 真实户外场景 仍然缺乏研究。 此外,户外数据由于传感器局限性(空白区域较多),导致模型难以学习 完整的三维语义分布。
2/14/2025 9:02:19 AM
萍哥学AI
StochSync:可在任意空间中生成高质量360°全景图和3D网格纹理
本文经AIGC Studio公众号授权转载,转载请联系出处。 StochSync方法可以用于在任意空间中生成图像,尤其是360°全景图和3D网格纹理。 该方法利用了预训练的图像扩散模型,以实现zero-shot生成,消除了对新数据收集和单独训练生成模型的需求。
2/8/2025 9:23:08 AM
AIGC Studio
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
DeepSeek
AI绘画
数据
机器人
谷歌
模型
大模型
Midjourney
智能
用户
学习
GPT
开源
微软
Meta
AI创作
图像
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
生成式
芯片
代码
英伟达
神经网络
腾讯
计算
研究
Sora
AI for Science
3D
AI设计
Anthropic
机器学习
GPU
开发者
场景
华为
预测
伟达
Transformer
百度
深度学习
模态
苹果
AI视频
驾驶
文本
搜索
xAI
人形机器人
Copilot
神器推荐
LLaMA
大语言模型
具身智能
字节跳动
Claude
算力
安全
应用
视频生成
科技
视觉
干货合集
亚马逊
2024
AGI
特斯拉
DeepMind
架构