全面梳理200+篇前沿论文,视觉生成模型理解物理世界规律的通关密码,都在这篇综述里了!

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

投稿邮箱:[email protected][email protected]

当下,视频生成备受关注,有望成为处理物理知识的 “世界模型” (World Model),助力自动驾驶、机器人等下游任务。然而,当前模型在从 “生成” 迈向世界建模的过程中,存在关键短板 —— 对真实世界物理规律的刻画能力不足。

为此,来自悉尼大学、西澳大学等研究机构的研究者,带来了一篇聚焦于生成式“物理 AI”的综述文章,深度剖析如何将物理规律融入视觉生成模型。

图片

  • 论文标题:Generative Physical AI in Vision: A Survey

  • 论文链接:https://arxiv.org/abs/2501.10928

图片

生成式“物理 AI”的核心概念

综述围绕生成式“物理 AI”,先明确了相关定义。物理模拟(Physical Simulation)是依据物理模型让输入数据随时间演变;物理理解(Physical Understanding)是从观测数据推断物理模型或参数;而生成(Generation)则是用生成模型创造新内容,其中不涉及对物理规律深入理解的为无物理感知的生成(Physics-Unaware Generation),反之则是物理感知生成(Physics-Aware Generation)。

物理感知生成可细分为两类。一类是基于显式物理模拟的(PAG-E),这类方法显式利用物理模拟模型提升生成模型的物理刻画能力;另一类是无显式物理模拟的(PAG-I)。在 PAG-E 中,根据 “物理模拟” 与 “生成模型” 的融合方式,可归纳为六大范式。

图片

 有显式模拟的生成(PAG-E):六大范式

范式一:生成后模拟(Gen-to-Sim)

这类方法通常在生成内容后,为其添加物理属性,使其可模拟和交互。比如 PIE-NeRF 在 神经辐射场中分布可模拟的 “粒子”,实现用户与场景的交互;PhysGaussian 利用材料点法(MPM)将 3D 高斯核视为可模拟的 “粒子”,模拟形变等物理现象;VR-GS、LIVE-GS 和 DreMa 等也基于此范式,实现 VR 3D 内容的交互或机器人对物体摆放场景的预测。

范式二:生成中模拟(Sim-in-Gen)

此范式将物理模拟直接集成到生成模型中,作为核心子模块。比如 PhysGen 基于牛顿定律下的刚体动力学,结合大模型推断的物理参数,实现用户外力控制下的视频生成;PhyCAGE 把 MPM 物理模拟器当作优化器,将损失函数的梯度视为物理模拟中的速度;PhysDiff 将物理约束加入扩散模型的采样过程中,生成合理的人体运动等。

范式三:生成与模拟并行(Gen-and-Sim)

该范式中,生成和模拟同时进行或具有紧密关联。比如 PAC-NeRF 利用混合 Eulerian-Lagrangian 表示,同时推断物体的几何和物理参数;iPAC-NeRF 在此基础上直接在 Lagrangian 空间中优化粒子位置和特征;PhysMotion 在图像到视频生成过程中,将生成过程与模拟过程交替进行等。

范式四:模拟约束生成(Sim-Constrained Gen)

这种范式下,物理模拟为生成模型提供训练约束或指导。比如 PhysComp 使用基于物理的损失函数,确保生成的 3D 模型在力作用下表现真实;Atlas3D 通过保证在物理模拟中的稳定性,生成可自支撑的 3D 模型;DiffuseBot 则将物理模拟作为数据过滤方式,筛选物理性能好的生成结果等;

范式五:生成约束模拟(Gen-Constrained Sim)

此范式中,生成模型为模拟过程提供指导或先验知识。比如 Physics3D 结合视频扩散模型和 MPM,利用分数蒸馏采样(Score Distillation Sampling)优化物理参数;DreamPhysics 进一步提出运动蒸馏采样(Motion Distillation Sampling);PhysDreamer 从生成的视频数据中学习优化物理模拟的参数等。

范式六:模拟评估生成(Sim-Evaluated Gen)

这种范式下,生成的内容旨在用于基于模拟的部署,注重在模拟环境中的实用性。比如 PhysPart 生成可用与 3D 打印和机器人场景的 3D 替换部件;PhyScene 生成适合 Embodied AI 的高质量 3D 交互场景等。

无显式模拟的生成(PAG-I)

综述还介绍了无显式模拟的物理感知生成(PAG-I)的相关工作。一些视频生成大模型展现出一定的物理推理能力,能捕捉和复现部分物理动态和因果关系。

此外,PhyT2V 使用大语言模型为视觉生成提供物理知识,通过迭代优化文本提示词提升文生视频模型的物理真实性;Generative Interactive Dynamics 的相关研究聚焦于模拟图像或视频中物体受外力影响下的变化规律;Motion Prompting 等方法利用运动轨迹等控制视频生成和编辑;CoCoGen 等则通过在采样过程中注入物理信息,生成符合物理规律的特定领域数据等。

物理评估:衡量模型的物理 “实力”

综述同时分析了现有方法如何评估图像或视频生成模型的物理刻画能力。传统评估指标在检测物理规律的符合程度方面存在不足。

为此,研究者们提出了专门的数据集和指标。比如 PhyBench、PhyGenBench 和 VideoPhy 等 Benchmark,涵盖力学、光学、热学和材料等物理领域,通过构建相关场景和文本提示词来评估模型。

在评估指标方面,分为人工评估和自动评估,人工评估针对物理现象的不同维度进行打分,自动评估则包括利用视觉语言模型 LVMs 获取评估分数等。

来展望:物理 AI 的无限可能

最后,综述展望了生成式“物理 AI”的未来方向,涵盖评估方式、可解释性、物理知识增强的大模型、神经 - 符号混合模型、生成式模拟引擎、跨学科应用等多种可能。让我们持续关注,共同见证 “物理 AI” 的发展。

如果想深入了解文中提及的研究成果,欢迎访问 https://github.com/BestJunYu/Awesome-Physics-aware-Generation 查看相关论文汇总。

图片

相关资讯

第四范式发布先知AIOS 5.1,升级支持GPU资源池化功能

今天,第四范式先知AIOS 5.1版本正式发布。该版本新增GPU资源池化(vGPU)能力,实现对硬件集群平台化管理、算力资源的按需分配和快速调度,最多节省80%的硬件成本,提高GPU综合利用率多达5-10倍。第四范式先知AIOS 5是行业大模型开发及管理平台。平台以提升企业核心竞争力为目标,在支持接入企业各类模态数据的基础上,提供大模型训练、精调等低门槛建模工具、科学家创新服务体系、北极星策略管理平台、大模型纳管平台、主流算力适配优化等能力,实现端到端的行业大模型的构建、部署、管理服务。在行业大模型的构建过程中,为

科研产业即将迎来AI赋能拐点

「机器之心2021-2022年度AI趋势大咖说」聚焦「驱动未来的AI技术」与「重塑产业的AI科技」,推出线上分享,共邀请近40位AI领域知名学者、产业专家及企业高管通过主题分享及多人圆桌等形式,与行业精英、读者、观众共同回顾 2021年中的重要技术和学术热点,盘点AI产业的年度研究方向以及重大科技突破,展望2022年度AI技术发展方向、AI技术与产业科技融合趋势。

验证速度提升25倍,准确率达95.1%,清华团队提出基于物理信息学习的电池衰减预测方法

图 1:研究概念图。 编辑 | ScienceAI随着全球对可再生能源需求的日益增长,电池作为储能系统关键技术的地位愈发凸显。 然而,电池研发过程中面临着从材料原型到商业产品转化的重重挑战,电池原型验证效率低、研发成本高以及生产废料管理不善等问题制约着电池行业的可持续发展。