全面梳理200+篇前沿论文，视觉生成模型理解物理世界规律的通关密码，都在这篇综述里了！

2025-02-02 11:41

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。
投稿邮箱：[email protected]；[email protected]

当下，视频生成备受关注，有望成为处理物理知识的 “世界模型” （World Model），助力自动驾驶、机器人等下游任务。然而，当前模型在从 “生成” 迈向世界建模的过程中，存在关键短板 —— 对真实世界物理规律的刻画能力不足。

为此，来自悉尼大学、西澳大学等研究机构的研究者，带来了一篇聚焦于生成式“物理 AI”的综述文章，深度剖析如何将物理规律融入视觉生成模型。

论文标题：Generative Physical AI in Vision: A Survey
论文链接：https://arxiv.org/abs/2501.10928

生成式“物理 AI”的核心概念

综述围绕生成式“物理 AI”，先明确了相关定义。物理模拟（Physical Simulation）是依据物理模型让输入数据随时间演变；物理理解（Physical Understanding）是从观测数据推断物理模型或参数；而生成（Generation）则是用生成模型创造新内容，其中不涉及对物理规律深入理解的为无物理感知的生成（Physics-Unaware Generation），反之则是物理感知生成（Physics-Aware Generation）。

物理感知生成可细分为两类。一类是基于显式物理模拟的（PAG-E），这类方法显式利用物理模拟模型提升生成模型的物理刻画能力；另一类是无显式物理模拟的（PAG-I）。在 PAG-E 中，根据 “物理模拟” 与 “生成模型” 的融合方式，可归纳为六大范式。

有显式模拟的生成（PAG-E）：六大范式

范式一：生成后模拟（Gen-to-Sim）

这类方法通常在生成内容后，为其添加物理属性，使其可模拟和交互。比如 PIE-NeRF 在神经辐射场中分布可模拟的 “粒子”，实现用户与场景的交互；PhysGaussian 利用材料点法（MPM）将 3D 高斯核视为可模拟的 “粒子”，模拟形变等物理现象；VR-GS、LIVE-GS 和 DreMa 等也基于此范式，实现 VR 3D 内容的交互或机器人对物体摆放场景的预测。

范式二：生成中模拟（Sim-in-Gen）

此范式将物理模拟直接集成到生成模型中，作为核心子模块。比如 PhysGen 基于牛顿定律下的刚体动力学，结合大模型推断的物理参数，实现用户外力控制下的视频生成；PhyCAGE 把 MPM 物理模拟器当作优化器，将损失函数的梯度视为物理模拟中的速度；PhysDiff 将物理约束加入扩散模型的采样过程中，生成合理的人体运动等。

范式三：生成与模拟并行（Gen-and-Sim）

该范式中，生成和模拟同时进行或具有紧密关联。比如 PAC-NeRF 利用混合 Eulerian-Lagrangian 表示，同时推断物体的几何和物理参数；iPAC-NeRF 在此基础上直接在 Lagrangian 空间中优化粒子位置和特征；PhysMotion 在图像到视频生成过程中，将生成过程与模拟过程交替进行等。

范式四：模拟约束生成（Sim-Constrained Gen）

这种范式下，物理模拟为生成模型提供训练约束或指导。比如 PhysComp 使用基于物理的损失函数，确保生成的 3D 模型在力作用下表现真实；Atlas3D 通过保证在物理模拟中的稳定性，生成可自支撑的 3D 模型；DiffuseBot 则将物理模拟作为数据过滤方式，筛选物理性能好的生成结果等；

范式五：生成约束模拟（Gen-Constrained Sim）

此范式中，生成模型为模拟过程提供指导或先验知识。比如 Physics3D 结合视频扩散模型和 MPM，利用分数蒸馏采样（Score Distillation Sampling）优化物理参数；DreamPhysics 进一步提出运动蒸馏采样（Motion Distillation Sampling）；PhysDreamer 从生成的视频数据中学习优化物理模拟的参数等。

范式六：模拟评估生成（Sim-Evaluated Gen）

这种范式下，生成的内容旨在用于基于模拟的部署，注重在模拟环境中的实用性。比如 PhysPart 生成可用与 3D 打印和机器人场景的 3D 替换部件；PhyScene 生成适合 Embodied AI 的高质量 3D 交互场景等。

无显式模拟的生成（PAG-I）

综述还介绍了无显式模拟的物理感知生成（PAG-I）的相关工作。一些视频生成大模型展现出一定的物理推理能力，能捕捉和复现部分物理动态和因果关系。

此外，PhyT2V 使用大语言模型为视觉生成提供物理知识，通过迭代优化文本提示词提升文生视频模型的物理真实性；Generative Interactive Dynamics 的相关研究聚焦于模拟图像或视频中物体受外力影响下的变化规律；Motion Prompting 等方法利用运动轨迹等控制视频生成和编辑；CoCoGen 等则通过在采样过程中注入物理信息，生成符合物理规律的特定领域数据等。

物理评估：衡量模型的物理 “实力”

综述同时分析了现有方法如何评估图像或视频生成模型的物理刻画能力。传统评估指标在检测物理规律的符合程度方面存在不足。

为此，研究者们提出了专门的数据集和指标。比如 PhyBench、PhyGenBench 和 VideoPhy 等 Benchmark，涵盖力学、光学、热学和材料等物理领域，通过构建相关场景和文本提示词来评估模型。

在评估指标方面，分为人工评估和自动评估，人工评估针对物理现象的不同维度进行打分，自动评估则包括利用视觉语言模型 LVMs 获取评估分数等。

未来展望：物理 AI 的无限可能

最后，综述展望了生成式“物理 AI”的未来方向，涵盖评估方式、可解释性、物理知识增强的大模型、神经 - 符号混合模型、生成式模拟引擎、跨学科应用等多种可能。让我们持续关注，共同见证 “物理 AI” 的发展。

如果想深入了解文中提及的研究成果，欢迎访问 https://github.com/BestJunYu/Awesome-Physics-aware-Generation 查看相关论文汇总。

第四范式发布先知AIOS 5.1，升级支持GPU资源池化功能

今天，第四范式先知AIOS 5.1版本正式发布。该版本新增GPU资源池化（vGPU）能力，实现对硬件集群平台化管理、算力资源的按需分配和快速调度，最多节省80%的硬件成本，提高GPU综合利用率多达5-10倍。第四范式先知AIOS 5是行业大模型开发及管理平台。平台以提升企业核心竞争力为目标，在支持接入企业各类模态数据的基础上，提供大模型训练、精调等低门槛建模工具、科学家创新服务体系、北极星策略管理平台、大模型纳管平台、主流算力适配优化等能力，实现端到端的行业大模型的构建、部署、管理服务。在行业大模型的构建过程中，为

7/23/2024 3:09:00 PM

新闻助手

科研产业即将迎来AI赋能拐点

「机器之心2021-2022年度AI趋势大咖说」聚焦「驱动未来的AI技术」与「重塑产业的AI科技」，推出线上分享，共邀请近40位AI领域知名学者、产业专家及企业高管通过主题分享及多人圆桌等形式，与行业精英、读者、观众共同回顾 2021年中的重要技术和学术热点，盘点AI产业的年度研究方向以及重大科技突破，展望2022年度AI技术发展方向、AI技术与产业科技融合趋势。

7/22/2022 1:57:00 PM

机器之心Pro发布

荣耀发布阿尔法计划 5年投入100亿美元建设AI生态

昨晚，MWC2025全球移动大会在上海正式拉开帷幕，荣耀新任CEO李健在会上首次亮相，并正式发布了荣耀的全新人工智能战略计划——“阿尔法计划”。作为荣耀的新掌舵人，李健在发布会上宣布，未来五年，荣耀将投入高达100亿美元的资金，与全球合作伙伴共同构建AI设备生态，标志着荣耀从智能手机制造商向全球AI终端生态公司的全面转型。值得注意的是，这也是李健自接任荣耀CEO以来的首次公开亮相。

3/3/2025 8:26:00 AM

AI在线

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型上海AI实验室开源InternVL3系列多模态大型语言模型 50组多风格提示词，全面测评Midjourney V7生图效果！全日程揭晓！ICLR 2025论文分享会我们北京见斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果模态 AI视频驾驶文本 xAI 搜索人形机器人大语言模型 Copilot 神器推荐 LLaMA 字节跳动具身智能 Claude 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

全面梳理200+篇前沿论文，视觉生成模型理解物理世界规律的通关密码，都在这篇综述里了！

相关资讯

第四范式发布先知AIOS 5.1，升级支持GPU资源池化功能

科研产业即将迎来AI赋能拐点

荣耀发布阿尔法计划 5年投入100亿美元建设AI生态