在近日举行的 GTC 大会上,英伟达发布了一系列与 AI 未来方向「物理世界 AI」相关的工具,并宣布了新的合作。
在今天凌晨 GTC 大会主 Keynote 上,英伟达创始人、CEO 黄仁勋宣布与 Google DeepMind、Isomorphic Labs、Intrinsic 和 Tapestry(X 实验室电网领域「登月计划」项目)的团队基于 NVIDIA Omniverse、NVIDIA Cosmos 和 NVIDIA Isaac 平台的应用,分享各自合作的里程碑成果。
谷歌与英伟达技术团队的合作旨在利用 AI 和仿真技术开发具有抓取能力的机器人、重塑药物研发、优化能源电网等。
为助力研究和 AI 开发工作,谷歌云将率先采用英伟达今天在 GTC 上推出的新一代 Blackwell 产品。与此同时,英伟达也将率先采用 Google DeepMind AI 水印技术 SynthID,通过识别 AI 生成的内容以保护知识产权。
具体来说,英伟达将成为 Google DeepMind 旗下 SynthID 的首个外部用户,该产品将数字水印直接嵌入到 AI 生成的图像、音频、文本和视频中。SynthID 有助于维护 NVIDIA Cosmos 世界基础模型输出的完整性,从而防止错误信息和错误归因,并且不会影响视频质量。
Google DeepMind 和英伟达还合作优化了谷歌轻量级开源模型系列 Gemma,使其在 NVIDIA GPU 上运行。近期发布的 Gemma 3 标志着开源创新的一次重大飞跃。
英伟达的参与帮助了 Gemma 提升易用性。Gemma 由 NVIDIA AI 平台驱动,可作为高度优化的 NVIDIA NIM 微服务使用,利用开源 NVIDIA TensorRT-LLM 库的强大功能,提供强大的推理性能。
此外,两家的深度工程合作将扩展到通过 Vertex AI 优化英伟达加速计算上基于 Gemini 的工作负载。
谷歌旗下的 Intrinsic 专注于为各行业制造商开发实用型机器人的智能自适应 AI 技术。当前,全球大多数工业机器人采用手动编程,每个动作都需通过复杂、成本高昂的硬编码流程实现。
该团队与英伟达合作,为 Intrinsic Flowstate 构建了更加深度且直观的开发者工作流,为 NVIDIA Isaac Manipulator 基础模型提供支持,实现通用机器人的抓取功能。由于 AI 具有良好的适应能力,在机器人开发中采用基础模型将极大缩短应用开发时间,提高灵活性。
据介绍在 GTC 上,Intrinsic 还将分享 Intrinsic Flowstate 和 NVIDIA Omniverse 之间的早期 OpenUSD 框架流连接,可跨平台实现机器人作业单元的实时可视化。
英伟达和 Google DeepMind 宣布与 Disney Research 携手开发了 Newton——一个由 NVIDIA Warp 框架加速的开源物理引擎,与 MuJoCo 兼容。在 Newton 的支持下,与 MuJoCo 现有的 GPU 加速模拟器 MJX 相比,MuJoCo 将使机器人机器学习工作负载的速度提高 70 倍以上。
基于该平台打造的《星球大战》风格的机器人 Blue 站上了 GTC 现场。
Isomorphic Labs 由 Google DeepMind 首席执行官哈萨比斯创立,致力于通过 AI 重塑药物研发。它利用 NVIDIA GPU 在谷歌云上构建了药物设计引擎,以满足持续开发有助于改善人类健康状态的突破性 AI 模型所需的规模和性能。
Tapestry 是谷歌 X 实验室针对电网领域的「登月计划」,正在为更加绿色且可靠的未来电网打造 AI 赋能的产品。Tapestry 和英伟达正在探索提高电网仿真速度和精度的方法。
在 AI 基础设施方面,谷歌云将成为首批提供 NVIDIA Blackwell GPU 最新实例的公司之一。
谷歌云和英伟达共同优化了热门开源框架,如备受欢迎的机器学习 Python 库 JAX,以及可大规模在 NVIDIA GPU 上高效运行的 MaxText。MaxText 是一款可在大规模 GPU 集群上扩展大模型的先进框架,采用与 NVIDIA 合作开发的优化功能,可在数以万计的 GPU 上实现高效训练。
英伟达也宣布了 Cosmos 世界基础模型和物理 AI 数据工具的重大更新,该模型引入了开放式、可完全定制的物理 AI 开发推理模型,让开发者以前所未有的方式控制世界生成。
NVIDIA 还推出了两款由 NVIDIA Omniverse 和 Cosmos 平台提供支持的新蓝图,为开发者提供用于机器人和自动驾驶汽车后训练的大规模可控合成数据生成引擎。
用于自动驾驶汽车仿真的 Omniverse Blueprint 借助 Cosmos Transfer 放大基于物理传感器数据的变化。借助该工具,Foretellix 可以通过为不同驾驶数据集改变天气和光照等条件来丰富行为场景。Parallel Domain 也正在使用该蓝图将类似的变更应用于传感器仿真。
用于合成操作运动生成的 NVIDIA GR00T Blueprint 结合了 Omniverse 和 Cosmos Transfer,可大规模生成多样化数据集,利用 OpenUSD 驱动的仿真,将数据采集和增强时间从数天缩短到数小时。
新的 Cosmos Predict 模型将支持多帧生成,在给定开始和结束输入图像的情况下可以预测中间行为或运动轨迹。 这些模型专为后训练而打造,可使用 NVIDIA 开放的物理 AI 数据集进行定制。
英伟达表示,借助 NVIDIA Grace Blackwell NVL72 系统及其庞大的推理计算能力,开发者可以实现实时世界生成。
1X 正在使用 Cosmos Predict 和 Cosmos Transfer 来训练其新型人形机器人 NEO Gamma。机器人大脑开发商 Skild AI 正在利用 Cosmos Transfer 增强其机器人的合成数据集。此外,Nexar 和 Oxa 正在使用 Cosmos Predict 来升级其自动驾驶系统。
Cosmos Reason 是一个开放式、可完全定制的 WFM,具有时空感知能力,它使用思维链推理来理解视频数据,并能够预测交互结果,如一个人走进人行道或一个盒子从架子上掉下来。
开发者可以使用 Cosmos Reason 来提升物理 AI 数据标注和管理,增强现有世界基础模型或创建新的视觉语言动作模型。他们还可以对其进行后训练,构建高级规划器,以指导物理 AI 如何完成所需操作。
此外,基于下游任务,开发者可以在 NVIDIA DGX Cloud 上使用原生 PyTorch 脚本或 NVIDIA NeMo 框架对 Cosmos WFM 进行后训练。
Cosmos 开发者还可以使用 DGX Cloud 上的 NVIDIA NeMo Curator 来加速数据处理和管理。 Linker Vision 和 Milestone Systems 正将其用于管理海量视频数据,训练用于视觉智能体的大视觉语言模型,这些智能体基于 NVIDIA AI Blueprint 进行视频搜索和总结。Virtual Incision 正在探索将其部署在未来的手术机器人中,而 Uber 和 Waabi 正在推动自动驾驶汽车的开发。
最后,英伟达公开了 Cosmos 世界基础模型平台的技术报告:
论文链接:https://arxiv.org/abs/2501.03575
或许以世界模型为基础,未来会涌现出大量行业 AI、机器人新技术。