与DeepMind展开合作,英伟达的物理世界AI正在拓展版图

老黄:机器人的时代已经来临了。

在近日举行的 GTC 大会上,英伟达发布了一系列与 AI 未来方向「物理世界 AI」相关的工具,并宣布了新的合作。

与DeepMind展开合作,英伟达的物理世界AI正在拓展版图

在今天凌晨 GTC 大会主 Keynote 上,英伟达创始人、CEO 黄仁勋宣布与 Google DeepMind、Isomorphic Labs、Intrinsic 和 Tapestry(X 实验室电网领域「登月计划」项目)的团队基于 NVIDIA Omniverse、NVIDIA Cosmos 和 NVIDIA Isaac 平台的应用,分享各自合作的里程碑成果。

谷歌与英伟达技术团队的合作旨在利用 AI 和仿真技术开发具有抓取能力的机器人、重塑药物研发、优化能源电网等。

为助力研究和 AI 开发工作,谷歌云将率先采用英伟达今天在 GTC 上推出的新一代 Blackwell 产品。与此同时,英伟达也将率先采用 Google DeepMind AI 水印技术 SynthID,通过识别 AI 生成的内容以保护知识产权。

具体来说,英伟达将成为 Google DeepMind 旗下 SynthID 的首个外部用户,该产品将数字水印直接嵌入到 AI 生成的图像、音频、文本和视频中。SynthID 有助于维护 NVIDIA Cosmos 世界基础模型输出的完整性,从而防止错误信息和错误归因,并且不会影响视频质量。

Google DeepMind 和英伟达还合作优化了谷歌轻量级开源模型系列 Gemma,使其在 NVIDIA GPU 上运行。近期发布的 Gemma 3 标志着开源创新的一次重大飞跃。

英伟达的参与帮助了 Gemma 提升易用性。Gemma 由 NVIDIA AI 平台驱动,可作为高度优化的 NVIDIA NIM 微服务使用,利用开源 NVIDIA TensorRT-LLM 库的强大功能,提供强大的推理性能。

此外,两家的深度工程合作将扩展到通过 Vertex AI 优化英伟达加速计算上基于 Gemini 的工作负载。

谷歌旗下的 Intrinsic 专注于为各行业制造商开发实用型机器人的智能自适应 AI 技术。当前,全球大多数工业机器人采用手动编程,每个动作都需通过复杂、成本高昂的硬编码流程实现。

该团队与英伟达合作,为 Intrinsic Flowstate 构建了更加深度且直观的开发者工作流,为 NVIDIA Isaac Manipulator 基础模型提供支持,实现通用机器人的抓取功能。由于 AI 具有良好的适应能力,在机器人开发中采用基础模型将极大缩短应用开发时间,提高灵活性。

据介绍在 GTC 上,Intrinsic 还将分享 Intrinsic Flowstate 和 NVIDIA Omniverse 之间的早期 OpenUSD 框架流连接,可跨平台实现机器人作业单元的实时可视化。

英伟达和 Google DeepMind 宣布与 Disney Research 携手开发了 Newton——一个由 NVIDIA Warp 框架加速的开源物理引擎,与 MuJoCo 兼容。在 Newton 的支持下,与 MuJoCo 现有的 GPU 加速模拟器 MJX 相比,MuJoCo 将使机器人机器学习工作负载的速度提高 70 倍以上。

与DeepMind展开合作,英伟达的物理世界AI正在拓展版图基于该平台打造的《星球大战》风格的机器人 Blue 站上了 GTC 现场。 

Isomorphic Labs 由 Google DeepMind 首席执行官哈萨比斯创立,致力于通过 AI 重塑药物研发。它利用 NVIDIA GPU 在谷歌云上构建了药物设计引擎,以满足持续开发有助于改善人类健康状态的突破性 AI 模型所需的规模和性能。

Tapestry 是谷歌 X 实验室针对电网领域的「登月计划」,正在为更加绿色且可靠的未来电网打造 AI 赋能的产品。Tapestry 和英伟达正在探索提高电网仿真速度和精度的方法。

在 AI 基础设施方面,谷歌云将成为首批提供 NVIDIA Blackwell GPU 最新实例的公司之一。

谷歌云和英伟达共同优化了热门开源框架,如备受欢迎的机器学习 Python 库 JAX,以及可大规模在 NVIDIA GPU 上高效运行的 MaxText。MaxText 是一款可在大规模 GPU 集群上扩展大模型的先进框架,采用与 NVIDIA 合作开发的优化功能,可在数以万计的 GPU 上实现高效训练。

英伟达也宣布了 Cosmos 世界基础模型和物理 AI 数据工具的重大更新,该模型引入了开放式、可完全定制的物理 AI 开发推理模型,让开发者以前所未有的方式控制世界生成。

与DeepMind展开合作,英伟达的物理世界AI正在拓展版图

NVIDIA 还推出了两款由 NVIDIA Omniverse 和 Cosmos 平台提供支持的新蓝图,为开发者提供用于机器人和自动驾驶汽车后训练的大规模可控合成数据生成引擎。

用于自动驾驶汽车仿真的 Omniverse Blueprint 借助 Cosmos Transfer 放大基于物理传感器数据的变化。借助该工具,Foretellix 可以通过为不同驾驶数据集改变天气和光照等条件来丰富行为场景。Parallel Domain 也正在使用该蓝图将类似的变更应用于传感器仿真。 

用于合成操作运动生成的 NVIDIA GR00T Blueprint 结合了 Omniverse 和 Cosmos Transfer,可大规模生成多样化数据集,利用 OpenUSD 驱动的仿真,将数据采集和增强时间从数天缩短到数小时。

新的 Cosmos Predict 模型将支持多帧生成,在给定开始和结束输入图像的情况下可以预测中间行为或运动轨迹。 这些模型专为后训练而打造,可使用 NVIDIA 开放的物理 AI 数据集进行定制。

英伟达表示,借助 NVIDIA Grace Blackwell NVL72 系统及其庞大的推理计算能力,开发者可以实现实时世界生成。 

1X 正在使用 Cosmos Predict 和 Cosmos Transfer 来训练其新型人形机器人 NEO Gamma。机器人大脑开发商 Skild AI 正在利用 Cosmos Transfer 增强其机器人的合成数据集。此外,Nexar 和 Oxa 正在使用 Cosmos Predict 来升级其自动驾驶系统。

Cosmos Reason 是一个开放式、可完全定制的 WFM,具有时空感知能力,它使用思维链推理来理解视频数据,并能够预测交互结果,如一个人走进人行道或一个盒子从架子上掉下来。

开发者可以使用 Cosmos Reason 来提升物理 AI 数据标注和管理,增强现有世界基础模型或创建新的视觉语言动作模型。他们还可以对其进行后训练,构建高级规划器,以指导物理 AI 如何完成所需操作。

此外,基于下游任务,开发者可以在 NVIDIA DGX Cloud 上使用原生 PyTorch 脚本或 NVIDIA NeMo 框架对 Cosmos WFM 进行后训练。 

Cosmos 开发者还可以使用 DGX Cloud 上的 NVIDIA NeMo Curator 来加速数据处理和管理。 Linker Vision 和 Milestone Systems 正将其用于管理海量视频数据,训练用于视觉智能体的大视觉语言模型,这些智能体基于 NVIDIA AI Blueprint 进行视频搜索和总结。Virtual Incision 正在探索将其部署在未来的手术机器人中,而 Uber 和 Waabi 正在推动自动驾驶汽车的开发。 

 最后,英伟达公开了 Cosmos 世界基础模型平台的技术报告:

与DeepMind展开合作,英伟达的物理世界AI正在拓展版图

论文链接:https://arxiv.org/abs/2501.03575

或许以世界模型为基础,未来会涌现出大量行业 AI、机器人新技术。

相关资讯

专为DeepSeek类强推理加速,老黄拿出Blackwell Ultra,下代架构性能还要翻倍

「因为 AI 技术爆发,GTC 大会的规模每年都在扩大,以前人们说 GTC 是 AI 的伍德斯托克音乐节,今年我们搬进了体育场,我觉得 GTC 已经成了 AI 的超级碗,」英伟达 CEO 黄仁勋说道。 「唯一的不同在于每个人都是『超级碗』的赢家。 」北京时间 3 月 19 日凌晨,全世界的目光都汇聚在加州圣何塞 SAP 中心,期待英伟达给出的下一个 AI 大方向。

英伟达最新AI超级算力Blackwell GPU平台即将登陆亚马逊云科技

今天凌晨,英伟达在 GTC 大会上推出了最新一代 GPU 架构 Blackwell 及整套系统。在 Keynote 上,黄仁勋表示,已有多家科技公司和传统企业正在引入新一代产品。在发布活动后,亚马逊云科技宣布将提供基于英伟达 Grace Blackwell GPU 的 Amazon EC2 实例和 英伟达 DGX Cloud,以提高在数万亿参数 LLM 上构建和运行推理的性能。亚马逊云科技表示,英伟达的超强算力芯片系统与亚马逊云科技强大的 Elastic Fabric Adapte (EFA) 网络连接能力、高级虚

向量数据库的中场战事:长期主义者Zilliz如何全球突围

命运齿轮转动的开始,源于 2023 年的 3 月 23 日的 OpenAI 一次日常更新。 这一天,OpenAI ChatGPT 发布了一个名叫 chatgpt-retrieval-plugin 的插件功能。 而在官方 plugin 给出的标准案例中,OpenAI 专门提到,向量数据库是大模型产品形成长期记忆一个必不可少的组件。