Wayve推完整世界模型GAIA-2：支持同时生成5个视角的视频，可模拟高风险场景

2025-03-31 11:02

Wayve公司近日隆重推出了其最新的视频生成世界模型——GAIA-2。这一突破性的技术是其上一代模型GAIA-1的重大升级，旨在通过生成高度多样化和可控的驾驶场景视频，极大地推动辅助和自动驾驶系统的安全性发展. GAIA-2的发布标志着Wayve在利用生成式人工智能技术赋能更安全、更智能的出行方面迈出了坚实的一步。

Wayve公司近日隆重推出了其最新的视频生成世界模型——GAIA-2。 这一突破性的技术是其上一代模型GAIA-1的重大升级，旨在通过生成高度多样化和可控的驾驶场景视频，极大地推动辅助和自动驾驶系统的安全性发展. GAIA-2的发布标志着Wayve在利用生成式人工智能技术赋能更安全、更智能的出行方面迈出了坚实的一步。

GAIA-1的飞跃:场景多样性全面提升

与GAIA-1相比，GAIA-2最显著的提升在于其生成视频场景的丰富性和真实感. 为了训练和验证自动驾驶系统在各种复杂环境下的性能，需要接触到尽可能多的不同场景. 然而，仅仅依赖真实世界的数据收集在成本和时间上都存在局限性，特别是对于罕见但至关重要的安全场景。

GAIA-2通过扩展其地理覆盖范围，能够生成包括英国、美国和德国在内的多个国家的不同驾驶场景. 这意味着AI驾驶模型可以在合成数据中学习适应不同地区的交通规则和道路标志。

此外，GAIA-2还支持对时间、天气和道路类型进行精细的控制. 开发者可以轻松生成从黎明到夜晚、从晴朗到雨雾等各种光照和天气条件下的驾驶视频. 同时，模型也能够模拟城市、郊区和高速公路等不同的道路环境. 这种全面的场景多样性使得AI驾驶系统能够在各种复杂和不可预测的真实世界条件下进行更充分的训练和验证。

多视角同步生成:更全面的环境感知

GAIA-2的另一项关键技术突破是支持同时生成多达五个视角的视频. 这对于训练和评估依赖多传感器融合的自动驾驶系统至关重要. 通过确保多个摄像头视角在时间和空间上的一致性， GAIA-2能够帮助AI模型更准确地理解周围环境，从而做出更安全可靠的驾驶决策。

高风险场景模拟:提升系统应对极限情况的能力

为了应对自动驾驶中最大的挑战之一——处理意外情况， GAIA-2具备生成高风险场景的能力. 这包括模拟碰撞前的紧急情况、车辆紧急制动以及车辆出现漂移等极端行为。

传统上，这些安全关键场景在真实世界数据中非常稀少，难以系统地收集和用于训练. GAIA-2通过精确控制场景中各个要素（包括车辆、行人和其他交通参与者的位置、动作和交互） ，能够主动模拟这些高风险情境. 这使得开发者可以在受控的环境中对自动驾驶系统的失效保护机制进行严格的验证，从而在实际道路部署之前就能够提升系统的鲁棒性和安全性。

技术原理:更高效、更可控的生成框架

GAIA-2之所以能够实现如此强大的功能，得益于其先进的模型架构和训练方法. 它采用了潜在扩散模型，并结合了广泛的领域特定条件输入. 这使得GAIA-2能够对包括车辆自身行为（如速度、转向）、环境因素(如天气、时间)、道路配置(如车道数、限速)以及动态交通参与者的行为 等关键驾驶因素进行精确控制。

GAIA-2还引入了视频标记器，将原始像素空间的视频压缩到紧凑的语义潜在空间中，实现了驾驶动态的高效表示. 这种架构上的创新不仅提升了生成效率，也保证了跨多个摄像机视角的时空一致性。

GAIA-2的发布是Wayve在生成式世界建模领域取得的又一重大进展. 其强大的场景生成能力将极大地扩展自动驾驶系统的测试覆盖范围，加速模型的迭代和优化. 通过弥合仿真和实际部署之间的差距， GAIA-2将在推动更安全、更可靠的自动驾驶技术走向现实 的过程中发挥关键作用. Wayve也表示将继续在可控性、场景真实性和智能体交互建模等方面进行探索，以进一步提升生成模型的性能。

项目：https://top.aibase.com/tool/gaia-2

AMD发布GAIA开源项目助力本地大语言模型高效运行

近日，AMD 宣布推出一款名为 GAIA 的开源应用，旨在为用户提供一种高效、本地化的方式来运行大语言模型（LLM）。目前，该应用已支持 Windows 平台，特别为锐龙 AI300系列处理器进行了优化，充分发挥了这些处理器在 AI 任务中的优势。 GAIA 是一个生成式 AI 应用，用户可以在个人电脑上私密地运行 LLM，确保数据隐私。

3/24/2025 9:40:00 AM

AI在线

人类考92分的题，GPT-4只能考15分：测试一升级，大模型全都现原形了

AutoGPT 的得分也凉凉。GPT-4 自诞生以来一直是位「优等生」，在各种考试（基准）中都能得高分。但现在，它在一份新的测试中只拿到了 15 分，而人类能拿 92。这套名叫「GAIA」的测试题由来自 Meta-FAIR、Meta-GenAI、HuggingFace 和 AutoGPT 的团队制作，提出了一些需要一系列基本能力才能解决的问题，如推理、多模态处理、网页浏览和一般工具使用能力。这些问题对人类来说非常简单，但对大多数高级 AI 来说却极具挑战性。如果里面的问题都能解决，通关的模型将成为 AI 研究的重要

11/27/2023 11:07:00 AM

机器之心

一张照片生成视频，张嘴、点头、喜怒哀乐，都可以打字控制

视频 PS 可以灵活到什么程度？最近，微软的一项研究提供了答案。在这项研究中，你只要给 AI 一张照片，它就能生成照片中人物的视频，而且人物的表情、动作都是可以通过文字进行控制的。比如，如果你给的指令是「张嘴」，视频中的人物就会真的张开嘴。如果你给的指令是「伤心」，她就会做出伤心的表情和头部动作。当给出指令「惊讶」，虚拟人物的抬头纹都挤到一起了。此外，你还可以给定一段语音，让虚拟人物的嘴型、动作都和语音对上。或者给定一段真人视频让虚拟人物去模仿。如果你对虚拟人物动作有更多的自定义编辑需求，比如让他们点头、转头或歪头

12/4/2023 11:12:00 AM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek 击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练 DeepMind

顶部