国产文生视频大模型 Vidu 将迎更新：支持生成 32 秒内容、音视频合成

2024-06-07 02:25

感谢据“钛媒体 AGI”周四报道，生数科技、清华大学联合发布的国内首个长时长、高一致性、高动态性的视频大模型 Vidu 将于近期完成三大更新，实现“重大技术迭代”。主要更新内容如下：支持一键生成 32s 视频支持音视频合成，“视频有声音了”（Text-2-Audio）支持 4D 生成，可以从单一视频生成时空一致的 4D 内容IT之家附部分视频预览：据介绍，Vidu 是自 Sora 发布之后，全球率先取得重大突破的视频大模型，并且仍在加速迭代提升中。据IT之家此前报道，Vidu 模型融合 Diffusion

感谢据“钛媒体 AGI”周四报道，生数科技、清华大学联合发布的国内首个长时长、高一致性、高动态性的视频大模型 Vidu 将于近期完成三大更新，实现“重大技术迭代”。

主要更新内容如下：

支持一键生成 32s 视频

支持音视频合成，“视频有声音了”（Text-2-Audio）

支持 4D 生成，可以从单一视频生成时空一致的 4D 内容

IT之家附部分视频预览：

据介绍，Vidu 是自 Sora 发布之后，全球率先取得重大突破的视频大模型，并且仍在加速迭代提升中。

据IT之家此前报道，Vidu 模型融合 Diffusion 与 Transformer，开创性创建了 U-ViT，在 4 月发布时支持一键生成长达 16 秒、分辨率高达 1080P 的高清视频内容。官方表示 Vidu 不仅能够模拟真实物理世界，还拥有丰富想象力，具备多镜头生成、时空一致性高等特点。

中国首个 Sora 级模型 Vidu 发布：可生成最长 16 秒、最高 1080P 视频

感谢生数科技今天出席中关村论坛未来人工智能先锋论坛，携手清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型 ——Vidu，被媒体和业内人士认为是国内首个 Sora 级别的视频大模型。根据官方描述，Vidu 模型融合 Diffusion 与 Transformer，开创性创建了 U-ViT，支持一键生成长达 16 秒、分辨率高达 1080P 的高清视频内容。官方宣传资料中演示了“画室中的一艘船驶向镜头”、其海浪、船的效果非常逼真。官方表示 Vidu 不仅能够模拟真实物理世界，还拥有丰富想象力，具备多镜头生

4/27/2024 1:17:17 PM

故渊

港科技最新DrivingRecon：可泛化自动驾驶4D重建新SOTA！

写在前面&笔者的个人理解从这一两年发表的论文数量可以看出，自动驾驶街景的重建与仿真备受关注，由此构建的自动驾驶仿真器对corner case的生成以及端到端模型的闭环评估/测试都非常重要，本次分享的是一篇关于自动驾驶场景4D重建的工作DrivingRecon。论文链接: : ，比较具有代表性的是StreetGaussian，OmniRe这一类借助3D bbox将静态背景和动态物体解耦的框架，后来又出现了使用4D NeRF学习动态信息的方法，虽然取得了不错的效果，但这些方法都有一个共性，就是需要不断的训练来进行重建，即每个场景训练一个模型，非常耗时。因此作者提出了一种可泛化的自动驾驶4D重建模型DrivingRecon。

12/26/2024 9:17:27 AM

自动驾驶之心

动态场景，开放文本查询！清华哈佛联合建模4D语言场 | CVPR 2025

构建支持开放词汇查询的语言场在机器人导航、3D场景编辑和交互式虚拟环境等众多应用领域展现出巨大的潜力。尽管现有方法在静态语义场重建方面已取得显著成果，但如何建模4D语言场（4D language fields）以实现动态场景中时间敏感且开放式的语言查询，仍面临诸多挑战，动态世界的语义建模对于推动许多实际应用的落地至关重要。近日，来自清华大学、哈佛大学等机构的研究团队提出了一种创新方法4D LangSplat，基于动态三维高斯泼溅技术，成功重建了动态语义场，能够高效且精准地完成动态场景下的开放文本查询任务。

4/3/2025 10:12:30 AM

新智元

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果 AI视频模态驾驶文本人形机器人 xAI 搜索大语言模型 Copilot Claude 字节跳动具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

国产文生视频大模型 Vidu 将迎更新：支持生成 32 秒内容、音视频合成

相关资讯

中国首个 Sora 级模型 Vidu 发布：可生成最长 16 秒、最高 1080P 视频

港科技最新DrivingRecon：可泛化自动驾驶4D重建新SOTA！

动态场景，开放文本查询！清华哈佛联合建模4D语言场 | CVPR 2025