国产文生视频大模型 Vidu 发布 1.5 版本更新：可保证多不同视角下的一致性

作者：清源

2024-11-14 04:27

国产文生视频大模型厂商Vidu昨日宣布，Vidu 1.5新版本正式上线，其实现了“世界领先水平”的突破——能够理解多样化的输入，突破“一致性”的难题。

感谢国产文生视频大模型厂商 Vidu 昨日宣布，Vidu 1.5 新版本正式上线，其实现了“世界领先水平”的突破 —— 能够理解多样化的输入，突破“一致性”的难题。

Vidu 方面称，其在上线之初就已具备角色一致性生成能力，通过锁定人物面部特征可解决视频生成的关键痛点，确保了人物面部特征的一致性。此次发布的更新中，Vidu 则首次展现了上下文学习的能力，提升了整体视频模型的可控性，通过灵活的多元输入实现了多角度、多主体、多元素的一致性生成。

AI在线获悉，其在三个方面直观呈现了“技术突破”：

复杂主体的精准控制：无论是细节丰富的角色，还是复杂的物体，Vidu 都能保证其在多个不同视角下的一致性。如造型复杂的 3D 动画风格角色，无论视角如何变化，其能够始终确保头型、服饰的全角度细节一致，避免了传统视频模型在复杂视角切换时产生的瑕疵。

人物面部特征和动态表情的自然一致：在人物特写镜头中，其能够自然且流畅地保持人物面部特征和表情的连贯性，避免了面部僵硬或失真的现象。
多主体一致性：用户可上传多个主题图像，包括人物角色、道具物体、环境背景等，并在视频生成中实现这些元素的交互。例如，用户可以上传主体、客体和环境的图片，创建定制角色身穿特定服装、在定制空间内自由动作的场景。

相关标签：

文生视频 Vidu

相关资讯

中国首个 Sora 级模型 Vidu 发布：可生成最长 16 秒、最高 1080P 视频

中国首个 Sora 级模型 Vidu 发布：可生成最长 16 秒、最高 1080P 视频

感谢生数科技今天出席中关村论坛未来人工智能先锋论坛，携手清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型 ——Vidu，被媒体和业内人士认为是国内首个 Sora 级别的视频大模型。根据官方描述，Vidu 模型融合 Diffusion 与 Transformer，开创性创建了 U-ViT，支持一键生成长达 16 秒、分辨率高达 1080P 的高清视频内容。官方宣传资料中演示了“画室中的一艘船驶向镜头”、其海浪、船的效果非常逼真。官方表示 Vidu 不仅能够模拟真实物理世界，还拥有丰富想象力，具备多镜头生

国产文生视频大模型 Vidu 将迎更新：支持生成 32 秒内容、音视频合成

国产文生视频大模型 Vidu 将迎更新：支持生成 32 秒内容、音视频合成

感谢据“钛媒体 AGI”周四报道，生数科技、清华大学联合发布的国内首个长时长、高一致性、高动态性的视频大模型 Vidu 将于近期完成三大更新，实现“重大技术迭代”。主要更新内容如下：支持一键生成 32s 视频支持音视频合成，“视频有声音了”（Text-2-Audio）支持 4D 生成，可以从单一视频生成时空一致的 4D 内容IT之家附部分视频预览：据介绍，Vidu 是自 Sora 发布之后，全球率先取得重大突破的视频大模型，并且仍在加速迭代提升中。据IT之家此前报道，Vidu 模型融合 Diffusion

当前最强国产Sora！清华团队突破16秒长视频，懂多镜头语言，会模拟物理规律

当前最强国产Sora！清华团队突破16秒长视频，懂多镜头语言，会模拟物理规律

你说箱子里要装满钻石，于是箱子被钻石填满，比实拍还要耀眼。这样的技能，哪个剧组不喜欢？这是前段时间 Adobe 旗下的视频剪辑软件 Premiere Pro 所呈现的「魔法」。该软件通过引入 Sora、Runway、Pika 等 AI 视频工具，实现在视频中添加物体、消除物体以及生成视频片段等能力，这被视为视频领域的再一次技术革新。从 2 月份 Sora 席卷全球到如今 Adobe 再施魔法，海外热火朝天。相比之下，国内在视频领域，尤其是长视频生成方向还处于「等待」状态。在过去的两个月里，我们已经听到了一些宣称追赶

资讯热榜

罗永浩 Jarvis 初创项目“J1 Assistant AI 助理”上线，利用语音与大模型互动突破非视距条件依赖！大规模区域、低成本的UWB-LiDAR标定与单次定位框架 SK 海力士宣布参展 CES 2025，将展示 122TB 企业级固态硬盘等产品类 Mac Mini 大小的个人 AI 超算：英伟达 Project Digits 发布，起价 3000 美元斯坦福AI科研神器开源，一键成文GPT-4o mini加持！科研写作彻底解放双手从DeepSeek-V3发布谈大模型的技术突破与未来机遇别再将LLM当成数据库了 3 到 5 秒即可同声传译 40 余种语言，时空壶推出 W4 Pro 实时翻译耳机

标签云