微软推出 VASA-1 AI 框架，可即时生成 512x512 40FPS 真切对口型人像视频

据微软官方新闻稿，微软今天公布了一项图生视频的 VASA-1 框架，该 AI 框架只需使用一张真人肖像照片和一段个人语音音频，就可能生成精确真切的对口型视频（生成念稿子的视频），据称在脸色和头部举措方面特别自然。IT之家获悉，目前业界相关许多研究都集中在对口型上，而脸部动向行动及头部静止情况通常被忽视，因此生成的脸部也会显得僵硬、缺乏说服力且存在恐怖谷现象。而微软的 VASA-1 框架克服了以往脸部生成技能的限制，研究人员行使了扩散 Transformer 模型，在整体脸部动向和头部静止方面进行训练，该模型将所有可

据微软官方新闻稿，微软今天公布了一项图生视频的 VASA-1 框架，该 AI 框架只需使用一张真人肖像照片和一段个人语音音频，就可能生成精确真切的对口型视频（生成念稿子的视频），据称在脸色和头部举措方面特别自然。

IT之家获悉，目前业界相关许多研究都集中在对口型上，而脸部动向行动及头部静止情况通常被忽视，因此生成的脸部也会显得僵硬、缺乏说服力且存在恐怖谷现象。

而微软的 VASA-1 框架克服了以往脸部生成技能的限制，研究人员行使了扩散 Transformer 模型，在整体脸部动向和头部静止方面进行训练，该模型将所有可能的脸部动向，包括嘴唇举措、脸色、眼睛注视和眨眼等行动均视为单一潜在变量（即一次生成整个具有高度细节的人脸），号称可能即时生成 512×512 分辨率 40 FPS 的视频。

微软推出 VASA-1 AI 框架，可即时生成 512x512 40FPS 真切对口型人像视频

IT之家同时注意到，微软还行使了 3D 技能辅助标记人脸脸部特征，并额外设计了损失函数，号称可能让 VASA-1 不仅可能生成高品质的脸部视频，还可能有效地捕捉和重现脸部 3D 结构。

{{userData.name}}已认证

微软推出 VASA-1 AI 框架，可即时生成 512×512 40FPS 真切对口型人像视频

GPT-4 化身黑客搞破坏，顺利率 87%！OpenAI 要求保密提醒词，网友复现 ing

海外写作平台 Medium 5 月起阻止颁布完整由 AI 生成的付费类文章

推理模型 DeepSeek-R1-Lite 预览版上线，号称媲美 OpenAI o1-preview

AI自动操作VS Code，自然语言搞定各种配置，来自阿里通义智能计算实验室 | 开源

九大成像模式一键解析，生物医学图像AI再迎突破！微软、UW等BiomedParse登Nature子刊

SU 哈佛亚马逊最新研究：量化能让大模型“恢复记忆”，删掉的隐私版权内容全回来了

微软在东京开设其日本首个研发中心，专注于将机器人技术与 AI 相结合

AI 助力脑瘤手术：10 秒内精准识别残留肿瘤

闲鱼注册用户突破 6 亿，AI 技术已应用于闲置交易全链路

谷歌又捣鼓出好东西！有了这款AI学习神器，考试起码多考50分