让蒙娜丽莎唱饶舌，微软发布 VASA-1 模型：图 + 音频可生成短视频

微软亚洲研究院（Microsoft Research Asia）近日发表论文，介绍了全新的 VASA-1 模型，用户只需要提供一张静态肖像图片和一段语音音频片段，该模型就能主动让图片中的人物主动说话。 VASA-1 特别有趣的地方在于，它能够模拟自然的面部表情、各种情绪和唇部同步，最重要的是几乎没有人工痕迹，如果不细看很难发现。研究职员承认，与所有其他模型一样，该模型目前还无法妥善处置头发等非刚性元素，但整体效果要比其它同类模型要更为优秀。研究职员还表示 VASA-1 支持离线 batch 处置形式下，以 45

微软亚洲研究院（Microsoft Research Asia）近日发表论文，介绍了全新的 VASA-1 模型，用户只需要提供一张静态肖像图片和一段语音音频片段，该模型就能主动让图片中的人物主动说话。

VASA-1 特别有趣的地方在于，它能够模拟自然的面部表情、各种情绪和唇部同步，最重要的是几乎没有人工痕迹，如果不细看很难发现。

研究职员承认，与所有其他模型一样，该模型目前还无法妥善处置头发等非刚性元素，但整体效果要比其它同类模型要更为优秀。

让蒙娜丽莎唱饶舌，微软发布 VASA-1 模型：图 + 音频可生成短视频

研究职员还表示 VASA-1 支持离线 batch 处置形式下，以 45fps 生成分辨率为 512*512 的动态短视频，在线直播形式下可以达到 40 fps，且延迟仅为 170ms。而且整个生成操作只需要一台配备英伟达 RTX 4090 显卡的电脑上就能处置。

IT之家附上参考地址

New VASA-1 model by Microsoft Research Asia

VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

{{userData.name}}已认证

让蒙娜丽莎唱饶舌，微软发布 VASA-1 模型：图 + 音频可生成短视频

Meta AI 全球市场扩张，并上线网页版 meta.ai

台积电：AI 服务器处理器需要快速增长，预计到 2028 年奉献 20% 营收

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

平安人寿ChatBI：大模型智能化报表的深度实践

ChatGPT遇到这些人名开始自闭，OpenAI回应了

字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

OpenAI 从谷歌 DeepMind 挖角三名高级工程师，专注于多模态 AI 研发

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！