VASA

微软推出 VASA-1 AI 框架，可即时生成 512x512 40FPS 逼真对口型人像视频

据微软官方新闻稿，微软今天公布了一项图生视频的 VASA-1 框架，该 AI 框架只需使用一张真人肖像照片和一段个人语音音频，就能够生成精确逼真的对口型视频（生成念稿子的视频），据称在表情和头部动作方面特别自然。IT之家获悉，目前业界相关许多研究都集中在对口型上，而面部动态行为及头部运动情况通常被忽视，因此生成的面部也会显得僵硬、缺乏说服力且存在恐怖谷现象。而微软的 VASA-1 框架克服了以往面部生成技术的限制，研究人员利用了扩散 Transformer 模型，在整体面部动态和头部运动方面进行训练，该模型将所有可

4/21/2024 6:20:39 PM

漾仔

让蒙娜丽莎唱饶舌，微软发布 VASA-1 模型：图 + 音频可生成短视频

微软亚洲研究院（Microsoft Research Asia）近日发表论文，介绍了全新的 VASA-1 模型，用户只需要提供一张静态肖像图片和一段语音音频片段，该模型就能自动让图片中的人物自动说话。 VASA-1 特别有趣的地方在于，它能够模拟自然的面部表情、各种情绪和唇部同步，最重要的是几乎没有人工痕迹，如果不细看很难发现。研究人员承认，与所有其他模型一样，该模型目前还无法妥善处理头发等非刚性元素，但整体效果要比其它同类模型要更为优秀。研究人员还表示 VASA-1 支持离线 batch 处理模式下，以 45

4/19/2024 10:57:00 AM

故渊

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool GGUF 是什么？一文看懂大模型里最火的模型格式 AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 Sora、可灵、即梦哪家强？AI视频软件深度测评！免注册免费用！17种AI绘图模型一站式体验平台LMArena 可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评深度拆解！这可能是全网最详细的AI视频创作教程 LangChain V1.0 深度解析：手把手带你跑通全新智能体架构

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI绘画大模型机器人数据 AI新词 Midjourney 开源 Meta 微软智能用户 GPT 学习技术智能体 Gemini 马斯克 Anthropic 英伟达图像 AI创作训练 LLM 论文代码算法苹果 AI for Science Agent Claude 腾讯芯片 Stable Diffusion 蛋白质具身智能开发者 xAI 生成式神经网络机器学习人形机器人 3D AI视频 RAG 大语言模型研究百度 Sora 生成 GPU 工具华为字节跳动计算 AGI 大型语言模型 AI设计搜索生成式AI 视频生成 DeepMind 特斯拉场景 AI模型深度学习亚马逊架构 Transformer MCP 编程视觉预测