谷歌 DeepMind 新研究:应用 AI 模型为无声视频配音

据谷歌 DeepMind 新闻稿,DeepMind 近日公布了一项应用 AI 为无声视频生成后台音乐的“video-to-audio”技术。IT之家获悉,当前 DeepMind 这款 AI 模型依然存在局限性,需要开发者使用提醒词为模型预先“介绍”视频可能的声响,暂时不能间接根据视频画面增添具体音效。据悉,该模型首先会将用户输出的视频进行拆解,此后结合用户的用户笔墨提醒,应用扩散模型反复运算,最终以生成与视频画面协调的后台声响,例如输出一条“在黑暗中行走”的无声视频,再增添“电影、恐怖片、音乐、紧张、混凝土上的脚步

据谷歌 DeepMind 新闻稿,DeepMind 近日公布了一项应用 AI 为无声视频生成后台音乐的“video-to-audio”技术。

IT之家获悉,当前 DeepMind 这款 AI 模型依然存在局限性,需要开发者使用提醒词为模型预先“介绍”视频可能的声响,暂时不能间接根据视频画面增添具体音效

据悉,该模型首先会将用户输出的视频进行拆解,此后结合用户的用户笔墨提醒,应用扩散模型反复运算,最终以生成与视频画面协调的后台声响,例如输出一条“在黑暗中行走”的无声视频,再增添“电影、恐怖片、音乐、紧张、混凝土上的脚步声”等笔墨提醒,相关模型就能生成恐怖风格的后台音效。

谷歌 DeepMind 新研究:应用 AI 模型为无声视频配音

DeepMind 同时表示,该“video-to-audio”模型可以为任何视频生成无限数量的音轨,还不妨通过提醒词实质判断生成的音频“正向性”或“反向性”,从而令生成的声响更切近某些特定场景

展望未来,DeepMind 表示研究人员正进一步优化这款“video-to-audio”模型,计划未来不妨让模型间接根据视频实质,无须通过提醒词即可生成视频后台音,同时还将改善视频中人物对白的口型同步能力。

给TA打赏
共{{data.count}}人
人已打赏
AI

金山办公 WPS AI 外洋版发布,外洋月活设备数已超两亿

2024-6-18 18:15:15

AI

风清、风雷、风顺,中国气象局发布三个 AI 气象大模型零碎

2024-6-19 7:15:12

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索