AI好好用报道
编辑:Sia
音频视频的同步生成,是时候开卷了~
承认吧,虽然谷歌 Veo2 在视频生成上完虐了 Sora,但生成的还是个默片。
没声音的 AI 视频,说白了就是个半成品。
看看这组数字:
谷歌开放的大规模音频数据集 AudioSet 显示,82% 以上的视频都有人声或音乐;去年抖音上传的 100 多亿条视频里,差不多八成都配了背景音乐。
号称今年华语最佳电影《好东西》最封神的一场戏,正好也与声音有关。
在声效蒙太奇下,日常家务也有山河之声。
最近火爆全网的 The Heist 也是个好例子。
来自 x @jasonzada
虽然每个画面都是用 Google Veo 2 靠文字生成的,但你猜怎么着?作者最费劲的活儿反而是后期音效 ,全靠手动完成。
作者吐槽,最为致命
看来大家说的没错啊,视听同步生成还真是 AIGC 领域的下一个「硬骨头」!但好消息是,战斗已经打响了。
近期,伊利诺伊大学和索尼的联合团队搞出了一个配音工具 MMAudio——上传一段视频,不需要人工手动,系统可以自动生成合适的音频,效果很不错。
一个 8 秒的高质量音频片段仅需 1.23 秒!
工具链接:
https://replicate.com/zsxkib/mmaudio官方 Demo 先走一波:
Videos from Sora
Videos from Veo 2
MMAudio 专注于模拟真实世界的各种声音,主要分两大类:环境音效和动作音效。环境音效指的是场景中的背景声音,比如下雨声、河流声、风吹树叶的沙沙声、鸟叫声等自然环境的声音。
这是大导演库布里克的电影《闪灵》中的一个场景,原来只有背景音乐,没有音效。
体验一下 MMAudio 想象出来的效果。
来自 X @cocktailpeanut
灾难现场的模拟。
来自X @blizaine
动作音效则是视频中可见事件产生的声音,例如物体碰撞的声音、运动器材的声音(如网球拍击球)、动物的叫声(如狗叫)等。
MMAudio 可以重现李小龙功夫音,难得的是,双节棍舞动的声音也有卡点。
来自x @cocktailpeanut
就连一段苹果发布会的视频也能整出动静。你别说,挺合理,同样卡点准确!
我们也试了一把。
这是一段旅行拍摄的山鹌鹑,因为距离很远,原视频只有杂音。
上传到 MMAudio 、输入提示词,结果很理想。
不仅没了原来的杂音,还添加了动物的声音,更适合发圈了:
提示词:A covey of quail
上传一段法国小哥卖煎饼果子的视频,听听音效怎么样?
MMAudio 就像一个专业拟音师,通过生成与视频画面在语义和时间上都同步的自然声效,让视频内容更真实生动。虽然它的主要目标不是生成音乐和人声,但研究表明,多模态联合训练并未影响其在单模态任务上的表现。
换句话说,它也能生成背景音乐甚至人声,虽然不是专业的。
官方给出的demo之一,就是给视频配上印度风格的BGM。
确实也有网友用 MMAudio 生出了背景音乐。
prompt: Christmas snow holiday music Santa Claus Festive
话又说回来,有没有给视频一键生成背景音乐的工具呢?你别说,还真有!而且,免费!
且听下回分解。
文中视频链接:https://mp.weixin.qq.com/s/F5RkV5bD_itV720yvfZ3-Q
以后我们会带来更多好玩的AI评测,也欢迎大家进群交流。