顺着网线爬过来成真了,Audio2Photoreal通过对话就能生成真切心情与举动

多模态的发展已经开始超乎我们的想象了。当你和朋友隔着冷冰冰的手机屏幕聊天时,你得猜猜对方的语气。当 Ta 发语音时,你的脑海中还能浮现出 Ta 的心情甚至举动。如果能视频通话显然是最好的,但在实际情况下并不能随时拨打视频。如果你正在与一个远程朋友聊天,不是通过冰冷的屏幕文字,也不是缺乏心情的虚拟形象,而是一个真切、动态、充满心情的数字化虚拟人。这个虚拟人不仅能够完美地复现你朋友的微笑、眼神,甚至是细微的肢体举动。你会不会感到更加的亲切和温暖呢?真是体现了那一句「我会顺着网线爬过来找你的」。这不是科幻想象,而是在实际

多模态的发展已经开始超乎我们的想象了。

当你和朋友隔着冷冰冰的手机屏幕聊天时,你得猜猜对方的语气。当 Ta 发语音时,你的脑海中还能浮现出 Ta 的心情甚至举动。如果能视频通话显然是最好的,但在实际情况下并不能随时拨打视频。

如果你正在与一个远程朋友聊天,不是通过冰冷的屏幕文字,也不是缺乏心情的虚拟形象,而是一个真切、动态、充满心情的数字化虚拟人。这个虚拟人不仅能够完美地复现你朋友的微笑、眼神,甚至是细微的肢体举动。你会不会感到更加的亲切和温暖呢?真是体现了那一句「我会顺着网线爬过来找你的」。

这不是科幻想象,而是在实际中可以实现的技术了。顺着网线爬过来成真了,Audio2Photoreal通过对话就能生成真切心情与举动

脸部心情和肢体举动包含的信息量很大,这会极大程度上影响内容表达的意思。比如眼睛一直看着对方说话和眼神基本上没有交流的说话,给人的感觉是截然不同的,这也会影响另一方对沟通内容的理解。我们在交流过程中对这些细微的心情和举动都有着极敏锐的捕捉能力,并用它们来形成对交谈伙伴意图、舒适度或理解程度的高级理解。因此,开发能够捕捉这些微妙之处的高度真切的对话虚拟人对于互动至关重要。

为此,Meta 与加利福尼亚大学的研究者提出了一种根据两人对话的语音音频生成真切虚拟人的办法。它可以合成各种高频手势和心情丰富的脸部举动,这些举动与语音非常同步。对于身材和手部,他们利用了鉴于自回归 VQ 的办法和聚集模型的优势。对于脸部,他们使用以音频为前提的聚集模型。然后将预测的脸部、身材和手部活动渲染为真切虚拟人。研究者证明了在聚集模型上添加疏导姿态前提能够生成比以前的作品更百般化和合理的对话手势。

顺着网线爬过来成真了,Audio2Photoreal通过对话就能生成真切心情与举动

论文地址:https://huggingface.co/papers/2401.01885

项目地址:https://people.eecs.berkeley.edu/~evonne_ng/projects/audio2photoreal/

研究者表示,他们是第一个研究如何为人际对话生成真切脸部、身材和手部举动的团队。与之前的研究相比,研究者鉴于 VQ 和聚集的办法合成了更真切、更百般的举动。顺着网线爬过来成真了,Audio2Photoreal通过对话就能生成真切心情与举动百般的举动 1顺着网线爬过来成真了,Audio2Photoreal通过对话就能生成真切心情与举动

百般的举动 2

办法概览

研究者从记录的多视角数据中提取潜在心情代码来表示脸部,并用活动骨架中的关节角度来表示身材姿态。如图 3 所示,本文系统由两个生成模型组成,在输入二人对话音频的情况下,生成心情代码和身材姿态序列。然后,心情代码和身材姿态序列可以使用神经虚拟人渲染器逐帧渲染,该渲染器可以从给定的相机视图中生成带有脸部、身材和手部的完整纹理头像。

顺着网线爬过来成真了,Audio2Photoreal通过对话就能生成真切心情与举动

需要注意的是,身材和脸部的动态变化非常不同。首先,脸部与输入音频的相关性很强,尤其是嘴唇的活动,而身材与语音的相关性较弱。这就导致在给定的语音输入中,肢体手势有着更加复杂的百般性。其次,由于在两个不同的空间中表示脸部和身材,因此它们各自遵循不同的时间动态。因此,研究者用两个独立的活动模型来模拟脸部和身材。这样,脸部模型就可以「主攻」与语音一致的脸部细节,而身材模型则可以更加专注于生成百般但合理的身材活动。

脸部活动模型是一个聚集模型,以输入音频和由预先训练的唇部回归器生成的唇部顶点为前提(图 4a)。对于肢体活动模型,研究者发现仅以音频为前提的纯聚集模型产生的活动缺乏百般性,而且在在时间序列上显得不够协调。但是,当研究者以不同的疏导姿态为前提时,质量就会提高。因此,他们将身材活动模型分为两部分:首先,自回归音频前提变换器预测 1fp 时的粗略疏导姿态(图 4b),然后聚集模型利用这些粗略疏导姿态来填充细粒度和高频活动(图 4c)。关于办法设置的更多细节请参阅原文。

顺着网线爬过来成真了,Audio2Photoreal通过对话就能生成真切心情与举动

实验及结果

研究者根据真实数据定量评价了 Audio2Photoreal 有效生成真切对话举动的能力。同时,还进行了感知评价,以证实定量结果,并衡量 Audio2Photoreal 在给定的对话环境中生成手势的恰当性。实验结果表明,当手势呈现在真切的虚拟化身上而不是 3D 网格上时,评价者对微妙手势的感知更敏锐。

研究者将本文办法与 KNN、SHOW、LDA 这三种基线办法根据训练集中的随机活动序列进行了生成结果对比。并进行了消融实验,测试了没有音频或指导姿态的前提下、没有疏导姿态但鉴于音频的前提下、没有音频但鉴于疏导姿态的前提下 Audio2Photoreal 每个组件的有效性。

定量结果

表 1 显示,与之前的研究相比,本文办法在生成百般性最高的活动时,FD 分数最低。虽然随机具有与 GT 相匹配的良好百般性,但随机片段与相应的对话动态并不匹配,导致 FD_g 较高。

顺着网线爬过来成真了,Audio2Photoreal通过对话就能生成真切心情与举动

图 5 展示了本文办法所生成的疏导姿态的百般性。通过鉴于 VQ 的变换器 P 采样,可以在相同音频输入的前提下生成风格迥异的姿态。

顺着网线爬过来成真了,Audio2Photoreal通过对话就能生成真切心情与举动

如图 6 所示,聚集模型会学习生成动态举动,其中的举动会与对话音频更加匹配。

顺着网线爬过来成真了,Audio2Photoreal通过对话就能生成真切心情与举动

图 7 表现了 LDA 生成的活动缺乏活力,举动也较少。相比之下,本文办法合成的活动变化与实际情况更为吻合。

顺着网线爬过来成真了,Audio2Photoreal通过对话就能生成真切心情与举动

此外,研究者还分析了本文办法在生成嘴唇活动方面的准确度。如表 2 中的统计所示,Audio2Photoreal 显著优于基线办法 SHOW,以及在消融实验中移除预训练的嘴唇回归器后的表现。这一设计改善了说话时嘴形的同步问题,有效避免了不说话时口部出现随机张开和闭合的举动,使得模型能够实现更出色的的嘴唇举动重建,同时降低了脸部网格顶点(网格 L2)的误差。

顺着网线爬过来成真了,Audio2Photoreal通过对话就能生成真切心情与举动

定性评价

由于对话中手势的连贯性难以被量化,研究者采用了定性办法做评价。他们在 MTurk 进行了两组 A/B 测试。具体来说,他们请测评人员观看本文办法与基线办法的生成结果或本文办法与真实情景的视频对,请他们评价哪个视频中的活动看起来更合理。

如图 8 所示,本文办法显著优于此前的基线办法 LDA,大约有 70% 的测评人员在网格和真实度方面更青睐 Audio2Photoreal。

如图 8 顶部图表所示,和 LDA 相比,评价人员对本文办法的评价从「略微更喜欢」转变为「强烈喜欢」。和真实情况相比,也呈现同样的评价。不过,在真切程度方面,评价人员还是更认可真实情况,而不是 Audio2Photoreal。

顺着网线爬过来成真了,Audio2Photoreal通过对话就能生成真切心情与举动

更多技术细节,请阅读原论文。

给TA打赏
共{{data.count}}人
人已打赏
应用

OpenAI也在996?一位离任职工自白:代码孝敬第四,经常处事6天

2024-1-8 14:18:00

应用

AI解读视频张口就来?这种「幻觉」难题Vista-LLaMA给解决了

2024-1-8 14:55:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索