ICASSP 2022 | 用于多模态情感识别的KS-Transformer

多模态情感识别是人机交互中的重要技术,也是人工智能走向类人智能时所需要攻克的关键难题。

2020年,优必选科技与华南理工大学合作共建了“类人情感智能”联合创新实验室,在双方强强联合下,联合创新实验室在相关技术上不断取得突破。近期,该实验室的最新论文《Key-Sparse Transformer For Multimodal Speech Emotion Recognition》(用于多模态情感识别的KS-Transformer),就入选了刚刚结束的ICASSP 2022(International Conference on Acoustics, Speech and Signal Processing) ,该会议由电气电子工程师学会(IEEE)主办,是全世界最大、最全面的声学、语音和信号处理国际会议。

ICASSP 2022 | 用于多模态情感识别的KS-Transformer

以下是该论文的核心观点。

多模态情感识别是人机交互中的重要技术,也是人工智能走向类人智能时所需要攻克的关键难题。在以往的大多数研究工作当中,情感识别系统会考虑输入语音信号或文字信号中的所有信息。但是,在整段的信号里面,蕴含有情感信息的片段往往只占整体中的一部分。在情感识别过程中,情感无关的信息会成为系统中的噪声,从而影响识别系统的性能。因此,如何让系统尽量关注信号中蕴含有丰富情感信息的片段,是提高情感识别准确率的关键。

我们基于Transformer架构,提出了一种全新的键稀疏Transformer结构(Key-Sparse Transformer, KS-Transformer),可以动态地判断文本信号中的每一个单词,亦或是语音信号中每一帧的重要性,从而帮助模型尽可能把注意力放在与情感相关的片段上。此外,为了更好地利用好多模态信息,我们提出了一个串联的互注意力模块(Cascaded Cross-Attention Block,CCAB),更好融合不同模态之间的信息。

传统的方法:

Transformer

传统的Transformer模型使用了信号中的所有信息。以一段在IEMOCAP数据库中的文本信号“Okay, look it’s a beautiful day. Why are we arguing?”为例,传统的Transformer关注到了文本中的每一个单词,对每一个单词都分配了注意力权重,然而,“beautiful”和“arguing”这两个单词包含了该文本中绝大部分的情感信息,需要模型更多的关注。

ICASSP 2022 | 用于多模态情感识别的KS-Transformer

自动地寻找情感片段:

KS-Transformer

首先,我们重新思考了Transformer中的注意力机制,其计算过程如下所示:

ICASSP 2022 | 用于多模态情感识别的KS-Transformer

ICASSP 2022 | 用于多模态情感识别的KS-Transformer

其中,W是权重矩阵,attn是注意力计算的输出。值得注意的是,对于语音信号,QKV中的每一个token代表语音中的某一帧。对于文本信号,QKV则代表文本中的某一个单词/字。权重矩阵W中的每一行,代表着V中每一个token所分配到的注意力权重。我们把V中同一个token的所有注意力权重进行相加,其和值则代表该token在整个样本中的重要性。直观来看,如果一个token很重要,那么在注意力机制计算的过程中,其他token都应该给它分配一个较大的注意力权重,其和值也必然更加大。相反,如果一个token不重要,其他token都只会分配很小的注意力权重给它,其和值也将很小。我们挑选出k个token,他们具有最大的和值,并保留他们的注意力权重,而将其他token的注意力权重置零。最终,我们设计的注意力机制计算流程如下图所示:

ICASSP 2022 | 用于多模态情感识别的KS-Transformer

为了更好地利用好文本与语音信号的信息,本文提出了一个串联的互注意力模块(Cascaded Cross-Attention Block,CCAB),通过增加不同模态之间的交互次数使模态间的融合更加充分。其详细结构如下图所示:

ICASSP 2022 | 用于多模态情感识别的KS-Transformer

每经过一个CCAB模块,模态B中的信息就通过KS-Transformer注入到了模态A。经过多个CCAB模块,可以使模态A和模态B中的信息实现多次的交互。

实验结果

以下实验在常用情感数据库IEMOCAP以及最新发布的大规模情感数据库LSSED中进行。

1)可视化分析

同样以文本信号“Okay, look it’s a beautiful day. Why are we arguing?”为例,我们对原始Transformer与我们所提出的KS-Transformer中的注意力权重进行了可视化的分析,结果如下图所示。可以看到,Transformer给句子中的每一个单词都分配了注意力权重,包括一些与情感相关性不大的单词,使得模型容易出现过拟合的现象。而KS-Transformer通过稀疏的注意力机制,过滤掉了大部分的噪声单词,减少模型的复杂度的同时提升了模型的鲁棒性。

ICASSP 2022 | 用于多模态情感识别的KS-Transformer

2)探讨最优的稀疏度

为了探讨参数k的最优值,我们将k从10%变到90%,其结果如下:

ICASSP 2022 | 用于多模态情感识别的KS-Transformer我们发现,因为IEMOCAP是一个相对较小的数据库,当k的值大于50%时,模型开始过拟合,并维持UA值不变。而对于大规模的数据集LSSED,当k的值大于50%时,UA值因为噪声信息的引入而快速下降。相反,当k小于50%时,由于模型使用到的信息太少,只能收敛到一个较差的局部点,性能也会变差。因此,我们将k的值设置为50%。

3)多模态交互分析

使用CCAB的数量代表不同模态之间的交互次数。当CCAB的数量从0增加到3时,模型的性能逐步提升。当数量为3时,模型取得了最好的性能。这也说明模态之间进行多次交互的重要性。

ICASSP 2022 | 用于多模态情感识别的KS-Transformer

在人机协作的时代,人机情感交互变得尤为重要,也是科技社会人文关怀的重要体现。未来,优必选科技与华南理工大学将持续在多模态情感计算、类人情感交互等类人情感智能的关键领域开展高水平合作研究,促成类人情感智能技术在机器人产业化中的应用,深入推动人工智能行业的发展。

相关资讯

Bengio等人新作:注意力可被视为RNN,新模型媲美Transformer,但超级省内存

序列建模的进展具有极大的影响力,因为它们在广泛的应用中发挥着重要作用,包括强化学习(例如,机器人和自动驾驶)、时间序列分类(例如,金融欺诈检测和医学诊断)等。在过去的几年里,Transformer 的出现标志着序列建模中的一个重大突破,这主要得益于 Transformer 提供了一种能够利用 GPU 并行处理的高性能架构。然而,Transformer 在推理时计算开销很大,主要在于内存和计算需求呈二次扩展,从而限制了其在低资源环境中的应用(例如,移动和嵌入式设备)。尽管可以采用 KV 缓存等技术提高推理效率,但 T

Karpathy称赞,从零实现LLaMa3项目爆火,半天1.5k star

项目中代码很多很全,值得细读。一个月前,Meta 发布了开源大模型 llama3 系列,在多个关键基准测试中优于业界 SOTA 模型,并在代码生成任务上全面领先。此后,开发者们便开始了本地部署和实现,比如 llama3 的中文实现、llama3 的纯 NumPy 实现等。十几个小时前,有位名为「Nishant Aklecha」的开发者发布了一个从零开始实现 llama3 的存储库,包括跨多个头的注意力矩阵乘法、位置编码和每个层在内都有非常详细的解释。该项目得到了大神 Karpathy 的称赞,他表示项目看起来不错,

想把半本《红楼梦》搬进ChatGPT输入框?先把这个问题解决掉

从 GPT-4 的 32k 到谷歌 CoLT5 的 64k 再到最新研究的 200万 token,类ChatGPT 模型们可以处理的文本长度正在急剧增加,这意味着它们的应用范围也越来越广。或许有一天,ChatGPT 能帮乔治·马丁把《冰与火之歌》(权力的游戏)写完呢?过去两年,斯坦福大学 Hazy Research 实验室一直在从事一项重要的工作:增加序列长度。 他们有一种观点:更长的序列将开启机器学习基础模型的新时代 —— 模型可以从更长的上下文、多种媒体源、复杂的演示等中学习。目前,这项研究已经取得了新进展。H