[0003] 本发明是面向语音情感识别这一巨大挑战,利用基于Attention机制的TCN和LSTM来提取情感相关特征,以及最后利用Attention机制进行模型所提取特征之间的非线性融合,建立模型之间的依赖关系以达到更好的语音情感识别效果。
[0004] 基于注意力(Attention)机制的特征融合用于语音情感识别的方法,实现包括以下步骤:
[0005] 步骤一:情感特征提取
[0006] 提取MFCC特征和韵律特征P;
[0007] 步骤二:数据预处理。
[0008] ①、统计提取的MFCC特征中每个句子的时间步 其中Ln表示每个句子经过特征提取后的时间步,n表示句子数量。
[0009] ②、计算时间步的平均长度和时间步的标准差。
[0010] 平均长度
[0011] 标准差
[0012] ③统一每个句子的时间步
[0013] 时间步Tn=Lave+Lsta
[0014] ④、填充,裁减每个句子
[0015] 每个句子都和时间步Tn比较,如果大于Tn,则裁减大于Tn部分;当小于Tn使用零去填充,使之等于Tn,最后的得到的数据为{XT|X1,X2,…,XT,T∈N},其中XT表示一个句子,T表示每个句子的时间步,其中T=750。
[0016] 步骤三:建立基于注意力(Attention)机制的长短期记忆网络(LSTM)解码器。
[0017] ①、长短期记忆网络解码
[0018] HT=LSTM(XT),T∈{0,1,…,750}
[0019] 其中HT为LSTM的隐藏状态。
[0020] ②、注意力加权
[0021] f(HT)=tanh(wTHT+b)
[0022] vT=softmax(f(HT))
[0023] eT=vTHT
[0024] 其中最后输出eT为加权后的三维矩阵,w和b为可训练参数,vT为中间变量,f(·)为相关度函数;
[0025] 步骤四:建立基于注意力机制的时间卷积网络(TCN)解码器。
[0026] ①、时间卷积网络解码
[0027] CT=TCN(XT,k,hd),
[0028] 其中CT为TCN解码的三维向量,k为卷积核大小,hd为隐藏层大小,d为TCN的隐藏层数。
[0029] ②、注意力加权
[0030] f(CT)=tanh(wTCT+b)
[0031] aT=softmax(f(CT))
[0032]
[0033] 其中sT为注意力加权后的二维向量,w和b为可训练参数,aT为中间变量。
[0034] 步骤五:建立基于注意力机制的特征融合层。
[0035] DT=matmul(eT,sT)
[0036] AT=softmax(DT)
[0037]
[0038] 其中WT为非线性融合后的特征,DT表示eT与sT的相关度函数,AT为中间变量。
[0039] 步骤六:建立输出层
[0040] y=softmax(concat(WT,sT,P)M+b)
[0041] 其中P为韵律特征,y为最后输出结果,M和b为网络的可训练参数。
[0042] 本发明相对于现有技术具有的有益效果:
[0043] 本发明使用了一个新颖的模型时间卷积网络(TCN)从低级语音特征中提取情感相关特征,并利用Attention机制关注情感相关特征,实验证明单独的基于Attention机制的TCN实验精度较没有使用Attention机制之前得到大大提升。本发明利用Attention机制建立模型之间依赖关系,以达到非线性特征融合的效果,使模型可以建立不同解码器之间的相互依赖关系,最终达到更好的识别效果。