[0059] 以下是本发明的具体实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
[0060] 本发明提供一种语音转换方法,该发明的技术原理如下:
[0061] 本发明所述的一种语音转换方法,具有在语音资料充足的条件下,提供一种精确高效的实现将音源的声音变换为目标音的声音的方法的功能。可以根据音源和目标音的声音的数学特点,通过对二者声音进行建模并进行算法运算,将音源的声音准确转化为目标音的声音。
[0062] 实施例一
[0063] 本实施例提供一种计算算法,特别应用于一种语音转换方法,在本实施例中,所述算法需要在拥有充足语音资料的条件下,根据音源和目标音的声音的数学特点,通过对二者声音进行建模并进行算法运算,将音源的声音准确转化为目标音的声音。
[0064] 如图1所示,所述的一种语音转换方法,包括以下几个步骤:
[0065] S1:提取音源与目标音的语音特征;所述的语音资料包括:音源与目标音两者的内容一样的句数相同的语音资料各100句以上(题材不限),且所述的语音资料还包括:两者声音的数学特点;
[0066] S2:对音源与目标音的语音信息进行动态时间规整;所述的步骤S2包括:运用动态时间算法(DTW)将长度不相同的两矩阵变为等长的X,Y,使得对应的源和目标线性谱频率在设定失真准则上具有最小失真距离,使音源和目标音的特征序列在参数层面上相关联,并将两矩阵联合为一个矩阵z;
[0067] S3:运用高斯混合模型与聚类算法训练规整后的语音;所述的步骤S3包括:通过上一步得到的矩阵z,对高斯混合模型进行初始化;运用高斯混合模型的期望最大化算法对初始化后的高斯模型进行计算,以达到将音源和目标音的模型相拟合的目的;
[0068] S4:提取音源的语音信息并将其用训练后所得的数据进行转换,合成为目标音。
[0069] 具体步骤:
[0070] 1.提取音源与目标音的语音特征
[0071] ①准备两者的内容一样的句数相同的语音资料各100句以上(题材不限)使用STRAIGHT模型分别从中提取基频信息f0,非周期分量ap,平滑功率谱参数sp。
[0072] ②使用SPTK工具降维将平滑功率谱参数sp转化为广义梅尔倒谱参数mgc,这时得到源音源语音矩阵X与目标音语音矩阵Y。
[0073] 2.对两者的语音矩阵进行动态时间规整
[0074] 运用动态时间算法(DTW)将长度不相同的两矩阵变为等长的x,y,使得对应的源和目标线性谱频率在设定失真准则上具有最小失真距离,使源和目标人的特征序列在参数层面上相关联,并将两矩阵联合为一个矩阵z
[0075] 3.运用高斯混合模型与聚类算法训练规整后的语音,如图2所示,此步骤分为两部分:
[0076] ⑴通过上一步得到的矩阵z,对高斯混合模型进行初始化,实现此目的步骤为:
[0077] 第1步,设定好矩阵的维度M,聚类模型个数k,运用K均值算法算出聚类均值uz。
[0078] 第2步,通过每一个聚类中点的个数计算出混合系数。
[0079] 第3步,从矩阵z中取出每一个均值的数据矩阵C,并通过C计算该聚类的协方差矩阵∑z。
[0080] ⑵运用高斯混合模型的期望最大化算法对初始化后的高斯模型进行计算,以达到将源说话人和目标说话人的模型相拟合的目的:
[0081] 第1步,首先根据公式
[0082]
[0083] 其中,P(Zj|ui,∑i)表示先验概率,zj表示联合矢量,ui表示均值矢量,Σi表示协方差矩阵,T表示矩阵的转置;规定各个符号的下标j表示行向量,i表示列向量,r表示第r个分块矩阵;
[0084] 计算先验概率P(Zj|ui,∑i);需注意的是,在这一过程中运用了cholesky分解将协方差矩阵分解为对角矩阵,这样在保证精度的前提下,又提高了运算速度。
[0085] 第2步,利用贝叶斯定理,由公式
[0086]
[0087] 其中,αi表示高斯混合模型各个分量的权重系数;
[0088] 计算后验概率λ(eji)。
[0089] 第3步,通过上式算出的后验概率,根据公式计算以下变量
[0090]
[0091]
[0092] αi(new)=ni/k
[0093]
[0094] 其中,N表示训练语音的特征参数的数量;ni表示所有特征矢量在第i个分量中的后验概率之和,ui(new)表示更新后的第i个分量的均值矢量、αi(new)表示更新后的第i个分量的权重系数,∑i(new)表示更新后的第i个分量的协方差矩阵。
[0095] 第4步,将以上3步迭代20次,得出最终的加权系数α,协方差矩阵∑z,聚类均值矩阵uz。
[0096] 4.转化与合成阶段
[0097] 第1步,运用训练后得到的uz,∑z,根据公式
[0098]
[0099] 其中,ux表示音源的特征参数均值矢量,uy表示目标音的特征参数均值矢量,∑xx表示音源特征参数的自协方差矩阵,∑yy表示目标音特征参数的自协方差矩阵,∑xy和∑yx表示互协方差矩阵;得出音源和目标音的均值矢量ux,uy,得出源说话人的自协方差∑xx,以及二者的互协方差∑xy;
[0100] 第2步,任意选用一跳源说话人的语音信息,并提取其STRAIGHT模型下的平滑功率谱信息sp’,基频信息f0’,非周期成分ap’,而后如同前文提到的方法得到数据矩阵xt计算其先验概率P(ci|xt)。
[0101] 第3步,通过转换函数
[0102]
[0103] 其中,xt表示待转换的语音特征,ci表示高斯混合模型的第i个分量,“‑1”表示矩阵的求逆运算;得出合成语音的梅尔广义倒谱参数;
[0104] 第4步,将上式计算得出的参数转化为平稳功率谱,结合前面的非周期成分ap’,基频信息f0’,通过straight模型合成为目标语音。
[0105] 在初始化高斯混合模型的第一步,由于K均值算法实现容易,收敛快,对于大数据集运行速度较快,所以采用了K均值算法,选取一个比随机初始化更有效的初始值,这样就缩小的期望最大化算法的搜索空间,提高其运算速度与精度。
[0106] 另一方面,由于语音数据符合高斯分布,所以在计算先验概率时,可以将协方差矩阵通过cholesky分解分解为对角矩阵后,再进行计算,这样大大提高了运算速度。
[0107] 本发明可以根据源和目标说话人的说话的数学特点,通过对二者语音进行建模并进行算法运算,将源说话人的语音准确转化为目标说话人的语音。本发明所提供的算法在减少了计算量的同时,提高了语音转换的精确度。
[0108] 以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。