首页 > 专利 > 杭州电子科技大学 > 一种语音转换方法专利详情

一种语音转换方法   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2017-10-18
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2018-04-03
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2021-04-30
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2037-10-18
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN201710971228.9 申请日 2017-10-18
公开/公告号 CN107785030B 公开/公告日 2021-04-30
授权日 2021-04-30 预估到期日 2037-10-18
申请年 2017年 公开/公告年 2021年
缴费截止日
分类号 G10L13/02G10L13/04G10L13/047G10L25/24G10L25/21G06K9/62 主分类号 G10L13/02
是否联合申请 独立申请 文献类型号 B
独权数量 1 从权数量 2
权利要求数量 3 非专利引证数量 1
引用专利数量 0 被引证专利数量 0
非专利引证 1、CN 102306492 A,2012.01.04CN 103063899 A,2011.05.18CN 107103914 A,2017.08.29CN 106205623 A,2016.12.07CN 104091592 A,2014.10.08CN 105206259 A,2015.12.30袁志明.基于高斯混合模型和K-均值聚类算法的RBF神经网络实现男女声转换《.黑龙江科技信息》.2010,2. 袁志明.基于高斯混合模型和K-均值聚类算法的RBF神经网络实现男女声转换《.黑龙江科技信息》.2010,2. 李健.基于GMM的汉语语音转换系统研究. 《中国优秀硕士学位论文全文数据库 信息科技辑》.2015,(第9期),I136-41. 李波.语音转换的关键技术研究《.中国优秀博硕士学位论文全文数据库(博士) 信息科技辑》.2006,(第3期),I136-6. 简志华等.语声转换技术发展及展望《.南京邮电大学学报(自然科学版)》.2007,第27卷(第6期),88-94. 解伟超.语音转换中声道谱参数和基频变换算法的研究《.中国优秀硕士学位论文全文数据库 信息科技辑》.2013,(第6期),136-199. 杨骋等.基于简化STRAIGHT模型的语音信号重构《.指挥信息系统与技术》.2015,第6卷(第4期),35-40. 李清华.语音转换技术研究及实现《.中国优秀硕士学位论文全文数据库 信息科技辑》.2016,(第4期),I136-173. 陈先同.语音转换中特征参数及其转换方法的研究《.中国优秀硕士学位论文全文数据库 信息科技辑》.2016,(第6期),I136-72. 鲁博.语音转换技术研究《.中国优秀硕士学位论文全文数据库 信息科技辑》.2017,(第2期),I136-493. 马欢.基于STRAIGHT模型的语音转换的研究《.电脑与电信》.2009,69-70.;
引用专利 被引证专利
专利权维持 4 专利申请国编码 CN
专利事件 事务标签 公开、实质审查、授权
申请人信息
申请人 第一申请人
专利权人 杭州电子科技大学 当前专利权人 杭州电子科技大学
发明人 沈博、刘春华、蒋克文、童利航、余帅东、简志华 第一发明人 沈博
地址 浙江省杭州市杭州经济技术开发区白杨街道2号大街1158号 邮编 310018
申请人数量 1 发明人数量 6
申请人所在省 浙江省 申请人所在市 浙江省杭州市
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
浙江千克知识产权代理有限公司 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
周希良
摘要
本发明提供一种语音转换方法,包括下列步骤:S1:提取语音资料中音源与目标音的语音特征;S2:对音源与目标音的语音信息进行动态时间规整;S3:运用高斯混合模型与聚类算法训练规整后的语音;S4:提取音源的语音信息并将其用训练后所得的数据进行转换,合成为目标音。本发明提供了一种精确高效的实现将音源的声音变换为目标音的声音的方法,可以根据源和目标说话人的说话的数学特点,通过对二者语音进行建模并进行算法运算,将源说话人的语音准确转化为目标说话人的语音。
  • 摘要附图
    一种语音转换方法
  • 说明书附图:[转续页]
    一种语音转换方法
  • 说明书附图:图1
    一种语音转换方法
  • 说明书附图:图2
    一种语音转换方法
  • 说明书附图:图3
    一种语音转换方法
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2021-04-30 授权
2 2018-04-03 实质审查的生效 IPC(主分类): G10L 25/24 专利申请号: 201710971228.9 申请日: 2017.10.18
3 2018-03-09 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.一种语音转换方法,其特征在于,包括步骤:
S1:提取音源与目标音的语音特征;
S2:对音源与目标音的语音信息进行动态时间规整;
S3:运用高斯混合模型与聚类算法训练规整后的语音;
S4:提取音源的语音信息并用训练后所得的数据进行转换,合成为目标音;
步骤S1具体按如下步骤进行:
S1.1:使用STRAIGHT模型分别从预存的语音资料中提取基频信息f0,非周期分量ap,平滑功率谱参数sp;
S1.2:使用SPTK工具降维,将平滑功率谱参数sp转化为广义梅尔倒谱参数mgc,得到音源语音矩阵X与目标音语音矩阵Y;
步骤S2具体按如下步骤实现:
运用动态时间算法将长度不相同的两矩阵变为等长的x,y,并将两矩阵联合为一个矩阵z;
步骤S3由以下步骤实现:
S3.1:通过矩阵z对高斯混合模型进行初始化;
S3.2:运用高斯混合模型的期望最大化算法对初始化后的高斯模型进行计算;
步骤S3.1由以下步骤实现:
S3.1.1:设定矩阵维度M,聚类模型个数k,运用K均值算法算出聚类均值uz;
S3.1.2:通过每一个聚类中点的个数计算出混合系数;
S3.1.3:从z中取出每一个均值的数据矩阵C,并通过C计算该聚类的协方差矩阵∑z;
步骤S3.2由以下步骤实现:
S3.2.1,首先根据公式
其中,P(Zj|ui,∑i)表示先验概率,zj表示联合矢量,ui表示均值矢量,Σi表示协方差矩阵,T表示矩阵的转置;规定各个符号的下标j表示行向量,i表示列向量,r表示第r个分块矩阵;
计算先验概率P(Zj|ui,∑i);
S3.2.2,利用贝叶斯定理,由公式
其中,αi表示高斯混合模型各个分量的权重系数;
计算后验概率λ(eji);
S3.2.3,通过上式算出的后验概率,根据公式计算以下变量
αi(new)=ni/k
其中,N表示训练语音的特征参数的数量;ni表示所有特征矢量在第i个分量中的后验概率之和,ui(new)表示更新后的第i个分量的均值矢量、αi(new)表示更新后的第i个分量的权重系数,∑i(new)表示更新后的第i个分量的协方差矩阵;
S3.2.4,将以上三步迭代数次,得出最终的加权系数α,协方差矩阵∑z,聚类均值矩阵uz;
步骤S4由以下步骤实现:
S4.1,运用训练后得到的uz,∑z,根据公式
其中,ux表示音源的特征参数均值矢量,uy表示目标音的特征参数均值矢量,∑xx表示音源特征参数的自协方差矩阵,∑yy表示目标音特征参数的自协方差矩阵,∑xy和∑yx表示互协方差矩阵;得出音源和目标音的均值矢量ux,uy,得出源说话人的自协方差∑xx,以及二者的互协方差∑xy;
S4.2,挑选任一音源的语音信息,并提取其STRAIGHT模型下的平滑功率谱信息sp’,基频信息f0’,非周期成分ap’,通过步骤S3.2得到数据矩阵xt计算其先验概率P(ci|xt);
S4.3,通过转换函数
y xx xy‑1 x
F(xt)=∑P(ci|xt)[(u+∑ ∑ (xt‑u))]
其中,xt表示待转换的语音特征,ci表示高斯混合模型的第i个分量,“‑1”表示矩阵的求逆运算;
得出合成语音的梅尔广义倒谱参数;
S4.4,将上式计算得出的参数转化为平稳功率谱,结合所述的非周期成分ap’,基频信息f0’,通过straight模型合成为目标音。

2.如权利要求1所述的一种语音转换方法,其特征在于:
在步骤S1中,所述音源与目标音的语音特征从语音资料中提取。

3.如权利要求1所述的一种语音转换方法,其特征在于,在步骤S1.1中,预存音源与目标音数句、内容相同的语音资料。
说明书

技术领域

[0001] 本发明涉及计算算法领域,尤其涉及一种语音转换方法。

背景技术

[0002] 目前,经过国内外多年的研究及应用,在语音转换这一领域中,公认的转换模型是GMM即高斯混合模型,且在对其聚类均值初始化时选择随机初始化,在训练计算时采用全矩阵计算,这一聚类算法精准度较高。
[0003] 在聚类均值初始化的过程中,采用随机初始化的方式,这使得计算的随机性太高,这在无形中延长了计算时间,并加大了在有限次迭代条件下出错误的概率。另一方面,由于初始化后的协方差矩阵是一个完全矩阵,所以在计算先验概率的步骤中,最为庞杂繁琐的就是对协方差矩阵的运算,这里扩大了许多运算量。
[0004] 如专利文件CN107068165A所公开的一种语音转换方法,公开了一种语音转换方法,该系统首先通过对平行语料库进行自适应高斯混合模型和双线性频率弯折加幅度调节的训练,得到语音转换所需的转换函数,然后使用该转换函数进行高质量的语音转换。本发明针对语音特征参数空间分布状况与高斯混合模型的相关关系,使用自适应高斯混合模型替代传统高斯混合模型,解决了高斯混合模型在进行语音特征参数分类时不精确的问题,并将自适应高斯混合模型和双线性频率弯折加幅度调节相结合,构建了一种语音转换系统。但所述专利文件中,并未预先通过算法选取搜索空间中更有效的初始值;也未在计算先验概率时,通过对矩阵进行处理以提高运算速度。

发明内容

[0005] 本发明的目的是克服现有技术中的不足,提供一种精确高效的语音转换方法。
[0006] 本发明的目的通过下述技术方案予以实现。本发明的一种语音转换方法,包括下列步骤:
[0007] S1:提取音源与目标音的语音特征;
[0008] S2:对音源与目标音的语音信息进行动态时间规整;
[0009] S3:运用高斯混合模型与聚类算法训练规整后的语音;
[0010] S4:提取音源的语音信息并用训练后所得的数据进行转换,合成为目标音。
[0011] 优选的,在步骤S1中,所述音源与目标音的语音特征从语音资料中提取。
[0012] 所述的步骤S1具体按如下步骤进行:
[0013] S1.1:使用STRAIGHT模型分别从预存的语音资料中提取基频信息f0,非周期分量ap,平滑功率谱参数sp;
[0014] S1.2:使用SPTK工具降维,将平滑功率谱参数sp转化为广义梅尔倒谱参数mgc,得到音源语音矩阵X与目标音语音矩阵Y。
[0015] 所述的步骤S1.1中,预存音源与目标音数句、内容相同的语音资料。
[0016] 步骤S2具体按如下步骤实现:
[0017] 运用动态时间算法将长度不相同的两矩阵变为等长的x,y,并将两矩阵联合为一个矩阵z。
[0018] 所述的步骤S3由以下步骤实现:
[0019] S3.1:通过矩阵z对高斯混合模型进行初始化;
[0020] S3.2:运用高斯混合模型的期望最大化算法对初始化后的高斯模型进行计算。
[0021] 所述的步骤S3.1由以下步骤实现:
[0022] S3.1.1:设定矩阵维度M,聚类模型个数k,运用K均值算法算出聚类均值;
[0023] S3.1.2:通过每一个聚类中点的个数计算出混合系数;
[0024] S3.1.3:从z中取出每一个均值的数据矩阵C,并通过C计算该聚类的协方差矩阵。
[0025] 所述的步骤S3.2由以下步骤实现:
[0026] S3.2.1,首先根据公式
[0027]
[0028] 其中,P(Zj|ui,∑i)表示先验概率,zj表示联合矢量,ui表示均值矢量,Σi表示协方差矩阵,T表示矩阵的转置;
[0029] 在本式以及下面的公式中,由于各变量为M*M*K大小的矩阵,所以特规定各个符号的下标j表示行向量,i表示列向量,r表示第r个分块矩阵;
[0030] 计算先验概率P(Zj|ui,∑i);
[0031] S3.2.2,利用贝叶斯定理,由公式
[0032]
[0033] 其中,αi表示高斯混合模型各个分量的权重系数;
[0034] 计算后验概率λ(eji);
[0035] S3.2.3,通过上式算出的后验概率,根据公式计算以下变量
[0036]
[0037]
[0038] αi(new)=ni/k
[0039]
[0040] 其中,N表示训练语音的特征参数的数量;ni表示所有特征矢量在第i个分量中的后验概率之和,ui(new)表示更新后的第i个分量的均值矢量、αi(new)表示更新后的第i个分量的权重系数,∑i(new)表示更新后的第i个分量的协方差矩阵。
[0041] S3.2.4,将以上三步迭代数次,得出最终的加权系数α,协方差矩阵∑z,聚类均值矩阵uz。
[0042] 所述的步骤S4由以下步骤实现:
[0043] S4.1,运用训练后得到的uz,∑z,根据公式
[0044]
[0045] 其中,ux表示音源的特征参数均值矢量,uy表示目标音的特征参数均值矢量,∑xx表示音源特征参数的自协方差矩阵,∑yy表示目标音特征参数的自协方差矩阵,∑xy和∑yx表示互协方差矩阵;得出音源和目标音的聚类均值矢量ux,uy,得出源说话人的自协方差∑xx,以及二者的互协方差∑xy;
[0046] S4.2,挑选任一音源的语音信息,并提取其STRAIGHT模型下的平滑功率谱信息sp’,基频信息f0’,非周期成分ap’,通过步骤S3.2得到数据矩阵xt计算其先验概率P(ci|xt);
[0047] S4.3,通过转换函数
[0048]
[0049] 其中,xt表示待转换的语音特征,ci表示高斯混合模型的第i个分量,“‑1”表示矩阵的求逆运算;得出合成语音的梅尔广义倒谱参数;
[0050] S4.4,将上式计算得出的参数转化为平稳功率谱,结合所述的非周期成分ap’,基频信息f0’,通过straight模型合成为目标音。
[0051] 有益效果
[0052] 本发明与现有技术相比有如下优点:
[0053] 1.在初始化高斯混合模型的第一步,由于K均值算法实现容易,收敛快,对于大数据集运行速度较快,所以采用了K均值算法,选取一个比随机初始化更有效的初始值,这样就缩小的期望最大化算法的搜索空间,提高其运算速度与精度。
[0054] 2.由于语音数据符合高斯分布,所以在计算先验概率时,可以将协方差矩阵通过cholesky分解分解为对角矩阵后,再进行计算,这样大大提高了运算速度。

实施方案

[0059] 以下是本发明的具体实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
[0060] 本发明提供一种语音转换方法,该发明的技术原理如下:
[0061] 本发明所述的一种语音转换方法,具有在语音资料充足的条件下,提供一种精确高效的实现将音源的声音变换为目标音的声音的方法的功能。可以根据音源和目标音的声音的数学特点,通过对二者声音进行建模并进行算法运算,将音源的声音准确转化为目标音的声音。
[0062] 实施例一
[0063] 本实施例提供一种计算算法,特别应用于一种语音转换方法,在本实施例中,所述算法需要在拥有充足语音资料的条件下,根据音源和目标音的声音的数学特点,通过对二者声音进行建模并进行算法运算,将音源的声音准确转化为目标音的声音。
[0064] 如图1所示,所述的一种语音转换方法,包括以下几个步骤:
[0065] S1:提取音源与目标音的语音特征;所述的语音资料包括:音源与目标音两者的内容一样的句数相同的语音资料各100句以上(题材不限),且所述的语音资料还包括:两者声音的数学特点;
[0066] S2:对音源与目标音的语音信息进行动态时间规整;所述的步骤S2包括:运用动态时间算法(DTW)将长度不相同的两矩阵变为等长的X,Y,使得对应的源和目标线性谱频率在设定失真准则上具有最小失真距离,使音源和目标音的特征序列在参数层面上相关联,并将两矩阵联合为一个矩阵z;
[0067] S3:运用高斯混合模型与聚类算法训练规整后的语音;所述的步骤S3包括:通过上一步得到的矩阵z,对高斯混合模型进行初始化;运用高斯混合模型的期望最大化算法对初始化后的高斯模型进行计算,以达到将音源和目标音的模型相拟合的目的;
[0068] S4:提取音源的语音信息并将其用训练后所得的数据进行转换,合成为目标音。
[0069] 具体步骤:
[0070] 1.提取音源与目标音的语音特征
[0071] ①准备两者的内容一样的句数相同的语音资料各100句以上(题材不限)使用STRAIGHT模型分别从中提取基频信息f0,非周期分量ap,平滑功率谱参数sp。
[0072] ②使用SPTK工具降维将平滑功率谱参数sp转化为广义梅尔倒谱参数mgc,这时得到源音源语音矩阵X与目标音语音矩阵Y。
[0073] 2.对两者的语音矩阵进行动态时间规整
[0074] 运用动态时间算法(DTW)将长度不相同的两矩阵变为等长的x,y,使得对应的源和目标线性谱频率在设定失真准则上具有最小失真距离,使源和目标人的特征序列在参数层面上相关联,并将两矩阵联合为一个矩阵z
[0075] 3.运用高斯混合模型与聚类算法训练规整后的语音,如图2所示,此步骤分为两部分:
[0076] ⑴通过上一步得到的矩阵z,对高斯混合模型进行初始化,实现此目的步骤为:
[0077] 第1步,设定好矩阵的维度M,聚类模型个数k,运用K均值算法算出聚类均值uz。
[0078] 第2步,通过每一个聚类中点的个数计算出混合系数。
[0079] 第3步,从矩阵z中取出每一个均值的数据矩阵C,并通过C计算该聚类的协方差矩阵∑z。
[0080] ⑵运用高斯混合模型的期望最大化算法对初始化后的高斯模型进行计算,以达到将源说话人和目标说话人的模型相拟合的目的:
[0081] 第1步,首先根据公式
[0082]
[0083] 其中,P(Zj|ui,∑i)表示先验概率,zj表示联合矢量,ui表示均值矢量,Σi表示协方差矩阵,T表示矩阵的转置;规定各个符号的下标j表示行向量,i表示列向量,r表示第r个分块矩阵;
[0084] 计算先验概率P(Zj|ui,∑i);需注意的是,在这一过程中运用了cholesky分解将协方差矩阵分解为对角矩阵,这样在保证精度的前提下,又提高了运算速度。
[0085] 第2步,利用贝叶斯定理,由公式
[0086]
[0087] 其中,αi表示高斯混合模型各个分量的权重系数;
[0088] 计算后验概率λ(eji)。
[0089] 第3步,通过上式算出的后验概率,根据公式计算以下变量
[0090]
[0091]
[0092] αi(new)=ni/k
[0093]
[0094] 其中,N表示训练语音的特征参数的数量;ni表示所有特征矢量在第i个分量中的后验概率之和,ui(new)表示更新后的第i个分量的均值矢量、αi(new)表示更新后的第i个分量的权重系数,∑i(new)表示更新后的第i个分量的协方差矩阵。
[0095] 第4步,将以上3步迭代20次,得出最终的加权系数α,协方差矩阵∑z,聚类均值矩阵uz。
[0096] 4.转化与合成阶段
[0097] 第1步,运用训练后得到的uz,∑z,根据公式
[0098]
[0099] 其中,ux表示音源的特征参数均值矢量,uy表示目标音的特征参数均值矢量,∑xx表示音源特征参数的自协方差矩阵,∑yy表示目标音特征参数的自协方差矩阵,∑xy和∑yx表示互协方差矩阵;得出音源和目标音的均值矢量ux,uy,得出源说话人的自协方差∑xx,以及二者的互协方差∑xy;
[0100] 第2步,任意选用一跳源说话人的语音信息,并提取其STRAIGHT模型下的平滑功率谱信息sp’,基频信息f0’,非周期成分ap’,而后如同前文提到的方法得到数据矩阵xt计算其先验概率P(ci|xt)。
[0101] 第3步,通过转换函数
[0102]
[0103] 其中,xt表示待转换的语音特征,ci表示高斯混合模型的第i个分量,“‑1”表示矩阵的求逆运算;得出合成语音的梅尔广义倒谱参数;
[0104] 第4步,将上式计算得出的参数转化为平稳功率谱,结合前面的非周期成分ap’,基频信息f0’,通过straight模型合成为目标语音。
[0105] 在初始化高斯混合模型的第一步,由于K均值算法实现容易,收敛快,对于大数据集运行速度较快,所以采用了K均值算法,选取一个比随机初始化更有效的初始值,这样就缩小的期望最大化算法的搜索空间,提高其运算速度与精度。
[0106] 另一方面,由于语音数据符合高斯分布,所以在计算先验概率时,可以将协方差矩阵通过cholesky分解分解为对角矩阵后,再进行计算,这样大大提高了运算速度。
[0107] 本发明可以根据源和目标说话人的说话的数学特点,通过对二者语音进行建模并进行算法运算,将源说话人的语音准确转化为目标说话人的语音。本发明所提供的算法在减少了计算量的同时,提高了语音转换的精确度。
[0108] 以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

附图说明

[0055] 下面结合附图对本发明作进一步描述。
[0056] 图1为本发明实施例一一种语音转换方法的基本流程图;
[0057] 图2为本发明实施例一一种语音转换方法的训练流程图;
[0058] 图3为本发明实施例一一种语音转换方法的转换合成流程图。
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号