多情感多说话人语音合成方法和系统.pdf

上传人：伱** 文档编号：14526238 上传时间：2024-05-19 格式：PDF 页数：15 大小：945.69KB

收藏版权申诉举报下载

第1页 / 共15页

第2页 / 共15页

第3页 / 共15页

下载文档到电脑，查找使用更方便

30 金币

下载文档

文档描述：

《多情感多说话人语音合成方法和系统.pdf》由会员分享，可在线阅读，更多相关《多情感多说话人语音合成方法和系统.pdf（15页完成版）》请在专利查询网上搜索。

1、(19)国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202410006409.8(22)申请日 2024.01.03(71)申请人广东技术师范大学地址 510000 广东省广州市天河区中山大道西293号(72)发明人杨继臣夏佳奇王泳伍均达(74)专利代理机构佛山粤进知识产权代理事务所(普通合伙)44463专利代理师耿鹏(51)Int.Cl.G10L 13/027(2013.01)(54)发明名称一种多情感多说话人语音合成方法和系统(57)摘要针对现有的开源情感语音库一般规模较小进而限制情感语音合成质量的缺点，本发明提供了一种多情感多说话人语。

2、音合成方法和系统。方法包括：首先使用现有开源情感语音库训练一个语音情感分类器，去除该分类器的分类层可得到一个语音情感编码器。然后利用该语音情感编码器提取语音中的情感特征训练一个情感转换器，利用情感转换器构建出一个新的多说话人多种情感的情感语音库，最后利用构建的情感语音库和开源情感语音库训练一个情感语音生成器实现多情感多说话人语音合成。本发明依据情感转换器构建新情感语音库，再利用新情感语音库训练情感语音生成器，扩展了情感语音数据集、提升了情感语音合成质量。权利要求书3页说明书9页附图2页CN 117496944 A2024.02.02CN 117496944 A1.一种多情感多说话人语音合成。

3、方法，其特征在于，包括：步骤S01，获取数据集：获取一个情感语音库和一个多说话人语音库，所述情感语音库包括音频、音频对应的文本、语音情感标签和说话人标签，所述多说话人语音库包括音频、音频对应的文本和说话人标签；步骤S02，情感编码器训练：利用情感语音库去训练预设的语音情感分类器，调整语音情感分类器参数得到优化后的语音情感分类器，去掉语音情感分类器中的分类层，得到情感编码器；步骤S03，情感转换器训练：利用情感语音库训练预设的情感转换器，调整情感转换器参数，得到优化后的情感转换器；步骤S04，构建新情感语音库：利用步骤S03得到的优化后的情感转换器进行情感迁移，从而使多说话人语音库中能够表达各种。

4、目标情感，基于包含了不同目标情感的多说话人语音库中说话人的合成音频构建一个新的情感语音库；步骤S05，情感语音生成器训练：利用步骤S01中所述情感语音库以及S04构建的情感语音库作为一个完备的数据集去训练预设的情感语音生成器，调整情感语音生成器参数，得到优化后的情感语音生成器，将待处理的目标语音文本、目标语音情感特征、参考音频的梅尔频谱输入至所述情感语音生成器，得到最终的目标合成语音。2.根据权利要求1所述的一种多情感多说话人语音合成方法，其特征在于，所述步骤S01的具体过程为：步骤1.1:获取情感语音库和多说话人语音库，所述情感语音库包括音频、音频对应的文本、语音情感标签、说话人标签；所述多。

5、说话人语音库包括音频、音频对应的文本、说话人标签，将情感语音库以及多说话人语音库中音频对应的文本转换为音素序列，再利用强制对齐工具得到每个音素对应的持续时间；步骤1.2:提取情感语音库以及多说话人语音库中音频的声学特征，所述声学特征包括：梅尔频谱、音高和能量；步骤1.3:按照预设比例划分出情感语音库的训练集、测试集、验证集。3.根据权利要求2所述的一种多情感多说话人语音合成方法，其特征在于，所述步骤S02的具体过程为：步骤2.1:构建语音情感分类器模型；步骤2.2:语音情感分类器模型包括一系列卷积块和线性单元，每个卷积块包括卷积层、批归一化层和激活函数ReLU；所述卷积块会对输入到模型中的梅尔。

6、频谱进行卷积处理，每个卷积块的输入都是上一个卷积块的输出，得到最后的卷积特征；对所述最后的卷积特征经过池化操作进行降维，并应用dropout进行正则化，得到正则化结果；将所述正则化结果输入至线性单元；线性单元第一层输出用于生成特征向量，第二层通过sigmoid函数将特征向量映射到每个情感类别的概率空间，用于分类，通过交叉熵损失函数对所述线性单元第二层输出结果与情感语音库中语音情感标签进行损失计算，得到情感预测损失值，并调整语音情感分类器模型参数；步骤2.3:计算调整后的语音情感分类模型在测试集上的准确率，准确率达到90%以上即可得到符合要求的语音情感分类器；步骤2.4:去除语音情感分类器模型中。

7、线性单元的第二层，其他网络层原样保留，得到权利要求书1/3 页2CN 117496944 A2情感编码器。4.根据权利要求3所述的一种多情感多说话人语音合成方法，其特征在于，所述步骤S03的具体过程为：步骤3.1:构建情感转换器模型，所述情感转换器模型包括预处理模块、文本编码器、说话人编码器、时长预测器、音高预测器、能量预测器和解码器；步骤3.2:利用步骤2.4所述情感编码器提取情感语音库中音频对应的情感特征，具体如公式（1）所示：（1）；其中，表示步骤2.4的情感编码器，表示情感语音库中音频对应的梅尔频谱，表示情感编码器的输出即情感语音库中音频对应的情感特征；步骤3.3:将情感语音库训练集中。

8、包含的梅尔频谱输入至情感转换器中的说话人编码器，得到说话人特征，将情感语音库训练集中包含的音素序列输入至转换器中的文本编码器，得到文本特征，将说话人特征、文本特征、情感特征进行特征融合后并行输入给情感语音生成器中的时长预测器、音高预测器、能量预测器，得到预测的音素持续时间、音高、能量；步骤3.4:计算预测的音高、能量、音素持续时间与真实音高、能量、音素持续时间之间的损失以及真实梅尔频谱与情感转换器中解码器输出的梅尔频谱之间的损失，并分别标记为第一损失与第二损失，根据所述第一损失与第二损失之和调整情感转换器的参数，得到优化后的情感转换器。5.根据权利要求4所述的一种多情感多说话人语音合成方法，其。

9、特征在于，所述步骤S05具体包括：步骤5.1:将新情感语音库的音素序列汇合到现有情感语音库对应的文件夹下；步骤5.2:利用强制对齐工具得到新情感语音库中每个音素对应的持续时间并汇合到现有情感语音库对应文件夹下；步骤5.3:通过步骤2.4的情感编码器提取新情感语音库中每条音频对应的情感特征，提取新情感语音库中音频的声学特征，包括：梅尔频谱、音高、能量，汇合到现有情感语音库对应的文件夹下；步骤5.4:得到现有情感语音库与新情感语音库汇合后的各特征文件，按照合适的比例划分出训练集、测试集、验证集；步骤5.5:构建情感语音生成器模型，包括预处理模块、文本编码器、说话人编码器、时长预测器、音高预测器、能。

10、量预测器和解码器；步骤5.6:将训练集中包含的梅尔频谱输入至情感语音生成器中的说话人编码器，得到说话人特征，将训练集中包含的音素序列输入至情感语音生成器中的文本编码器，得到文本特征，将说话人特征、文本特征、情感特征进行特征融合后并行输入给情感语音生成器中的时长预测器、音高预测器、能量预测器，得到预测的音素持续时间、音高、能量；步骤5.7:计算预测的音高、能量、音素持续时间与真实音高、能量、音素持续时间之间的损失以及真实梅尔频谱与情感语音生成器中解码器输出的梅尔频谱之间的损失，根据这些损失之和调整情感语音生成器的参数，得到优化后的情感语音生成器。6.一种多情感多说话人语音合成系统，其特征在于，该。

11、系统包括：语音库获取模块：用权利要求书2/3 页3CN 117496944 A3于获取所需的情感语音库和多说话人语音库；特征提取模块：用于对语音库中音频对应的文本进行音素转换，得到文本对应的音素序列，提取语音库中音频对应的梅尔频谱、音高、能量、音素持续时间；情感编码器模块：用于提取梅尔频谱对应的情感特征；情感转换模块：用于将不同类别情感迁移到多说话人语音库中各说话人上，从而得到新的情感语音库；数据集构建模块：用于将所述情感语音库与所述新的情感语音库各文件汇合，包括音素序列、梅尔频谱、音高、能量、音素持续时间的文件汇合，然后按照合理的比例划分出训练集、测试集、验证集；情感语音生成模块：输入训练集。

12、中的梅尔频谱、情感特征、音素序列至情感语音生成模块可得到目标合成语音。权利要求书3/3 页4CN 117496944 A4一种多情感多说话人语音合成方法和系统技术领域0001本发明涉及语音分析领域，更具体的，涉及一种多情感多说话人语音合成方法和系统。背景技术0002语音合成是指将给定文本转换为给定说话人合成语音的技术。由于智能语音技术应用场景越来越广泛，比如语音播报、AI配音、智能音箱等。随着实际需求对语音合成效果的要求越来越高，中性合成语音已经不能满足实际需求了。人们追求更加灵活多变的语音、追加富含各类感情的语音、期盼能模拟出各种音色的语音。情感语音合成是目前语音合成领域一大研究趋势，然而公。

13、开的情感语音数据集存在难以获取、规模较小的问题，并且这类语音的标注也存在难以界定、略显主观、成本高昂等问题。并且就算能获取公开的情感语音数据集也还存在数据集说话人数量特别少的问题，这些因素限制了目前语音合成模型合成多个不同说话人的语音质量。另外，现有的情感语音合成方式也大都需要包含了大量不同说话人的情感语音数据，或者每一个说话人的多情感语音数据。基于此，一种最直接的方式是通过跨说话人情感迁移的方法去解决这类问题，可以先利用跨说话人情感迁移即先训练一个情感转换器让本来中性的、多说话人数据集中的音频可以包含不同类别的情感，这样就能很好地扩充情感数据集从而解决情感数据集稀有以及情感数据集的说话人数量。

14、不丰富的问题。发明内容0003本发明克服了现有技术的缺陷，提出了一种多情感多说话人语音合成方法和系统。0004本发明第一方面提供了一种多情感多说话人语音合成方法，包括：步骤S01，获取数据集：获取一个情感语音库和一个多说话人语音库，所述情感语音库包括音频、音频对应的文本、语音情感标签和说话人标签，所述多说话人语音库包括音频、音频对应的文本和说话人标签；步骤S02，情感编码器训练：利用情感语音库去训练预设的语音情感分类器，调整语音情感分类器参数得到优化后的语音情感分类器，去掉语音情感分类器中的分类层，得到情感编码器；步骤S03，情感转换器训练：利用情感语音库训练预设的情感转换器，调整情感转换器参。

15、数，得到优化后的情感转换器；步骤S04，构建新情感语音库：利用步骤S03得到的优化后的情感转换器进行情感迁移，从而使多说话人语音库中能够表达各种目标情感，基于包含了不同目标情感的多说话人语音库中说话人的合成音频构建一个新的情感语音库；步骤S05，情感语音生成器训练：利用步骤S01中所述情感语音库以及S04构建的情感语音库作为一个完备的数据集去训练预设的情感语音生成器，调整情感语音生成器参说明书1/9 页5CN 117496944 A5数，得到优化后的情感语音生成器，将待处理的目标语音文本、目标语音情感特征、参考音频的梅尔频谱输入至所述情感语音生成器，得到最终的目标合成语音。0005本方案中，所。

16、述步骤S01的具体过程为：步骤1.1:获取情感语音库和多说话人语音库，所述情感语音库包括音频、音频对应的文本、语音情感标签、说话人标签。所述多说话人语音库包括音频、音频对应的文本、说话人标签，将情感语音库以及多说话人语音库中音频对应的文本转换为音素序列，再利用强制对齐工具得到每个音素对应的持续时间；步骤1.2:提取情感语音库以及多说话人语音库中音频的声学特征，所述声学特征包括：梅尔频谱、音高和能量；步骤1.3:按照预设比例划分出情感语音库的训练集、测试集、验证集。0006本方案中，所述步骤S02的具体过程为：步骤2.1:构建语音情感分类器模型；步骤2.2:语音情感分类器模型包括一系列卷积块和线。

17、性单元，每个卷积块包括卷积层、批归一化层和激活函数ReLU；所述卷积块会对输入到模型中的梅尔频谱进行卷积处理，每个卷积块的输入都是上一个卷积块的输出，得到最后的卷积特征；对所述最后的卷积特征经过池化操作进行降维，并应用dropout进行正则化，得到正则化结果；将所述正则化结果输入至线性单元；线性单元第一层输出用于生成特征向量，第二层通过sigmoid函数将特征向量映射到每个情感类别的概率空间，用于分类，通过交叉熵损失函数对所述线性单元第二层输出结果与情感语音库中语音情感标签进行损失计算，得到情感预测损失值，并调整语音情感分类器模型参数；步骤2.3:计算调整后的语音情感分类模型在测试集上的准确率。

18、，准确率达到90%以上即可得到符合要求的语音情感分类器；步骤2.4:去除语音情感分类器模型中线性单元的第二层，其他网络层原样保留，得到情感编码器。0007本方案中，所述步骤S03的具体过程为：步骤3.1:构建情感转换器模型，所述情感转换器模型包括预处理模块、文本编码器、说话人编码器、时长预测器、音高预测器、能量预测器和解码器；步骤3.2:利用步骤2.4所述情感编码器提取情感语音库中音频对应的情感特征，具体如公式（1）所示。0008（1）；其中，表示步骤2.4的情感编码器，表示情感语音库中音频对应的梅尔频谱，表示情感编码器的输出即情感语音库中音频对应的情感特征；步骤3.3:将情感语音库训练集中包。

19、含的梅尔频谱输入至情感转换器中的说话人编码器，得到说话人特征，将情感语音库训练集中包含的音素序列输入至转换器中的文本编码器，得到文本特征，将说话人特征、文本特征、情感特征进行特征融合后并行输入给情感语音生成器中的时长预测器、音高预测器、能量预测器，得到预测的音素持续时间、音高、能量；步骤3.4:计算预测的音高、能量、音素持续时间与真实音高、能量、音素持续时间说明书2/9 页6CN 117496944 A6之间的损失以及真实梅尔频谱与情感转换器中解码器输出的梅尔频谱之间的损失，并分别标记为第一损失与第二损失，根据所述第一损失与第二损失之和调整情感转换器的参数，得到优化后的情感转换器。0009本方。

20、案中，所述步骤S05具体包括：步骤5.1:将新情感语音库的音素序列汇合到现有情感语音库对应的文件夹下；步骤5.2:利用强制对齐工具得到新情感语音库中每个音素对应的持续时间并汇合到现有情感语音库对应文件夹下；步骤5.3:通过步骤2.4的情感编码器提取新情感语音库中每条音频对应的情感特征，提取新情感语音库中音频的声学特征，包括：梅尔频谱、音高、能量，汇合到现有情感语音库对应的文件夹下；步骤5.4:得到现有情感语音库与新情感语音库汇合后的各特征文件，按照合适的比例划分出训练集、测试集、验证集；步骤5.5:构建情感语音生成器模型，包括预处理模块、文本编码器、说话人编码器、时长预测器、音高预测器、能量预。

21、测器和解码器；步骤5.6:将训练集中包含的梅尔频谱输入至情感语音生成器中的说话人编码器，得到说话人特征，将训练集中包含的音素序列输入至情感语音生成器中的文本编码器，得到文本特征，将说话人特征、文本特征、情感特征进行特征融合后并行输入给情感语音生成器中的时长预测器、音高预测器、能量预测器，得到预测的音素持续时间、音高、能量；步骤5.7:计算预测的音高、能量、音素持续时间与真实音高、能量、音素持续时间之间的损失以及真实梅尔频谱与情感语音生成器中解码器输出的梅尔频谱之间的损失，根据这些损失之和调整情感语音生成器的参数，得到优化后的情感语音生成器。0010本发明第二方面还提供了一种多情感多说话人语音合。

22、成系统，该系统包括：语音库获取模块：用于获取所需的情感语音库和多说话人语音库；特征提取模块：用于对语音库中音频对应的文本进行音素转换，得到文本对应的音素序列，提取语音库中音频对应的梅尔频谱、音高、能量、音素持续时间；情感编码器模块：用于提取梅尔频谱对应的情感特征；情感转换模块：用于将不同类别情感迁移到多说话人语音库中各说话人上，从而得到新的情感语音库；数据集构建模块：用于将所述情感语音库与所述新的情感语音库各文件汇合，包括音素序列、梅尔频谱、音高、能量、音素持续时间的文件汇合，然后按照合理的比例划分出训练集、测试集、验证集；情感语音生成模块：输入训练集中的梅尔频谱、情感特征、音素序列至情感语音。

23、生成模块可得到目标合成语音。0011本发明公开了一种多情感多说话人语音合成方法及系统，首先获取所需的情感语音库和多说话人语音库，然后利用情感语音库训练一个语音情感分类器模型，去除语音情感分类器模型的分类层得到情感编码器，利用情感编码器提取情感语音库中音频对应的梅尔频谱的情感特征，然后将情感语音库中音频对应的文本、情感特征、音频对应的梅尔频谱输入至预设的情感转换器并进行参数调整，利用优化后的情感转换器可将不同类别情感特征迁移到多说话人语音库中的各说话人上即生成包含不同类别目标情感特征的预测语音，说明书3/9 页7CN 117496944 A7再基于预测语音去构建一个新的情感语音库，最后汇合新的情。

24、感语音库以及现有开源情感语音库为一个完备的数据集作为训练数据去训练预设的情感语音生成器。本发明利用情感转换器得到新的情感语音库从而扩充现有的公开的情感数据集，解决了情感语音数据集不易得、说话人数量少的问题，又利用扩充的数据集去训练情感语音生成器，提升了多情感多说话人语音合成质量，适用于语音合成领域。附图说明0012图1示出了本发明一种多情感多说话人语音合成方法的流程图；图2示出了本发明步骤S02的流程图；图3示出了本发明步骤S03的流程图；图4示出了本发明一种多情感多说话人语音合成系统的框图。具体实施方式0013为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发。

25、明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。0014在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。0015图1示出了本发明一种多情感多说话人语音合成方法的流程图，在本发明的实施例中，本发明实施例的语音合成方法包括但不限于步骤S01至步骤S05，下面结合图1对这五个步骤进行详细介绍。0016步骤S01，获取数据集：首先获取情感语音库和多说话人语音库，所述情感语音库包括音频、音频对应的文本、语音情感标签、说话人标签。所述多。

26、说话人语音库包括音频、音频对应的文本、说话人标签。将情感语音库以及多说话人语音库中音频对应的文本转换为音素序列，再利用强制对齐工具得到每个音素对应的持续时间。然后提取情感语音库以及多说话人语音库中音频的声学特征，待提取的声学特征包括：梅尔频谱、音高、能量。再按照合理比例分别划分情感语音库的训练集、测试集、验证集；步骤S02，情感编码器训练：首先构建语音分类器模型，语音情感分类模型包括一系列卷积块和线性单元，每个卷积块包括卷积层、批归一化层和激活函数ReLU。根据所述卷积块对输入至语音情感分类模型的梅尔频谱进行卷积处理，每个卷积块的输入都是上一个卷积块的输出，得到最后的卷积特征。对所述最后的卷积。

27、特征经过池化操作进行降维，并应用dropout进行正则化，得到正则化结果。将所述正则化结果输入至线性单元；线性单元第一层输出用于生成特征向量，第二层通过sigmoid函数将特征向量映射到每个情感类别的概率空间，用于分类。通过交叉熵损失函数对所述线性单元第二层输出结果与情感语音库中语音情感标签进行损失计算，得到情感预测损失值，调整语音情感分类模型参数。最后计算测试集在调整后的语音情感分类模型上的准确率，准确率达到90%以上后，得到符合要求的语音情感分类器模型，去除语音情感分类器模型中线性单元的第二层，其他网络层原样保留，得到情感编码器；说明书4/9 页8CN 117496944 A8步骤S03，。

28、情感转换器训练：首先构建情感转换器模型，情感转换器模型包括预处理模块、文本编码器、说话人编码器、时长预测器、音高预测器、能量预测器和解码器。然后通过步骤2.4的情感编码器提取情感语音库中音频对应的情感特征，具体如公式（1）所示。0017（1）；其中，表示步骤S02所述情感编码器，表示待输入至情感编码器的梅尔频谱，表示情感编码器的输出即情感语音库中音频对应的情感特征。再将情感语音库对应的训练集中包含的梅尔频谱输入至情感转换器中的说话人编码器，得到说话人特征，将情感语音库中对应的训练集中包含的音素序列输入至转换器中的文本编码器，得到文本特征，将说话人特征、文本特征、情感特征进行特征融合后并行输入给。

29、情感语音生成器中的时长预测器、音高预测器、能量预测器，得到预测的音素持续时间、音高、能量；再计算预测的音高、能量、音素持续时间与真实音高、能量、音素持续时间之间的损失以及真实梅尔频谱与情感转换器中解码器输出的梅尔频谱之间的损失，根据这些损失之和调整情感转换器的参数，得到优化后的情感转换器；步骤S04，构建新情感语音库：先将多说话人语音库中音频对应的梅尔频谱输入至情感转换器中的说话人编码器，得到说话人特征，将多说话人语音库中对应的音素序列输入至转换器中的文本编码器，得到文本特征，从每一种情感中都随机挑选一条情感特征，将说话人特征、文本特征、情感特征进行特征融合后输入给情感转换器。再通过情感转换器。

30、将情感特征迁移到多说话人语音库中的说话人上，去除效果不好的音频，得到新情感语音库；步骤S05，情感语音生成器训练：先将新情感语音库的音素序列汇合到现有情感语音库对应的文件夹下，再利用强制对齐工具得到新情感语音库中每个音素对应的持续时间并汇合到现有情感语音库对应文件夹下。通过步骤S02所述情感编码器提取新情感语音库中每条音频对应的情感特征，提取新情感语音库中音频的声学特征，包括：梅尔频谱、音高、能量，汇合到现有情感语音库对应的文件夹下，得到现有情感语音库与新情感语音库汇合后的各特征文件。按照合适的比例划分出训练集、测试集、验证集。构建情感语音生成器模型，包括预处理模块、文本编码器、说话人编码器、。

31、变量适配器，所述变量适配器又包括时长预测器、音高预测器、能量预测器、解码器；将训练集中包含的梅尔频谱输入至情感语音生成器中的说话人编码器，得到说话人特征，将训练集中包含的音素序列输入至情感语音生成器中的文本编码器，得到文本特征，将说话人特征、文本特征、情感特征进行特征融合后并行输入给情感语音生成器中的时长预测器、音高预测器、能量预测器，得到预测的音素持续时间、音高、能量。计算预测的音高、能量、音素持续时间与真实音高、能量、音素持续时间之间的损失以及真实梅尔频谱与情感语音生成器中解码器输出的梅尔频谱之间的损失，根据这些损失之和调整情感语音生成器的参数，得到优化后的情感语音生成器。0018需要说明。

32、的是，情感标签可以包括开高兴、悲伤、愤怒、惊讶等等，本发明的语音情感标签为预设的情感类别标签中的任意一种。所述这些损失即代表计算预测的音高、能量、音素持续时间与真实音高、能量、音素持续时间之间的损失以及真实梅尔频谱与情感转换器中解码器输出的梅尔频谱之间的损失，并分别标记为第一损失与第二损失。0019需要说明的是，本发明实施例语音库中音频对应的文本可以是任意领域内的，如科技、新闻、娱乐、旅游和历史等领域，也就是说可以将本发明提出的语音合成方法应用到说明书5/9 页9CN 117496944 A9不同的领域。例如，在旅游景点针对性播放不同情感不同说话人风格的提示语音即在垃圾桶附近用中性风格男性说话。

33、人风格语音播报文明用语、在景区入口用带有“高兴”和“兴奋”情感色彩的合成语音播报欢迎语和路口介绍，从而增加游客的互动感和旅游体验的良好度。0020需要说明的是，本发明中的语音库中音频的格式和采样率不加以限定，只需在执行本发明提出的多情感多说话人语音合成方法时统一所用到的样本数据的音频采样率即可。0021需要说明的是，在实施例的步骤S02中，所述语音情感分类器模型采用五个卷积块和两个线性层组成，每个卷积块由两个卷积层组成，对每个卷积层又应用规范化层、ReLU激活函数得到一个输出后将该输出最后经过一个平均池化处理。0022图2示出了本发明步骤S02的流程图；在本发明的实施例中，步骤S02具体包含以。

34、下四个步骤：步骤2.1:构建语音分类器模型；步骤2.2:语音情感分类器模型包括一系列卷积块和线性单元，每个卷积块包括卷积层、批归一化层和激活函数ReLU；根据所述卷积块对情感语音库中梅尔频谱进行卷积处理，每个卷积块的输入都是上一个卷积块的输出，得到最后的卷积特征；对所述最后的卷积特征经过池化操作进行降维，并应用dropout进行正则化，得到正则化结果；将所述正则化结果输入至线性单元；线性单元第一层输出用于生成特征向量，第二层通过sigmoid函数将特征向量映射到每个情感类别的概率空间，用于分类。通过交叉熵损失函数对所述线性单元第二层输出结果与情感语音库中语音情感标签进行损失计算，得到情感预测损。

35、失值，调整语音情感分类模型参数，训练语音情感分类器模型的步骤可参考图2，如图2所示，图中示例的Softmax函数环节中，可由用户设定选择sigmoid函数，具体由实际数据决定。0023步骤2.3:计算测试集在调整后的语音情感分类模型上的准确率，准确率达到90%以上后，得到符合要求的语音情感分类器；步骤2.4:去除语音情感分类模型中线性单元的第二层，其他网络层原样保留，得到情感编码器。0024在实施例的步骤S03、步骤S05中，所述情感转换器和所述情感语音生成器采用相同的网络架构，架构中需包含一个已经训练好的说话人编码器用以提取说话人特征。该说话人编码器由一个已经调整过参数的说话人分类器模型去掉。

36、分类层而来。接下来详细介绍本发明实施例中步骤S03和S05的情感转换器和情感语音生成器中包含的说话人编码器的获取流程，说话人编码器的获取具体可包含但不限于S310至步骤S330。0025步骤S310，将多说话人语音库中音频对应的梅尔频谱输入到预设的说话人分类器模型进行说话人识别，得到说话人标签、说话人特征、说话人标签的分类预测值，所述说话人分类器模型包括编码模块和分类模块，编码模块使用了三个一维卷积层和两个LSTM层，每一个卷积层后面有一个规范化层和ReLU激活函数，分类模块采用三个线性层；步骤S320，利用分类损失函数计算说话人标签和说话人标签的分类预测值的损失，调整所述说话人分类器模型的参。

37、数，得到优化的说话人分类器模型；步骤S330，去掉所述说话人分类器分类模块的最后一个线性层，保留其他层即可得到优化后的说话人编码器；说明书6/9 页10CN 117496944 A10步骤S340，将目标语音对应的梅尔频谱输入到所述优化后的说话人编码器，得到目标语音对应的说话人特征。0026需要说明的是，步骤S340满足如公式（2）所示。0027（2）；其中，表示所述优化后的说话人编码器，表示由目标语音转换来的梅尔频谱，用于表示将目标输入到所得到的目标语音对应的说话人特征。0028图3示出了本发明步骤S03的流程图；步骤03对应的情感转换器训练过程可参考图3。图中内容编码器即对应文本编码器。0。

38、029图4示出了本发明一种多情感多说话人语音合成系统的框图，具体包括以下模块：语音数据集获取模块5010，用于获取所需的情感语音库和多说话人语音库并提取相关特征、划分出训练集、测试集、验证集；情感编码器获取模块5020，用于获取用于提取音频中的情感特征的情感编码器；情感转换器获取模块5030，用于获取用于将不同情感特征迁移到多说话人语音库的各说话人上的情感转换器；新情感语音库构建模块5040，用于构建通过情感转换器得到的生成语音为一个新的情感语音库；情感语音生成器获取模块5050，用于获取用于生成包含给定情感特征的目标语音的情感语音生成器；在本发明的一种实施例中，语音数据集获取模块可包括以下子。

39、模块：语音库获取子模块，用于获取用于情感编码器和情感转换器获取的情感语音库、用于构建新的情感语音库的多说话人语音库，所述情感语音库包括音频、音频对应的文本、语音情感标签、说话人标签，所述多说话人语音库包括音频、音频对应的文本、说话人标签；特征提取子模块，用于将语音库中的文本转换为音素序列保存，以及用于提取训练所需的梅尔频谱、音高、能量三个声学特征，以及用于提取音素持续时间；数据集划分模块，用于按照自定义的合适的比例划分训练用到的语音库为训练集、测试集、验证集。0030在本发明的一种实施例中，情感转换器和情感语音生成器包括以下子模块：编码器子模块，用于提取输入的音素序列中的文本特征；说话人编码器。

40、子模块，用于提取输入的梅尔频谱中的说话人特征；情感特征提取子模块，利用情感编码器提取输入的梅尔频谱中的情感特征；特征融合子模块，用于将文本特征、情感特征、说话人特征进行特征融合；时长预测器子模块，用于预测每个音素的持续时长；音素扩充子模块，用于根据预测的音素对应的持续时长将每个音素进行等量扩充；音高预测器子模块，用于预测每个音素对应的音高；能量预测器子模块，用于预测每个音素对应的能量；解码器子模块，用于根据融合后特征、预测的持续时长、音高、能量重构梅尔频谱。说明书7/9 页11CN 117496944 A110031根据本发明实施例，还包括：获取目标语音情感特征；提取出参考音频的音频特征数据；。

41、构建基于GAN特征生成模型，所述生成模型中包括生成器与判别器；将目标语音情感特征作为判别器的初始特征判别标准，以音频特征数据作为生成器的初始输入，对特征生成模型进行对抗神经网络训练，直至特征生成模型达到纳什平衡；通过特征生成模型生成预设数据量的模拟特征数据；将目标合成语音进行特征提取，得到目标特征数据；基于标准欧式距离法，计算模拟特征数据与目标特征数据的相似度，将所述相似度作为第一音频预期值；通过用户反馈数据获取目标合成语音的第一音频预期值；将第一音频预期值与第一音频预期值进行加权平均计算得到语音合成质量评估指数。0032需要说明的是，在语音合成技术中，一般缺少对合成结果的科学性质量判断，技术。

42、手段主要依赖人工，而本发明中，通过基于GAN的音频生成模型，在已有语音参数基础上进行模拟音频生成，并将得到的模拟数据作为对比数据进行质量评判。所述音频预期值即合成数据的质量评估值，该值越大，代表质量越高，合成语音数据越接近真实情感音频特征。所述进行加权平均对应权值为预设值。0033相较于传统技术只通过人工听力进行判别，本发明大大提高了合成语音判别的科学性与准确性，具有良好的参考意义，且有效辅助技术人员对语音合成方法中的模型进行参数调控，提高合成效率。0034在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元。

43、的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。0035上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。0036另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单。

44、元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。0037本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器（ROM，ReadOnly Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。0038或者，本发明上述集成的单元如果以软。

45、件功能模块的形式实现并作为独立的产品说明书8/9 页12CN 117496944 A12销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、服务器、或者网络设备等）执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。0039以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。说明书9/9 页13CN 117496944 A13图 1图 2图 3说明书附图1/2 页14CN 117496944 A14图 4说明书附图2/2 页15CN 117496944 A15。

展开阅读全文

内容关键字: 多情说话人语合成方法系统