声学模型的训练方法、装置、计算机设备和存储介质.pdf

上传人：C*** 文档编号：10650202 上传时间：2021-08-06 格式：PDF 页数：20 大小：677.26KB

收藏版权申诉举报下载

第1页 / 共20页

第2页 / 共20页

第3页 / 共20页

下载文档到电脑，查找使用更方便

30 金币

下载文档

文档描述：

《声学模型的训练方法、装置、计算机设备和存储介质.pdf》由会员分享，可在线阅读，更多相关《声学模型的训练方法、装置、计算机设备和存储介质.pdf（20页完成版）》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201911400182.0 (22)申请日 2019.12.30 (71)申请人广州市百果园信息技术有限公司地址 511400 广东省广州市番禺区市桥街兴泰路274号C栋西塔5-13层 (72)发明人唐浩雨 (74)专利代理机构北京品源专利代理有限公司 11332 代理人孟金喆 (51)Int.Cl. G10L 15/06(2013.01) G10L 15/16(2006.01) G10L 15/26(2006.01) (54)发明名称一种声学模型的训练方法、装。

2、置、计算机设备和存储介质 (57)摘要本发明实施例公开了一种声学模型的训练方法、装置、计算机设备和存储介质，该声学模型包括编码器、注意力模型、解码器与CTC模型，编码器包括第一卷积神经网络与循环神经网络，该方法包括：确定本次训练的样本语音信号，样本语音信号用于表示样本文字；计算第一卷积神经网络对样本语音信号进行编码的第一损失值；计算声学模型预测样本语音信号为样本文字的第二损失值；结合第一损失值与第二损失值计算总损失值；判断总损失值是否满足预设的条件；若是，则确定完成训练声学模型；若否，则在训练声学模型时，执行第一训练操作、第二训。

3、练操作。本实施例实现了半监督训练，可以避免损失值可能存在梯度消失，保证一定深度的神经网络可训练。权利要求书3页说明书12页附图4页 CN 111128137 A 2020.05.08 CN 111128137 A 1.一种声学模型的训练方法，其特征在于，所述声学模型包括编码器、注意力模型、解码器与CTC模型，所述编码器包括第一卷积神经网络与循环神经网络，所述方法包括：确定本次训练的样本语音信号，所述样本语音信号用于表示样本文字；计算所述第一卷积神经网络对所述样本语音信号进行编码的第一损失值；计算所述声学模型预测所述样本语音信号为所述样本文字的第二损失值；。

4、结合所述第一损失值与所述第二损失值计算总损失值；判断所述总损失值是否满足预设的条件；若是，则确定完成训练所述声学模型；若否，则在训练所述声学模型时，执行第一训练操作、第二训练操作，返回执行所述确定本次训练的样本语音信号，其中，所述第一训练操作用于对所述第一卷积神经网络进行训练，所述第二训练操作用于对所述循环神经网络、所述注意力模型、所述解码器与所述 CTC模型进行训练。 2.根据权利要求1所述的方法，其特征在于，所述计算所述第一卷积神经网络对所述样本语音信号进行编码的第一损失值，包括：确定所述第一卷积神经网络对所述样本语音信号进行编码获得的编码信号；。

5、在预设的第二卷积神经网络中对所述编码信号进行解码，获得预估语音信号；基于所述样本语音信号与所述预估语音信号计算第一损失值。 3.根据权利要求2所述的方法，其特征在于，所述第一卷积神经网络的结构与所述第二卷积神经网络的结构相反。 4.根据权利要求2所述的方法，其特征在于，所述基于所述样本语音信号与所述预估语音信号计算第一损失值，包括：计算每帧所述样本语音信号与每帧所述预估语音信号之间的信号差值；计算所述信号差值的平方；计算所有平方的和值，作为第一损失值。 5.根据权利要求2所述的方法，其特征在于，所述执行第一训练操作、第二训练操作，包括：依次对所述第一卷积神。

6、经网络与所述第二卷积神经网络进行第一反向传播。 6.根据权利要求1所述的方法，其特征在于，所述计算所述声学模型预测所述样本语音信号为所述样本文字的第二损失值，包括：确定所述第一卷积神经网络对所述样本语音信号进行编码获得的编码信号；在所述循环神经网络中，对所述编码信号进行编码，获得隐含特征信号；在所述CTC模型中，将所述隐含特征信号映射为第一目标文字；基于所述第一目标文字与所述样本文字计算第一子损失值；在所述注意力模型中，将所述隐含特征信号进行加权处理，获得加权隐含特征信号；在所述解码器中，对所述加权隐含特征信号进行解码，以映射为第二目标文字；基于所述第二目标。

7、文字与所述样本文字计算第二子损失值；结合所述第一子损失值与所述第二子损失值计算第二损失值。 7.根据权利要求6所述的方法，其特征在于，所述结合所述第一子损失值与所述第二子损失值计算第二损失值，包括：权利要求书 1/3 页 2 CN 111128137 A 2 确定预设的第一超参数；在所述第一超参数与所述第一子损失值之间乘积的基础上，加上所述第二子损失值，获得第二损失值。 8.根据权利要求6所述的方法，其特征在于，所述执行第一训练操作、第二训练操作，包括：对所述CTC模型进行第二反向传播；依次对所述注意力模型、所述解码器进行第三反向传播；在所述第二反向传播与所。

8、述第三反向传播之后，对所述循环神经网络进行第四反向传播。 9.根据权利要求1-8任一项所述的方法，其特征在于，所述结合所述第一损失值与所述第二损失值计算总损失值，包括：确定预设的第二超参数；在所述第二超参数与所述第一损失值之间乘积的基础上，加上所述第二损失值，获得总损失值。 10.根据权利要求1-8任一项所述的方法，其特征在于，所述结合所述第一损失值与所述第二损失值计算总损失值，包括：确定预设的第三超参数；在所述第三超参数与所述第一损失值之间乘积的基础上，加上所述第二损失值，获得第三损失值；基于所述声学模型中指定的模型参数的参数值生成惩罚值；计算所述。

9、第三损失值与所述惩罚值之间的和值，作为总损失值。 11.根据权利要求10所述的方法，其特征在于，所述基于所述声学模型中指定的模型参数的参数值生成惩罚值，包括：计算所述声学模型中指定的模型参数的参数值与预设的调整值之间的差值；取所述差值的平方，作为惩罚值。 12.根据权利要求1-8任一项所述的方法，其特征在于，所述第一卷积神经网络包括VGG 网络，所述循环神经网络包括LSTM网络。 13.一种声学模型的训练装置，其特征在于，所述声学模型包括编码器、注意力模型、解码器与CTC模型，所述编码器包括第一卷积神经网络与循环神经网络，所述装置包括：样本语音信号确定模块。

10、，用于确定本次训练的样本语音信号，所述样本语音信号用于表示样本文字；第一损失值计算模块，用于计算所述第一卷积神经网络对所述样本语音信号进行编码的第一损失值；第二损失值计算模块，用于计算所述声学模型预测所述样本语音信号为所述样本文字的第二损失值；总损失值计算模块，用于结合所述第一损失值与所述第二损失值计算总损失值；条件判断模块，用于判断所述总损失值是否满足预设的条件；若是，则调用完成确定模块，若否，则调用模型训练模块；完成确定模块，用于确定完成训练所述声学模型；权利要求书 2/3 页 3 CN 111128137 A 3 模型训练模块，用于在训练所述声。

11、学模型时，执行第一训练操作、第二训练操作，返回调用所述样本语音信号确定模块，其中，所述第一训练操作用于对所述第一卷积神经网络进行训练，所述第二训练操作用于对所述循环神经网络、所述注意力模型、所述解码器与所述CTC模型进行训练。 14.一种计算机设备，其特征在于，所述计算机设备包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-12中任一所述的声学模型的训练方法。 15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现。

12、如权利要求1-12中任一所述的声学模型的训练方法。权利要求书 3/3 页 4 CN 111128137 A 4 一种声学模型的训练方法、装置、计算机设备和存储介质技术领域 0001 本发明实施例涉及声学技术，尤其涉及一种声学模型的训练方法、装置、计算机设备和存储介质。背景技术 0002 在直播等业务中，常常需要对海量的音视频内容进行监管，包括图像和声音，其中，声音为用户(如主播)说出的语音。 0003 对于语音内容的监管，常用的一个方法就是对于语音进行识别，转换成文字，然后对文字进行甄别。 0004 对于语音识别的过程中，目前多使用端到端的神经网络实现声学。

13、模型，对切分过的一小段一小段的语音进行建模，对语音进行编码，对编码后的语音进行结算，得到文字的概率矩阵，通过一定的搜索算法在文字的概率矩阵得到文字串。 0005 在神经网络的训练过程中，使用标注的文字与文字的概率矩阵对比，得到损失值，从而使用该损失值反向传播一层一层训练整个神经网络。 0006 但是，声学模型应用的神经网络的层数较多，反向传播的路径远，反向传播从浅层开始传播，从浅层到深层，神经网络训练所依赖的损失值可能存在梯度消失，导致一定的深度的神经网络不可训练。 0007 此时，可能需要手动对声学模型中的模型参数进行优化，使得声学模型的精确度较低，。

14、导致语音识别的精确度较低，容易出现识别错误或无法识别的问题，在直播等场景中，可监督的效果较差。发明内容 0008 本发明实施例提供一种声学模型的训练方法、装置、计算机设备和存储介质，以解决声学模型应用神经网络时，损失值可能存在梯度消失，导致一定的深度的神经网络不可训练的问题。 0009 第一方面，本发明实施例提供了一种声学模型的训练方法，所述声学模型包括编码器、注意力模型、解码器与CTC模型，所述编码器包括第一卷积神经网络与循环神经网络，所述方法包括： 0010 确定本次训练的样本语音信号，所述样本语音信号用于表示样本文字； 0011 计算所述第一卷积。

15、神经网络对所述样本语音信号进行编码的第一损失值； 0012 计算所述声学模型预测所述样本语音信号为所述样本文字的第二损失值； 0013 结合所述第一损失值与所述第二损失值计算总损失值； 0014 判断所述总损失值是否满足预设的条件； 0015 若是，则确定完成训练所述声学模型； 0016 若否，则在训练所述声学模型时，执行第一训练操作、第二训练操作，返回执行所述确定本次训练的样本语音信号，其中，所述第一训练操作用于对所述第一卷积神经网络说明书 1/12 页 5 CN 111128137 A 5 进行训练，所述第二训练操作用于对所述循环神经网络、所述注意力模型、所述解码器。

16、与所述CTC模型进行训练。 0017 第二方面，本发明实施例还提供了一种声学模型的训练装置，所述声学模型包括编码器、注意力模型、解码器与CTC模型，所述编码器包括第一卷积神经网络与循环神经网络，所述装置包括： 0018 样本语音信号确定模块，用于确定本次训练的样本语音信号，所述样本语音信号用于表示样本文字； 0019 第一损失值计算模块，用于计算所述第一卷积神经网络对所述样本语音信号进行编码的第一损失值； 0020 第二损失值计算模块，用于计算所述声学模型预测所述样本语音信号为所述样本文字的第二损失值； 0021 总损失值计算模块，用于结合所述第一损失值与所述。

17、第二损失值计算总损失值； 0022 条件判断模块，用于判断所述总损失值是否满足预设的条件；若是，则调用完成确定模块，若否，则调用模型训练模块； 0023 完成确定模块，用于确定完成训练所述声学模型； 0024 模型训练模块，用于在训练所述声学模型时，执行第一训练操作、第二训练操作，返回调用所述样本语音信号确定模块，其中，所述第一训练操作用于对所述第一卷积神经网络进行训练，所述第二训练操作用于对所述循环神经网络、所述注意力模型、所述解码器与所述CTC模型进行训练。 0025 第三方面，本发明实施例还提供了一种计算机设备，所述计算机设备包括： 0026 一个。

18、或多个处理器； 0027 存储器，用于存储一个或多个程序； 0028 当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的声学模型的训练方法。 0029 第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所述的声学模型的训练方法。 0030 在本实施例中，确定本次训练的样本语音信号，样本语音信号标记样本文字，一方面，计算第一卷积神经网络对样本语音信号进行编码的第一损失值，另一方面，计算声学模型预测样本语音信号为样本文字的第二损失值，结合第一损失值与第二损失值。

19、计算总损失值，判断总损失值是否满足预设的条件；若是，则确定完成训练声学模型；若否，则在训练声学模型时，执行第一训练操作、第二训练操作，一方面，在无监督的情况下，在深层训练第一卷积神经网络，在样本文字作为标签的监督下，在浅层训练循环神经网络、注意力模型解码器与CTC模型进行训练，实现了半监督训练，通过独立训练深层的第一卷积神经网络，可以避免损失值可能存在梯度消失，保证一定深度的神经网络可训练，无需手动调整声学模型中的模型参数，在相同的时间内容，可以训练出精确度更高的声学模型，从而增加语音识别的精确度，准确识别在先识别错误或无法识别的语音信。

20、号，在直播等场景中，可增强监督的效果。说明书 2/12 页 6 CN 111128137 A 6 附图说明 0031 图1为本发明实施例一提供的一种声学模型的训练方法的流程图； 0032 图2为本发明实施例一提供的一种声学模型的结构示意图； 0033 图3A是本发明实施例一提供的一种编码器的结构示意图； 0034 图3B是本发明实施例一提供的一种第一卷积神经网络的训练示意图； 0035 图4为本发明实施例二提供的一种声学模型的训练装置的结构示意图； 0036 图5为本发明实施例三提供的一种计算机设备的结构示意图。具体实施方式 0037 下面结合附图和实施例对本发明作进一步的详细说明。。

21、可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。 0038 实施例一 0039 图1为本发明实施例一提供的一种声学模型的训练方法的流程图，本实施例提出半监督的方法训练声学模型，可适用于使用有监督学习训练浅层，无监督学习训练深层的情况。 0040 进一步而言，如图2所示，声学模型包括编码器Encoder、注意力模型Attention、解码器Decoder与CTC(Connectionist temporal classification，基于神经网络的。

22、时序类分类)模型。 0041 其中，如图3A所示，编码器包括第一卷积神经网络(Convolutional neural networks， CNN)与循环神经网络(Recurrent neural networks， RNN)。 0042 进一步而言，第一卷积神经网络与循环神经网络的连接为detach连接， detach连接为允许正向传播、禁止反向传播，当反向传播时，到此停止。 0043 解码器可选的有CNN、 RNN、 BiRNN、 GRU(Gated Recurrent Unit，门控循环单元)、 LSTM(Long Short-Term Memory，长短期记忆网络)。

23、等等。 0044 该方法可以由声学模型的训练装置来执行，该声学模型的训练装置可以由软件和/或硬件实现，可配置在计算机设备中，例如，个人电脑、服务器、工作站，等等，该方法具体包括如下步骤： 0045 S101、确定本次训练的样本语音信号。 0046 在具体实现中，声学模型通常经过多次迭代进行训练，在每次迭代训练中，可确定本次用于训练声学模型的训练样本，该训练样本包括多帧样本语音信号，该样本语音信号标注了label(标签，即样本文字)，即样本语音信号用于表示样本文字。 0047 S102、计算第一卷积神经网络对样本语音信号进行编码的第一损失值。 0048 。

24、在训练声学模型时，第一卷积神经网络单独进行无监督的训练，则可以计算第一卷积神经网络对样本语音信号进行编码造成的误差，作为第一损失值。 0049 在具体实现中，可以针对第一卷积神经网络添加第二卷积神经网络，该第二卷积神经网络用于辅助第一卷积神经网络的训练。 0050 其中，第一卷积神经网络的结构与第二卷积神经网络的结构相反。 0051 一般情况下，在声学模型的编码器中，第一卷积神经网络通常为深层次的卷积神说明书 3/12 页 7 CN 111128137 A 7 经网络，如VGG(包括标准的VGG网络及其变形)、 Resnet等，当然，第一卷积神经网络可以为一层或者。

25、两层等浅层次的卷积神经网络，本实施例对此不加以限制。 0052 以VGG网络为例，第一卷积神经网络包括用于编码的VGG网络，则第二卷积神经网络包括用于解码的VGG网络，用于编码的VGG网络的结构与解码的VGG网络的结构相反。 0053 VGG网络探索了卷积神经网络的深度与其性能之间的关系，构筑了16-19层深的卷积神经网络，证明了增加网络的深度能够在一定程度上影响网络的性能，使错误率大幅下降，同时拓展性又很强，迁移到其它图片数据上的泛化性也非常好。 0054 此时，如图3B所示，在编码器Encoder中，第一卷积神经网络可作为编码器Encoder (即CNN-En。

26、coder)、第二卷积神经网络可作为解码器Decoder(即CNN-Decoder)，组成一个自编码器AutoEncoder。 0055 在具体实现中，可确定第一卷积神经网络对样本语音信号On进行编码获得的编码信号，在预设的第二卷积神经网络中对编码信号进行解码，获得预估语音信号基于样本语音信号On与预估语音信号计算第一损失值。 0056 在一个示例中，损失函数为平方损失函数(quadratic loss function)，在此示例中，可计算每帧样本语音信号与每帧预估语音信号之间的信号差值，计算信号差值的平方，计算所有平方的和值，作为第一损失值，即第一损失值记为。

27、： 0057 0058 当然，上述损失函数只是作为示例，在实施本实施例时，可以根据实际情况设置其他损失函数，例如， log对数损失函数(逻辑回归)、指数损失函数(Adaboost)、 Hinge损失函数(SVM)、等等，实施例对此不加以限制。另外，除了上述损失函数外，本领域技术人员还可以根据实际需要采用其它损失函数，本实施例对此也不加以限制。 0059 S103、计算声学模型预测样本语音信号为样本文字的第二损失值。 0060 在训练声学模型时，第一卷积神经网络与循环神经网络作为编码器，与注意力模型、解码器与CTC模型均为声学模型中的模块，因此，针对声学。

28、模型整体预测样本语音信号为样本文字的误差，作为第二损失值。 0061 在具体实现中，如图2所示，在编码器(Encoder)中，确定第一卷积神经网络对样本语音信号On进行编码获得的编码信号，并将该编码信号传输至编码器中的循环神经网络，在循环神经网络中，对编码信号进行编码，获得隐含特征信号hn。 0062 进一步而言，循环神经网络的对序列信号具有优秀的建模能力，可应用于与时间相关的语音序列。标准的循环神经网络有着梯度消失或爆炸的问题，导致循环神经网络不能够很好的对较长的序列进行建模，循环神经网络中的Long short-term memory(LSTM)网络通过。

29、在时间轴引入门来解决这个问题，因此，可将LSTM网络应用于声学模型中的编码器。 0063 需要说明的是， LSTM网络包括标准的LSTM网络及其变形，本领域技术人员可以根据实际情况设置循环神经网络的结构，例如，高速(highway-)LSTM和残差(Residual-)LSTM 被用来解决层数非常多的LSTM还是很难训练的问题；二维LSTM(time-frequency LSTM和 Grid LSTM)被用来对时间-频率的二维语音频谱进行建模；延时可控的双向LSTM同时享有双向处理带来的比单向LSTM高的正确率和可控延时带来的比双向LSTM低的延时，等等。说明书 4/12。

30、页 8 CN 111128137 A 8 0064 此后，该隐含特征信号分为两路进行传输： 0065 一路隐含特征信号传输至CTC模型中，在CTC模型中，将隐含特征信号映射为第一目标文字yn，基于第一目标文字yn与样本文字计算第一子损失值。 0066 CTC模型可以将语音序列直接映射到词或者字符，省去对发音字典的依赖。通过直接选取最大概率的单元， CTC模型可以省去对解码器的依赖。 0067 进一步而言，声学模型的训练大多属于有监督学习，明确每一帧语音信号对应的 label进行有效的训练，在训练的数据准备阶段对语音信号进行强制对齐。对于语音信号的一帧数据，很难给出。

31、一个label，但是几十帧数据就容易判断出语音信号对应的label。 CTC 模型的引入可以放宽了这种逐一对应的要求，一个输入序列和一个输出序列即可以训练。 0068 在具体实现中，在标注符号集中加一个空白符号blank，然后利用RNN进行标注，最后把blank符号和预测出的重复符号消除。例如，有可能预测除了一个-a-bb，就对应序列ab，这样就让RNN可以对长度小于输入序列的标注序列进行预测了。 RNN的训练需要用到前向后向算法(Forward-backward algorithm)，即对于给定预测序列，比如 “ab” ，在各个字符间插入空白符号，建立起篱笆。

32、网络(Trellis)，然后对将所有可能映射到给定预测的序列都穷举出来求和。 0069 CTC模型中，损失函数可定义如下所示： 0070 L(S)-ln(x， zS)p(z|x)-(x， zS)lnp(z|x) 0071 其中,p(z|x)代表给定输入x(如隐含特征信号)，输出序列z(如样本文字)的概率， S为训练集。损失函数可以解释为：给定样本后输出正确label的概率的乘积，再取负对数就是损失函数了。取负号之后我们通过最小化损失函数，就可以使输出正确的label的概率达到最大了。 0072 另一路隐含特征信号hn传输至注意力模型-解码器(Attention-Decod。

33、er)中，在注意力模型(图2中标记 “H” 的模块)中，计算一个注意力权重(attention weight)am,n，计算记为： 0073 am,nattention(h1-n,sm-1) 0074 其中， sm-1为注意力模型-解码器中的一个状态量。 0075 进一步而言，在Seq2Seq结构(即Encoder-Decoder)中， Encoder把所有的输入序列都编码成一个统一的语义向量context，然后再由Decoder进行解码。由于context包含原始序列中的所有信息，它的长度就成了限制模型性能的瓶颈。 0076 利用Encoder所有隐藏层状态可解决con。

34、text长度限制问题，因此，在Encoder与 Decoder支架添加Attention， Attention在产生输出的时候，还会产生一个 “注意力范围” 表示接下来输出的时候要重点关注输入序列中的哪些部分，然后根据关注的区域来产生下一个输出，如此往复，相当于在Seq2Seq结构上加了一层 “包装” ，内部通过函数计算注意力权重，从而给Decoder加入额外信息，以提高性能。 0077 根据注意力权重am,n对隐含特征信号进行加权处理，获得加权隐含特征信号，记为： 0078 说明书 5/12 页 9 CN 111128137 A 9 0079 在解码器中，隐含。

35、特征信号结合注意力模型-解码器的状态量sn，将隐含特征信号映射为第二目标文字，同时更新状态量sn： 0080 ynGenerate(cn,sn-1) 0081 snRecurrency(sn-1,cn,yn) 0082 其中， Generate与Recurrency均为注意力模型-解码器中的一部分，当然，状态量 sn-1也会更新注意力权重am,n。 0083 在预测出样本语音信号时，可基于第二目标文字与样本文字计算第二子损失值。 0084 将两路处理进行汇总，结合第一子损失值与第二子损失值计算声学模型预测样本语音信号为样本文字的第二损失值。 0085 在一个示例中，确定预设的。

36、第一超参数，在第一超参数与第一子损失值之间乘积的基础上，加上第二子损失值，获得第二损失值，即第二损失值记为： 0086 lossctc+attwctclossctc+lossatt 0087 其中， lossctc+att为第二损失值， wctc为第一超参数， wctc(0， 1)， lossctc为第一子损失值， lossatt为第二子损失值。 0088 S104、结合第一损失值与第二损失值计算总损失值。 0089 结合第一损失值与第二损失值，则可以计算出用于在有监督的情况下训练CTC模型、解码器、注意力模型与编码器中的循环神经网络，以及，在无监督的情况下训练编码器。

37、中的第一卷积神经网络的总损失值。 0090 在一个示例中，可确定预设的第二超参数，在第二超参数与第一损失值之间乘积的基础上，加上第二损失值，获得总损失值，即总损失值即为： 0091 Loss总lossctc+att+wCNNlossCNNwctclossctc+lossatt+wCNNlossCNN 0092 其中， lossCNN为第一损失值， lossctc+att为第二损失值， wctc为第一超参数， wCNN为第二超参数， wCNN(0， 1)， lossctc为第一子损失值， lossatt为第二子损失值。 0093 在另一个示例中，增加一个惩罚值作为正则项，该惩。

38、罚值可以用于平衡有监督的训练与无监督的训练。 0094 在本示例中，可确定预设的第三超参数，在第三超参数与第一损失值之间乘积的基础上，加上第二损失值，获得第三损失值，基于声学模型中指定的模型参数的参数值生成惩罚值，计算第三损失值与惩罚值之间的和值，作为总损失值，即总损失值即为： 0095 Loss总lossctc+att+wCNNlossCNN+g(w)wctclossctc+lossatt+wCNNlossCNN+g(w) 0096 其中， lossCNN为第一损失值， lossctc+att为第二损失值， g(w)为惩罚函数， wctc为第一超参数， wCNN为第三。

39、超参数， wCNN(0， 1)， lossctc为第一子损失值， lossatt为第二子损失值。 0097 进一步地， g(w)可以表示为： 0098 g(w)(w- )2 0099 其中， w为声学模型中指定的模型参数，该模型参数独立于CTC模型、解码器、注意力模型与编码器中，随声学模型训练而更新数值，在声学模型训练完成时，丢弃该模型参数，为调整值，该调整值属于常量，如根据wctc(0， 1)的特点， 0.5。 0100 即，计算声学模型中指定的模型参数的参数值与预设的调整值之间的差值，取差值的平方，作为惩罚值。说明书 6/12 页 10 CN 111128。

40、137 A 10 0101 当然，上述计算总损失值的方式只是作为示例，在实施本实施例时，可以根据实际情况设置其他计算总损失值的方式，本实施例对此不加以限制。另外，除了上述计算总损失值的方式外，本领域技术人员还可以根据实际需要采用其它计算总损失值的方式，本实施例对此也不加以限制。 0102 S105、判断总损失值是否满足预设的条件；若是，则执行S106，若否，则执行S107。 0103 在本实施例中，可预先针对总损失值设置条件，例如，总损失值大于第一阈值，和/ 或，本次的总损失值与上一次的损失值之间的差值小于第二阈值，等等。 0104 在满足该条件时，。

41、停止迭代训练声学模型，在未满足该条件时，继续迭代训练声学模式时。 0105 S106、确定完成训练声学模型。 0106 在完成训练声学模型时，存储CTC模型、解码器、注意力模型与编码器，并记录CTC 模型、解码器、注意力模型与编码器的模型参数的数值。 0107 需要说明的是，若使用第二卷积神经网络辅助训练编码器中的第一卷积神经网络，则在完成训练声学模型时，滤除该第二卷积神经网络。 0108 若使用指定的模型参数计算总损失值，则在训练声学模型时，滤除该模型参数。 0109 S107、在训练声学模型时，根据总损失值执行第一训练操作、第二训练操作，返回执行。

42、S101。 0110 如果把声学模型可以看作是一种函数映射，即声学模型的训练过程是一个函数优化求解的过程。优化求解的目标就是不断更新该声学模型所包含的模型参数的数值(又称权重)，将已标注的样本文字作为输入的数据，经过声学模型的计算，输出的预测值和标注之间的损失值以及编码的损失值最小。 0111 声学模型训练的过程就是模型参数更新的过程：计算目标函数在当前弄醒参数的梯度方向，然后通过优化方式更新学习速率，计算模型参数的更新幅度，在梯度相反方向更新模型参数的数值，即在总损失值上向着损失最小的点靠近而指引了声学模型调整的方向，把总损失值反向传给声学模型的每一层，让。

43、每一层都根据损失值反向调整模型参数的数值。 0112 根据学习率的设定情况，目前的优化方式主要分为两大类：一类是以随机梯度下降(stochastic gradient descent， SGD)算法为代表的手动设定学习率的优化方式；另一类是以自适应矩估计(Adaptive Moment Estimation， Adam)为代表的自适应设定学习率的优化方式。 0113 在本实施例中，声学模型的训练包括如下两种训练操作： 0114 1、第一训练操作 0115 具体而言，第一训练操作用于对第一卷积神经网络进行训练。 0116 需要说明的是，在使用第二卷积神经网络辅助训练编码器中。

44、的第一卷积神经网络的情况下，第一卷积神经网络与第二卷积神经网络为正向传播，则可以依次对第一卷积神经网络与第二卷积神经网络进行第一反向传播。 0117 2、第二训练操作 0118 具体而言，第二训练操作用于对循环神经网络、注意力模型、解码器与CTC模型进行训练。说明书 7/12 页 11 CN 111128137 A 11 0119 一方面，循环神经网络与CTC模型为正向传播，则对CTC模型进行第二反向传播。 0120 另一方面，循环神经网络、注意力模型与解码器为正向传播，则依次对注意力模型、解码器进行第三反向传播。 0121 在第二反向传播与第三反向传播之后，。

45、基于第二反向传播的结果与第三反向传播的结果共同对循环神经网络进行第四反向传播。 0122 此时，由于循环神经网络与第一卷积神经网络之间为detach连接，第一训练操的反向传播在循环神经网络停止，并不会传递到第一卷积神经网络。 0123 在本实施例中，确定本次训练的样本语音信号，样本语音信号标记样本文字，一方面，计算第一卷积神经网络对样本语音信号进行编码的第一损失值，另一方面，计算声学模型预测样本语音信号为样本文字的第二损失值，结合第一损失值与第二损失值计算总损失值，判断总损失值是否满足预设的条件；若是，则确定完成训练声学模型；若否，则在训练声学模型时。

46、，执行第一训练操作、第二训练操作，一方面，在无监督的情况下，在深层训练第一卷积神经网络，在样本文字作为标签的监督下，在浅层训练循环神经网络、注意力模型解码器与CTC模型进行训练，实现了半监督训练，通过独立训练深层的第一卷积神经网络，可以避免损失值可能存在梯度消失，保证一定深度的神经网络可训练，无需手动调整声学模型中的模型参数，在相同的时间内容，可以训练出精确度更高的声学模型，从而增加语音识别的精确度，准确识别在先识别错误或无法识别的语音信号，在直播等场景中，可增强监督的效果。 0124 实施例二 0125 图4为本发明实施例三提供的一种声学模型。

47、的训练装置的结构示意图，该声学模型包括编码器、注意力模型、解码器与CTC模型，编码器包括第一卷积神经网络与循环神经网络，该装置具体可以包括如下模块： 0126 样本语音信号确定模块401，用于确定本次训练的样本语音信号，所述样本语音信号用于表示样本文字； 0127 第一损失值计算模块402，用于计算所述第一卷积神经网络对所述样本语音信号进行编码的第一损失值； 0128 第二损失值计算模块403，用于计算所述声学模型预测所述样本语音信号为所述样本文字的第二损失值； 0129 总损失值计算模块404，用于结合所述第一损失值与所述第二损失值计算总损失值； 0130 条。

48、件判断模块405，用于判断所述总损失值是否满足预设的条件；若是，则调用完成确定模块406，若否，则调用模型训练模块407； 0131 完成确定模块406，用于确定完成训练所述声学模型； 0132 模型训练模块407，用于在训练所述声学模型时，执行第一训练操作、第二训练操作，返回调用所述样本语音信号确定模块401，其中，所述第一训练操作用于对所述第一卷积神经网络进行训练，所述第二训练操作用于对所述循环神经网络、所述注意力模型、所述解码器与所述CTC模型进行训练。 0133 在本发明的一个实施例中，所述第一损失值计算模块402包括： 0134 编码信号确定子。

49、模块，用于确定所述第一卷积神经网络对所述样本语音信号进行说明书 8/12 页 12 CN 111128137 A 12 编码获得的编码信号； 0135 解码子模块，用于在预设的第二卷积神经网络中对所述编码信号进行解码，获得预估语音信号； 0136 信号计算子模块，用于基于所述样本语音信号与所述预估语音信号计算第一损失值。 0137 在本发明的一个实施例中，所述第一卷积神经网络的结构与所述第二卷积神经网络的结构相反。 0138 在本发明的一个实施例中，所述信号计算子模块包括： 0139 信号差值计算子模块，用于计算每帧所述样本语音信号与每帧所述预估语音信号之间的信号差值；。

50、 0140 平方计算子模块，用于计算所述信号差值的平方； 0141 平方和计算子模块，用于计算所有平方的和值，作为第一损失值。 0142 在本发明的一个实施例中，所述模型训练模块407包括： 0143 第一反向传播子模块，用于依次对所述第一卷积神经网络与所述第二卷积神经网络进行第一反向传播。 0144 在本发明的一个实施例中，所述第二损失值计算模块403包括： 0145 编码信号确定子模块，用于确定所述第一卷积神经网络对所述样本语音信号进行编码获得的编码信号； 0146 隐含特征信号获得子模块，用于在所述循环神经网络中，对所述编码信号进行编码，获得隐含特征信号； 01。

展开阅读全文

内容关键字: 声学模型训练方法装置计算机设备存储介质