书签 分享 收藏 举报 版权申诉 / 18

语音识别方法和装置.pdf

  • 上传人:r5
  • 文档编号:5879987
  • 上传时间:2019-03-28
  • 格式:PDF
  • 页数:18
  • 大小:1.15MB
  • 摘要
    申请专利号:

    CN201510925644.6

    申请日:

    2015.12.14

    公开号:

    CN105529027A

    公开日:

    2016.04.27

    当前法律状态:

    实审

    有效性:

    审中

    法律详情:

    实质审查的生效IPC(主分类):G10L 15/06申请日:20151214|||公开

    IPC分类号:

    G10L15/06(2013.01)I; G10L19/008(2013.01)I; G10L15/26

    主分类号:

    G10L15/06

    申请人:

    百度在线网络技术(北京)有限公司

    发明人:

    钱胜; 潘复平

    地址:

    100085 北京市海淀区上地十街10号百度大厦三层

    优先权:

    专利代理机构:

    北京清亦华知识产权代理事务所(普通合伙) 11201

    代理人:

    宋合成

    PDF完整版下载: PDF下载
    内容摘要

    本发明提出一种语音识别方法和装置,其中,该语音识别方法,包括以下步骤:接收语音信号;根据预先建立的声学模型、语言模型和解码网络对所述语音信号进行解码,并在解码过程中动态添加空白单元,以得到添加空白单元后的最优解码路径,其中,所述声学模型是基于连接时序分类训练得到的,所述声学模型中包括基本发音单元和所述空白单元,所述解码网络由所述基本发音单元构成的多个解码路径组成;将所述最优解码路径输出为所述语音信号的识别结果。本发明的语音识别方法,能够提高语音识别的准确性,并提高识别过程中的解码速度。

    权利要求书

    1.一种语音识别方法,其特征在于,包括以下步骤:
    接收语音信号;
    根据预先建立的声学模型、语言模型和解码网络对所述语音信号进行解码,并在解码过
    程中动态添加空白单元,以得到添加空白单元后的最优解码路径,其中,所述声学模型是基
    于连接时序分类训练得到的,所述声学模型中包括基本发音单元和所述空白单元,所述解码
    网络由所述基本发音单元构成的多个解码路径组成;
    将所述最优解码路径输出为所述语音信号的识别结果。
    2.如权利要求1所述的方法,其特征在于,所述根据预先建立的声学模型、语言模型
    和解码网络对所述语音信号进行解码,并在解码过程中动态添加空白单元,以得到添加空白
    单元后的最优解码路径,包括:
    根据所述解码网络中的跳转路径,对当前各解码路径进行扩展,并在扩展过程中动态添
    加空白单元,以得到添加空白单元后的至少一个扩展路径;
    根据从所述语音信号中提取的当前特征向量帧在所述声学模型和所述语言模型上分别
    获取所述至少一个扩展路径的得分;
    根据所述得分对所述至少一个扩展路径进行筛选,并根据筛选结果更新所述当前解码路
    径;
    如果所述当前特征向量帧为所述语音信号的最后特征向量帧,则根据所述得分从所述更
    新后的当前解码路径中选择所述最优解码路径。
    3.如权利要求2所述的方法,其特征在于,所述根据所述得分对所述至少一个扩展路
    径进行筛选,并根据筛选结果更新当前解码路径,包括:
    分别获取所述至少一个扩展路径的得分与当前各解码路径中的最高得分的差值;
    如果扩展路径的得分与所述最高得分的差值小于预设阈值,则将所述扩展路径作为新的
    当前解码路径。
    4.如权利要求3所述的方法,其特征在于,所述在扩展过程中动态添加空白单元,包
    括:
    确定所述各解码路径当前扩展到的第一基本发音单元;
    为所述第一基本发音单元添加由所述第一基本发音单元跳转至所述空白单元、由所述空
    白单元跳转至自身的跳转路径,以生成针对所述第一基本发音单元添加空白单元之后的至少
    一个扩展路径。
    5.如权利要求4所述的方法,其特征在于,还包括:
    根据所述当前特征向量帧分别获取所述空白单元的得分和所述第一基本发音单元的得
    分;
    如果所述空白单元的得分小于所述第一基本发音单元的得分,则在判断进入所述第一基
    本发音单元的扩展路径能否作为新的当前解码路径时,降低所述预设阈值。
    6.如权利要求4所述的方法,其特征在于,还包括:
    判断所述至少一个扩展路径是否到达词尾;
    如果所述扩展路径到达词尾,则在判断所述到达词尾的扩展路径能否作为新的当前解码
    路径时,降低所述预设阈值。
    7.一种语音识别装置,其特征在于,包括:
    接收模块,接收语音信号;
    解码模块,根据预先建立的声学模型、语言模型和解码网络对所述语音信号进行解码,
    并在解码过程中动态添加空白单元,以得到添加空白单元后的最优解码路径,其中,所述声
    学模型是基于连接时序分类训练得到的,所述声学模型中包括基本发音单元和所述空白单
    元,所述解码网络由所述基本发音单元构成的多个解码路径组成;
    输出模块,将所述最优解码路径输出为所述语音信号的识别结果。
    8.如权利要求7所述的装置,其特征在于,所述解码模块包括:
    扩展单元,用于根据所述解码网络中的跳转路径,对当前各解码路径进行扩展;
    添加单元,用于在扩展过程中动态添加空白单元,以得到添加空白单元后的至少一个扩
    展路径;
    第一获取单元,用于根据从所述语音信号中提取的当前特征向量帧在所述声学模型和所
    述语言模型上分别获取所述至少一个扩展路径的得分;
    筛选单元,用于根据所述得分对所述至少一个扩展路径进行筛选,并根据筛选结果更新
    所述当前解码路径;
    选择单元,用于如果所述当前特征向量帧为所述语音信号的最后特征向量帧,则根据所
    述得分从所述更新后的当前解码路径中选择所述最优解码路径。
    9.如权利要求8所述的装置,其特征在于,所述筛选单元用于:
    分别获取所述至少一个扩展路径的得分与当前各解码路径中的最高得分的差值;
    如果扩展路径的得分与所述最高得分的差值小于预设阈值,则将所述扩展路径作为新的
    当前解码路径。
    10.如权利要求9所述的装置,其特征在于,所述添加单元用于:
    确定所述各解码路径当前扩展到的第一基本发音单元;
    为所述第一基本发音单元添加由所述第一基本发音单元跳转至所述空白单元、由所述空
    白单元跳转至自身的跳转路径,以生成针对所述第一基本发音单元添加空白单元之后的至少
    一个扩展路径。
    11.如权利要求10所述的装置,其特征在于,所述解码模块还包括:
    第二获取单元,用于根据所述当前特征向量帧分别获取所述空白单元的得分和所述第一
    基本发音单元的得分;
    第一控制单元,用于当所述空白单元的得分小于所述第一基本发音单元的得分时,在判
    断进入所述第一基本发音单元的扩展路径能否作为新的当前解码路径时,降低所述预设阈
    值。
    12.如权利要求10所述的装置,其特征在于,所述解码模块还包括:
    判断单元,用于判断所述至少一个扩展路径是否到达词尾;
    第二控制单元,用于在所述扩展路径到达词尾时,在判断所述到达词尾的扩展路径能否
    作为新的当前解码路径时,则降低所述预设阈值。

    说明书

    语音识别方法和装置

    技术领域

    本发明涉及语音识别技术领域,特别涉及一种语音识别方法和装置。

    背景技术

    传统的语音识别技术,大多是基于状态建模的语音识别模型进行语音识别的。例如,基
    于隐马尔科夫模型(HiddenMarkovModel;以下简称:HMM)进行语音识别。HMM可以
    看作一个数学上的双重随机过程:一个是用具有有限状态数的马尔科夫Markov链来模拟语
    音信号统计特性变化的隐含的随机过程,另一个是与马尔科夫Markov链的每一个状态相关
    联的观测序列的随机过程。在这种建模方式中,一个音素或者一个音节被认为可分为多个没
    有物理意义的状态,然后采用离散或者连续高斯模型或深度学习模型描述每个状态的输出分
    布。但是,基于状态建模的方式,在语音识别的过程中,在对两个发音单元之间处进行识别
    时,容易出现混淆,识别性能较差。

    发明内容

    本发明旨在至少在一定程度上解决上述技术问题。

    为此,本发明的第一个目的在于提出一种语音识别方法,能够提高语音识别的准确性,
    并提高识别过程中的解码速度。

    本发明的第二个目的在于提出一种语音识别装置。

    为达上述目的,根据本发明第一方面实施例提出了一种语音识别方法,包括以下步骤:
    接收语音信号;根据预先建立的声学模型、语言模型和解码网络对所述语音信号进行解码,
    并在解码过程中动态添加空白单元,以得到添加空白单元后的最优解码路径,其中,所述声
    学模型是基于连接时序分类训练得到的,所述声学模型中包括基本发音单元和所述空白单
    元,所述解码网络由所述基本发音单元构成的多个解码路径组成;将所述最优解码路径输出
    为所述语音信号的识别结果。

    本发明实施例的语音识别方法,基于连接时序分类构建的声学模型和解码网络对语音信
    号进行解码,并在解码过程中动态添加空白单元,以得到添加空白单元后的最优解码路径,
    并作为语音信号的识别结果,能够解决两个发音单元中间出现混淆的问题,提高语音识别的
    准确性,并能够有效减少可能的解码路径,提高识别过程中的解码速度。

    本发明第二方面实施例提出了一种语音识别装置,包括:接收模块,用于接收语音信号;
    解码模块,用于根据预先建立的声学模型、语言模型和解码网络对所述语音信号进行解码,
    并在解码过程中动态添加空白单元,以得到添加空白单元后的最优解码路径,其中,所述声
    学模型是基于连接时序分类训练得到的,所述声学模型中包括基本发音单元和所述空白单
    元,所述解码网络由所述基本发音单元构成的多个解码路径组成;输出模块,用于将所述最
    优解码路径输出为所述语音信号的识别结果。

    本发明实施例的语音识别装置,基于连接时序分类构建的声学模型和解码网络对语音信
    号进行解码,并在解码过程中动态添加空白单元,以得到添加空白单元后的最优解码路径,
    并作为语音信号的识别结果,能够解决两个发音单元中间出现混淆的问题,提高语音识别的
    准确性,并能够有效减少可能的解码路径,提高识别过程中的解码速度。

    本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明
    显,或通过本发明的实践了解到。

    附图说明

    本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和
    容易理解,其中:

    图1为根据本发明一个实施例的语音识别方法的流程图;

    图2为根据本发明一个实施例中解码网络的示意图;

    图3为根据本发明另一个实施例的语音识别方法的流程图;

    图4a为根据本发明一个实施例的解码网络中的节点S的示意图;

    图4b为根据本发明一个实施例的对图4a中节点S添加blank节点后的拓扑图;

    图5为本发明一个实施例的语音识别方法中两个发音单元中间识别混淆的示意图;

    图6为根据本发明一个实施例的语音识别装置的结构示意图一;

    图7为根据本发明一个实施例的语音识别装置的结构示意图二;

    图8为根据本发明一个实施例的语音识别装置的结构示意图三;

    图9为根据本发明一个实施例的语音识别装置的结构示意图四。

    具体实施方式

    下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或
    类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的
    实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。

    在本发明的描述中,需要理解的是,术语“多个”指两个或两个以上;术语“第一”、
    “第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。

    下面参考附图描述根据本发明实施例的语音识别方法和装置。

    一种语音识别方法,包括以下步骤:接收语音信号;根据预先建立的声学模型、语言模
    型和解码网络对语音信号进行解码,并在解码过程中动态添加空白单元,以得到添加空白单
    元后的最优解码路径,其中,声学模型是基于连接时序分类训练得到的,声学模型中包括基
    本发音单元和空白单元,解码网络由基本发音单元构成的多个解码路径组成;将最优解码路
    径输出为语音信号的识别结果。

    图1为根据本发明一个实施例的语音识别方法的流程图。

    如图1所示,根据本发明实施例的语音识别方法,包括以下步骤。

    S101,接收语音信号。

    S102,根据预先建立的声学模型、语言模型和解码网络对语音信号进行解码,并在解码
    过程中动态添加空白单元,以得到添加空白单元后的最优解码路径,其中,声学模型是基于
    连接时序分类训练得到的,声学模型中包括基本发音单元和空白单元,解码网络由基本发音
    单元构成的多个解码路径组成。

    在本发明的一个实施例中,预先建立的声学模型是基于CTC(connectionisttemporal
    classification,连接时序分类)技术训练得到的。具体地,可对大量的语音信号进行特征提
    取,以得到各语音信号的特征向量。然后在特征向量中每隔预定数量的发音单元添加空白标
    签,并基于连接时序分类对添加所述空白标签后的语音信号进行训练,建立声学模型。其中,
    声学模型中包括多个基本发音单元和空白单元。

    语言模型可为现有的或者未来可能出现的任意语言模型本发明对此不做限定。

    声学模型中的多个基本发音单元及其之间的跳转关系(即跳转路径)可以形成大量的解
    码路径,这些解码路径即可构成解码网络。

    其中,基本发音单元可为完整的声母或韵母,可被称为音素。

    举例来说,图2为根据本发明一个实施例中解码网络的示意图。如图2所示,其中,虚
    线圆圈用于标识解码路径的开始,实线圆圈(如A和B)表示解码网络中的基本发音单元,
    箭头标识基本发音单元之间的跳转路径。由图2可知,解码网络中存在多个解码路径。每条
    解码路径为对语音信号进行解码时的一种可能解码结果。

    在本发明的实施例中,对语音信号进行解码的过程即为根据语音信号的特征向量帧从解
    码网络中的多个解码路径中选择最优解码路径的过程。

    在本发明的一个实施例中,如图3所示,S102可具体包括S201-S204:

    S201,根据解码网络中的跳转路径,对当前各解码路径进行扩展,并在扩展过程中动态
    添加空白单元,以得到添加空白单元后的至少一个扩展路径。

    对解码路径进行扩展的过程,即从解码网络中起始位置沿着各个基本发音单元之间的跳
    转路径向解码网络的结束位置一步步前进的过程。

    举例来说,如果已经完成语音信号到达特征向量帧i扩展,并得到了至少一个解码路径
    (可称为当前解码路径),假设特征向量帧i在其中一个当前解码路径中对应的基本发音单
    元为A,则可根据解码网络中基本发音单元A的各个跳转路径分别对当前解码路径进行进
    一步扩展以得到可能的扩展路径。其中,在解码网络中每前进一步表示语音信号中的特征向
    量帧i跳转至特征向量帧i+1的一个可能的跳转路径。

    在本发明的实施例中,随着路径扩展的进行,扩展到达一个基本发音单元时,可为该基
    本发音单元添加空白(black)单元,并添加空白单元相关的跳转路径。具体地,可确定各解
    码路径当前扩展到的第一基本发音单元;为第一基本发音单元添加由第一基本发音单元跳转
    至空白单元、由空白单元跳转至自身的跳转路径,以生成针对第一基本发音单元添加空白单
    元之后的至少一个扩展路径。

    举例来说,对于图4a中的解码网络中的节点S,其添加空白(black)单元之后的拓扑
    图可如图4b所示,在原来的S—>S(即由S跳转至S)的路径基础上增加了S—>blank以及
    blank—>blank的路径。由此,相当于在基于解码网络中的跳转路径的基础上,在扩展到一
    个基本发音单元时,为该基本发音单元添加了空白单元相关的跳转路径,并根据添加的跳转
    路径对当前解码路径进行扩展。

    由此,在解码路径中在进入S后,能够得到“S—>S(可重复若干次,次数大于或等于
    0),S—>blank,blank—>blank(可重复若干次,次数大于或等于0),blank—>出口(解码
    路径中个S的下一个基本发音单元)”的可能扩展路径。其中的每一步跳转都表示语音信号
    中的特征向量帧的跳转。

    其中,blank单元表示非发音单元,可用于标识语音信号中音素间以及词间的停顿。本
    发明的实施例通过针对每个发音单元添加blank单元较好地解决了两个发音单元中间混淆处
    的帧分类问题,传统的“强制对齐”对两个发音单元中间混淆处一般分类为左边标签、右边
    标签或者短停顿,这样容易导致对两个发音单元中间混淆处的识别不准确,出现混淆。如图
    5中方框框住的部分所示,图5为本发明一个实施例的语音识别方法中两个发音单元中间识
    别混淆的示意图,从图5中可以看出,而采用添加blank单元的方式则不会出现混淆,可以
    提高语音识别的准确率。

    此外,本发明的实施例,在扩展的过程中动态添加blank单元,也就是说,当扩展到基
    本发音单元时,才在该基本发音单元处添加blank单元相关的跳转路径,将基本发音单元的
    跳转路径与blank单元相关跳转路径进行了合并保留,能够有效减少可能的解码路径,从而
    加速解码过程。

    S202,根据从语音信号中提取的当前特征向量帧在声学模型和语言模型上分别获取所述
    至少一个扩展路径的得分。

    举例来说,对于上述示例中由基本发音单元为A的跳转路径扩展得到的可能的扩展路
    径,可根据特征向量帧i+1在声学模型和语言模型上确定各个可能的扩展路径的得分。后续
    可根据得分对可能的扩展路径进行筛选,以得到到达特征向量帧i+1时语音信号对应的解码
    路径(S203)。

    其中,扩展路径的得分为扩展路径上各个基本发音单元的声学模型得分和语言模型得分
    的总和。具体地,举例来说,假设在扩展路径中基本发音单元为A跳转到基本发音单元B,
    则可根据声学模型获得B的声学模型得分,并根据语言模型得到B的语言模型得分,并将B
    的声学模型得分和语言模型得分都累计到未扩展到B之前的解码路径的得分上,从而得到扩
    展路径的得分。获取基本发音单元的声学模型得分和语言模型得分与现有技术相同,在此不
    再详细说明。

    S203,根据得分对所述至少一个扩展路径进行筛选,并根据筛选结果更新当前解码路径。

    其中,更新后的当前解码路径相对于更新前的解码路径来说,增加了与特征向量帧i+1
    对应的单元节点(可能为基本发音单元,也可能为blank单元)。

    在本发明的实施例中,根据得分筛选扩展路径可有多种方法。例如选取得分较高的预设
    数量的扩展路径作为新的当前解码路径。

    在本发明的一个实施例中,也可分别获取所述至少一个扩展路径的得分与当前各解码路
    径中的最高得分的差值,如果扩展路径的得分与所述最高得分的差值小于预设阈值,则将扩
    展路径作为新的当前解码路径。

    当然,本发明并不仅限于上述列举的方法,通过其他筛选规则进行筛选的方法均适用于
    本发明。

    由于基于CTC技术训练出的声学模型,其得分具有典型的尖峰现象,即当语音信号的
    一个特征向量帧位于某个基本发音单元处时,则对于该特征向量帧来说,该基本发音单元的
    声学模型得分会明显高于其他单元的得分。而对于不在基本发音单元处的特征向量帧来说,
    blank单元的得分要明显高于其他单元。也就是说,如果对于某一特征向量帧来说,blank单
    元的得分最高时,表示该特征向量帧并未处于任何一个基本发音单元。

    为了减少解码过程中可能的解码路径的数量,可在路径扩展的过程中进行路径裁剪。因
    此,本发明的实施例中,可基于上述尖峰现象,根据扩展路径中基本发音单元以及该基本发
    音单元对应的blank单元的得分制定裁剪策略。

    具体地,在本发明的一个实施例中,可根据当前特征向量帧分别获取空白单元的得分和
    第一基本发音单元的得分;如果第一基本发音单元的得分小于空白单元的得分,则在判断进
    入第一基本发音单元的扩展路径能否作为新的当前解码路径时,降低所述预设阈值。其中,
    得分为语言模型得分与声学模型得分之和。

    举例来说,在上述示例中,在解码路径到达基本发音单元A后,可获取当前特征向量
    帧(即特征向量帧i+1)在A处的得分以及当前特征向量帧在blank处的得分。如果当前特
    征向量帧在A处的得分小于在blank处的得分,则表示有两种可能,一、当前特征向量帧应
    该处于blank,或者二、当前特征向量帧处于比blank得分高的单元。因此,应当在判断进
    入基本发音单元A的扩展路径能否作为新的当前解码路径时,应当收窄裁剪阈值,即减小
    上述预设阈值,以对进入基本发音单元A的扩展路径进行更严格的裁剪。从而能够减少扩
    展路径的数量,提高解码速度。

    进一步地,在本发明的一个实施例中,还可判断所述至少一个扩展路径是否到达词尾;
    如果扩展路径到达词尾,则在判断到达词尾的扩展路径能否作为新的当前解码路径时,降低
    预设阈值。

    由于在解码过程中,当解码路径到达词尾时,需要查询该解码路径的实际语言模型得分。
    因此,在判断到达词尾的扩展路径能否作为新的当前解码路径时,降低所述预设阈值,能够
    对达词尾的扩展路径进行更严格的裁剪,以减少扩展路径,从而能够减少查询语言模型得分
    的次数,进一步提高解码速度。

    S204,如果当前特征向量帧为语音信号的最后特征向量帧,则根据得分从更新后的当前
    解码路径中选择最优解码路径。

    如果当前特征向量帧为语音信号的最后特征向量帧,则表示路径扩展已经完成,因此,
    可从得到所有解码路径中选择一条最优解码路径。具体地,可根据每条解码路径的得分从当
    前解码路径中选择得分最高的解码路径作为最优解码路径。

    S103,将最优解码路径输出为语音信号的识别结果。

    本发明实施例的语音识别方法,基于连接时序分类构建的声学模型和解码网络对语音信
    号进行解码,并在解码过程中动态添加空白单元,以得到添加空白单元后的最优解码路径,
    并作为语音信号的识别结果,能够解决两个发音单元中间出现混淆的问题,提高语音识别的
    准确性,并能够有效减少可能的解码路径,提高识别过程中的解码速度。

    为了实现上述实施例,本发明还提出一种语音识别装置。

    一种语音识别装置,包括:接收模块,用于接收语音信号;解码模块,用于根据预先建
    立的声学模型、语言模型和解码网络对语音信号进行解码,并在解码过程中动态添加空白单
    元,以得到添加空白单元后的最优解码路径,其中,声学模型是基于连接时序分类训练得到
    的,声学模型中包括基本发音单元和空白单元,解码网络由基本发音单元构成的多个解码路
    径组成;输出模块,用于将最优解码路径输出为语音信号的识别结果。

    图6为根据本发明一个实施例的语音识别装置的结构示意图一。

    如图6所示,根据本发明实施例的语音识别装置,包括:接收模块10、解码模块20和
    输出模块30。

    具体地,接收模块10用于接收语音信号。

    解码模块20用于根据预先建立的声学模型、语言模型和解码网络对语音信号进行解码,
    并在解码过程中动态添加空白单元,以得到添加空白单元后的最优解码路径,其中,声学模
    型是基于连接时序分类训练得到的,声学模型中包括基本发音单元和空白单元,解码网络由
    基本发音单元构成的多个解码路径组成。

    在本发明的一个实施例中,预先建立的声学模型是基于CTC(connectionisttemporal
    classification,连接时序分类)技术训练得到的。具体地,可对大量的语音信号进行特征提
    取,以得到各语音信号的特征向量。然后在特征向量中每隔预定数量的发音单元添加空白标
    签,并基于连接时序分类对添加所述空白标签后的语音信号进行训练,建立声学模型。其中,
    声学模型中包括多个基本发音单元和空白单元。

    语言模型可为现有的或者未来可能出现的任意语言模型本发明对此不做限定。

    声学模型中的多个基本发音单元及其之间的跳转关系(即跳转路径)可以形成大量的解
    码路径,这些解码路径即可构成解码网络。

    其中,基本发音单元可为完整的声母或韵母,可被称为音素。

    举例来说,图2为根据本发明一个实施例中解码网络的示意图。如图2所示,其中,虚
    线圆圈用于标识解码路径的开始,实线圆圈(如A和B)表示解码网络中的基本发音单元,
    箭头标识基本发音单元之间的跳转路径。由图2可知,解码网络中存在多个解码路径。每条
    解码路径为对语音信号进行解码时的一种可能解码结果。

    在本发明的实施例中,对语音信号进行解码的过程即为根据语音信号的特征向量帧从解
    码网络中的多个解码路径中选择最优解码路径的过程。

    在本发明的一个实施例中,如图7所示,解码模块20可具体包括:扩展单元21、添加
    单元22、第一获取单元23、筛选单元24和选择单元25。

    扩展单元21用于根据解码网络中的跳转路径,对当前各解码路径进行扩展。

    扩展单元21对解码路径进行扩展的过程,即从解码网络中起始位置沿着各个基本发音
    单元之间的跳转路径向解码网络的结束位置一步步前进的过程。

    举例来说,如果已经完成语音信号到达特征向量帧i扩展,并得到了至少一个解码路径
    (可称为当前解码路径),假设特征向量帧i在其中一个当前解码路径中对应的基本发音单
    元为A,则扩展单元21可根据解码网络中基本发音单元A的各个跳转路径分别对当前解码
    路径进行进一步扩展以得到可能的扩展路径。其中,在解码网络中每前进一步表示语音信号
    中的特征向量帧i跳转至特征向量帧i+1的一个可能的跳转路径。

    添加单元22用于在扩展过程中动态添加空白单元,以得到添加空白单元后的至少一个
    扩展路径。

    在本发明的实施例中,随着路径扩展的进行,扩展到达一个基本发音单元时,添加单元
    22可为该基本发音单元添加空白(black)单元,并添加空白单元相关的跳转路径。具体地,
    添加单元22可用于:确定各解码路径当前扩展到的第一基本发音单元;为第一基本发音单
    元添加由第一基本发音单元跳转至空白单元、由空白单元跳转至自身的跳转路径,以生成针
    对第一基本发音单元添加空白单元之后的至少一个扩展路径。

    举例来说,对于图4a中的解码网络中的节点S,其添加空白(black)单元之后的拓扑
    图可如图4b所示,在原来的S—>S(即由S跳转至S)的路径基础上增加了S—>blank以及
    blank—>blank的路径。由此,相当于在基于解码网络中的跳转路径的基础上,在扩展到一
    个基本发音单元时,为该基本发音单元添加了空白单元相关的跳转路径,并根据添加的跳转
    路径对当前解码路径进行扩展。

    由此,在解码路径中在进入S后,能够得到“S—>S(可重复若干次,次数大于或等于
    0),S—>blank,blank—>blank(可重复若干次,次数大于或等于0),blank—>出口(解码
    路径中个S的下一个基本发音单元)”的可能扩展路径。其中的每一步跳转都表示语音信号
    中的特征向量帧的跳转。

    其中,blank单元表示非发音单元,可用于标识语音信号中音素间以及词间的停顿。本
    发明的实施例通过针对每个发音单元添加blank单元较好地解决了两个发音单元中间混淆处
    的帧分类问题,传统的“强制对齐”对两个发音单元中间混淆处一般分类为左边标签、右边
    标签或者短停顿,这样容易导致对两个发音单元中间混淆处的识别不准确,出现混淆。如图
    5中方框框住的部分所示,图5为本发明一个实施例的语音识别方法中两个发音单元中间识
    别混淆的示意图,从图5中可以看出,而采用添加blank单元的方式则不会出现混淆,可以
    提高语音识别的准确率。

    此外,本发明的实施例,在扩展的过程中动态添加blank单元,也就是说,当扩展到基
    本发音单元时,才在该基本发音单元处添加blank单元相关的跳转路径,将基本发音单元的
    跳转路径与blank单元相关跳转路径进行了合并保留,能够有效减少可能的解码路径,从而
    加速解码过程。

    第一获取单元23用于根据从语音信号中提取的当前特征向量帧在声学模型和语言模型
    上分别获取所述至少一个扩展路径的得分。

    举例来说,对于上述示例中由基本发音单元为A的跳转路径扩展得到的可能的扩展路
    径,第一获取单元23可根据特征向量帧i+1在声学模型和语言模型上确定各个可能的扩展
    路径的得分。后续筛选单元24可根据得分对可能的扩展路径进行筛选,以得到到达特征向
    量帧i+1时语音信号对应的解码路径。

    其中,扩展路径的得分为扩展路径上各个基本发音单元的声学模型得分和语言模型得分
    的总和。具体地,举例来说,假设在扩展路径中基本发音单元为A跳转到基本发音单元B,
    则第一获取单元23可根据声学模型获得B的声学模型得分,并根据语言模型得到B的语言
    模型得分,并将B的声学模型得分和语言模型得分都累计到未扩展到B之前的解码路径的
    得分上,从而得到扩展路径的得分。获取基本发音单元的声学模型得分和语言模型得分与现
    有技术相同,在此不再详细说明。

    筛选单元24用于根据得分对所述至少一个扩展路径进行筛选,并根据筛选结果更新当
    前解码路径。

    其中,更新后的当前解码路径相对于更新前的解码路径来说,增加了与特征向量帧i+1
    对应的单元节点(可能为基本发音单元,也可能为blank单元)。

    在本发明的实施例中,筛选单元24根据得分筛选扩展路径可有多种方法。例如筛选单
    元24可选取得分较高的预设数量的扩展路径作为新的当前解码路径。

    在本发明的一个实施例中,筛选单元24也可用于:分别获取所述至少一个扩展路径的
    得分与当前各解码路径中的最高得分的差值;如果扩展路径的得分与最高得分的差值小于预
    设阈值,则将扩展路径作为新的当前解码路径。

    当然,本发明并不仅限于上述列举的方法,通过其他筛选规则进行筛选的方法均适用于
    本发明。

    选择单元25用于如果当前特征向量帧为语音信号的最后特征向量帧,则根据得分从更
    新后的当前解码路径中选择最优解码路径。

    如果当前特征向量帧为语音信号的最后特征向量帧,则表示路径扩展已经完成,因此,
    选择单元25可从得到所有解码路径中选择一条最优解码路径。具体地,选择单元25可根据
    每条解码路径的得分从当前解码路径中选择得分最高的解码路径作为最优解码路径。

    输出模块30用于将最优解码路径输出为语音信号的识别结果。

    本发明实施例的语音识别装置,基于连接时序分类构建的声学模型和解码网络对语音信
    号进行解码,并在解码过程中动态添加空白单元,以得到添加空白单元后的最优解码路径,
    并作为语音信号的识别结果,能够解决两个发音单元中间出现混淆的问题,提高语音识别的
    准确性,并能够有效减少可能的解码路径,提高识别过程中的解码速度。

    由于基于CTC技术训练出的声学模型,其得分具有典型的尖峰现象,即当语音信号的
    一个特征向量帧位于某个基本发音单元处时,则对于该特征向量帧来说,该基本发音单元的
    声学模型得分会明显高于其他单元的得分。而对于不在基本发音单元处的特征向量帧来说,
    blank单元的得分要明显高于其他单元。也就是说,如果对于某一特征向量帧来说,blank单
    元的得分最高时,表示该特征向量帧并未处于任何一个基本发音单元。

    为了减少解码过程中可能的解码路径的数量,可在路径扩展的过程中进行路径裁剪。因
    此,本发明的实施例中,可基于上述尖峰现象,根据扩展路径中基本发音单元以及该基本发
    音单元对应的blank单元的得分制定裁剪策略。

    下面以图8和图9进行示例性说明。

    图8为根据本发明一个实施例的语音识别装置的结构示意图三。

    如图8所示,本发明的实施例的语音识别装置中,在图7的基础之上,解码模块20还
    可包括第二获取单元26和第一控制单元27。

    其中,第二获取单元26用于根据当前特征向量帧分别获取空白单元的得分和第一基本
    发音单元的得分。

    第一控制单元27用于当空白单元的得分小于第一基本发音单元的得分时,在判断进入
    第一基本发音单元的扩展路径能否作为新的当前解码路径时,降低预设阈值。其中,得分为
    语言模型得分与声学模型得分之和。

    举例来说,在上述示例中,在解码路径到达基本发音单元A后,可获取当前特征向量
    帧(即特征向量帧i+1)在A处的得分以及当前特征向量帧在blank处的得分。如果当前特
    征向量帧在A处的得分小于在blank处的得分,则表示有两种可能,一、当前特征向量帧应
    该处于blank,或者二、当前特征向量帧处于比blank得分高的单元。因此,应当在判断进
    入基本发音单元A的扩展路径能否作为新的当前解码路径时,应当收窄裁剪阈值,即减小
    上述预设阈值,以对进入基本发音单元A的扩展路径进行更严格的裁剪。从而能够减少扩
    展路径的数量,提高解码速度。

    图9为根据本发明一个实施例的语音识别装置的结构示意图四。

    如图9所示,本发明的实施例的语音识别装置中,在图7的基础之上,解码模块20还
    可包括判断单元28和第二控制单元29。

    判断单元28用于判断所述至少一个扩展路径是否到达词尾;

    第二控制单元29用于在扩展路径到达词尾时,在判断到达词尾的扩展路径能否作为新
    的当前解码路径时,则降低所述预设阈值。

    由于在解码过程中,当解码路径到达词尾时,需要查询该解码路径的实际语言模型得分。
    因此,在判断到达词尾的扩展路径能否作为新的当前解码路径时,降低所述预设阈值,能够
    对达词尾的扩展路径进行更严格的裁剪,以减少扩展路径,从而能够减少查询语言模型得分
    的次数,进一步提高解码速度。

    在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、
    或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包
    含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针
    对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或
    多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员
    可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

    此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或
    者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者
    隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非
    另有明确具体的限定。

    流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或
    更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且
    本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根
    据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所
    属技术领域的技术人员所理解。

    在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实
    现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执
    行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、
    装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
    就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以
    供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机
    可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电
    子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),
    可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储
    器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的
    介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其
    他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。

    应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施
    方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件
    来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术
    中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻
    辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程
    门阵列(FPGA)等。

    本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可
    以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该
    程序在执行时,包括方法实施例的步骤之一或其组合。

    此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个
    单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以
    采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功
    能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介
    质中。

    上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本
    发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领
    域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

    关 键  词:
    语音 识别 方法 装置
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:语音识别方法和装置.pdf
    链接地址:https://www.zhuanlichaxun.net/p-5879987.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1