书签 分享 收藏 举报 版权申诉 / 10

一种语言音频的检测系统及方法.pdf

  • 上传人:b***
  • 文档编号:5892892
  • 上传时间:2019-03-30
  • 格式:PDF
  • 页数:10
  • 大小:678.56KB
  • 摘要
    申请专利号:

    CN201510091609.9

    申请日:

    2015.02.28

    公开号:

    CN104681036A

    公开日:

    2015.06.03

    当前法律状态:

    授权

    有效性:

    有权

    法律详情:

    授权|||实质审查的生效IPC(主分类):G10L 25/03申请日:20150228|||公开

    IPC分类号:

    G10L25/03(2013.01)I; G10L15/02; G10L15/06(2013.01)I

    主分类号:

    G10L25/03

    申请人:

    苏州驰声信息科技有限公司

    发明人:

    王欢良; 杨嵩; 代大明; 袁军峰; 惠寅华; 林远东

    地址:

    215000江苏省苏州市工业园区创意产业园9幢702室

    优先权:

    2014106682358 2014.11.20 CN

    专利代理机构:

    北京科亿知识产权代理事务所(普通合伙)11350

    代理人:

    汤东凤

    PDF完整版下载: PDF下载
    内容摘要

    本发明公开了一种语言音频的检测系统及方法,属于语言信号处理技术领域。所述系统包括:声学特征提取模块、音素识别模块、声学置信度计算模块、语言置信度计算模块、韵律特征提取模块和分类判别模块。本发明通过综合利用声学置信度、语言置信度和韵律特征信息,系统的检测性能获得显著提高,适用于不同长度的音频检测,具有很好的检测稳定性,可以处理多种非目标语言音频和噪声音频,具有很好的实用性,可以根据非目标语言的类型进行快速扩展,只需要提供新语种的声学模型和语言模型,然后重新训练分类器模型就可以,具有较好的系统结构的灵活性和可扩展性。

    权利要求书

    权利要求书
    1.  一种语言音频的检测系统,其特征在于,所述系统包括:声学特征提取 模块、音素识别模块、声学置信度计算模块、语言置信度计算模块、韵律特征 提取模块和分类判别模块;
    其中,
    所述声学特征提取模块用于提取输入语音信号的声学特征,所述声学特征 至少包括输入音频的基频特征;
    所述音素识别模块由至少包括目标语言对应识别器的一组识别器组成,所 述一组识别器分别对应不同的语言,用于对所述声学特征进行并行语音识别解 码,得到不同语言的最佳音素序列和对应的时间边界,所述不同语言的最佳音 素序列和对应的时间边界至少包括目标语言的最佳音素序列和对应的时间边 界;
    所述声学置信度计算模块用于根据所述不同语言的最佳音素序列和对应的 时间边界,分别计算不同语言的音素序列在深度神经网络DNN模型上的后验概 率,作为该音素序列的声学置信度,得到不同语言音素序列的声学置信度;
    所述语言置信度计算模块用于根据所述不同语言的最佳音素序列和对应的 时间边界,分别计算不同语言的音素序列在对应语言的更高阶语言模型上的生 成概率,作为该音素序列的语言置信度,得到不同语言音素序列的语言置信度;
    所述韵律特征提取模块用于根据所述目标语言的最佳音素序列和对应的时 间边界以及所述输入音频的基频特征,计算输入音频的韵律特征;
    所述分类判别模块用于利用预先训练好的分类器对所述不同语言音素序列 的声学置信度、语音置信度以及所述输入音频的韵律特征组成的特征向量进行 目标语言/非目标语言分类。

    2.  根据权利要求1所述的系统,其特征在于,所述一组识别器中每个识别 器采用其对应语言的声学模型和语言模型,所述声学模型需要预先采用相应语 言的语音数据进行训练,所述语音模型需要预先采用相应语言的文本数据进行 训练。

    3.  根据权利要求1所述的系统,其特征在于,所述音频的韵律特征包括句 子级基音频率最大值,句子级基音频率最小值,句子级基音频率的方差,音素 级基音频率方差的均值,音素级基音频率方差的方差,音素级基音频率方差的 最大值和最小值之差,句子中有声段所占的比例,句子中无声音素的比例,句 子中最大音素时长,句子中最小音素时长,句子中音素时长的均值,句子中音 素时长的方差。

    4.  根据权利要求1所述的系统,其特征在于,分类判别模块还用于将所述 不同语言音素序列的声学置信度、语音置信度以及所述输入音频的韵律特征组 成一个超向量,送入预先训练好的分类器进行预测分类,计算该超向量的得分, 如果该得分大于给定阈值,则确定输入语言音频为目标语言音频,否则确定为 非目标语言音频。

    5.  一种语言音频的检测方法,其特征在于,所述方法包括:
    提取输入语音信号的声学特征,所述声学特征至少包括输入音频的基频特 征;
    对所述声学特征进行并行语音识别解码,得到不同语言的最佳音素序列和 对应的时间边界,所述不同语言的最佳音素序列和对应的时间边界至少包括目 标语言的最佳音素序列和对应的时间边界;
    根据所述不同语言的最佳音素序列和对应的时间边界,分别计算不同语言 的音素序列在DNN模型上的后验概率,作为该音素序列的声学置信度,得到不 同语言音素序列的声学置信度;
    根据所述不同语言的最佳音素序列和对应的时间边界,分别计算不同语言 的音素序列在对应语言的更高阶语言模型上的生成概率,作为该音素序列的语 言置信度,得到不同语言音素序列的语言置信度;
    根据所述目标语言的最佳音素序列和对应的时间边界以及所述输入音频的 基频特征,计算输入音频的韵律特征;
    利用预先训练好的分类器对所述不同语言音素序列的声学置信度、语音置 信度以及所述输入音频的韵律特征组成的特征向量进行目标语言/非目标语言分 类。

    6.  根据权利要求5所述的方法,其特征在于,所述音频的韵律特征包括句 子级基音频率最大值,句子级基音频率最小值,句子级基音频率的方差,音素 级基音频率方差的均值,音素级基音频率方差的方差,音素级基音频率方差的 最大值和最小值之差,句子中有声段所占的比例,句子中无声音素的比例,句 子中最大音素时长,句子中最小音素时长,句子中音素时长的均值,句子中音 素时长的方差。

    7.  根据权利要求5所述的方法,其特征在于,利用预先训练好的分类器对 所述不同语言音素序列的声学置信度、语音置信度以及所述输入音频的韵律特 征组成的特征向量进行目标语言/非目标语言分类包括:
    将所述不同语言音素序列的声学置信度、语音置信度以及所述输入音频的 韵律特征组成一个超向量,送入预先训练好的分类器进行预测分类,计算该超 向量的得分,如果该得分大于给定阈值,则确定输入语言音频为目标语言音频, 否则确定为非目标语言音频。

    说明书

    说明书一种语言音频的检测系统及方法
    技术领域
    本发明涉及语言信号处理技术领域,特别涉及一种语言音频的检测系统及 方法。
    背景技术
    语音技术的实际应用环境通常非常复杂,系统接收到的音频中可能包含很多 非目标语言的声音,比如不同语种的语音、音乐、自然噪声和人造噪声等。这些 音频的存在会严重影响语音技术的可用性和用户体验。因此,采用技术手段高 效地检测并过滤这些音频是非常有必要的。
    在这类技术中,最典型的是语种识别技术和噪声检测技术。其中,语种识 别技术是利用语音中包含的音韵信息(比如特殊的发音单元,发音单元的不同 分布或者组合方式等)来判断语言种类。
    现有技术中,最成熟的语种识别技术是基于音素识别的多音素语言模型技 术该技术认为不同语种识别器产生的音素序列分布和组合是有各自不同规律 的,因此利用不同语种识别器输出的音素识别序列在不同语种语言的音素语言 模型上的分布概率进行语种识别。该技术具有较好的精度和通用型,但是其性 能在短语音上会急剧下降,存在一定局限性。
    发明内容
    为了解决现有技术的问题,本发明实施例提供了一种语言音频的检测系统 及方法。所述技术方案如下:
    一方面,提供了一种语言音频的检测系统,所述系统包括:声学特征提取 模块、音素识别模块、声学置信度计算模块、语言置信度计算模块、韵律特征 提取模块和分类判别模块;
    其中,
    所述声学特征提取模块用于提取输入语音信号的声学特征,所述声学特征 至少包括输入音频的基频特征;
    所述音素识别模块由至少包括目标语言对应识别器的一组识别器组成,所 述一组识别器分别对应不同的语言,用于对所述声学特征进行并行语音识别解 码,得到不同语言的最佳音素序列和对应的时间边界,所述不同语言的最佳音 素序列和对应的时间边界至少包括目标语言的最佳音素序列和对应的时间边 界;
    所述声学置信度计算模块用于根据所述不同语言的最佳音素序列和对应的 时间边界,分别计算不同语言的音素序列在DNN模型上的后验概率,作为该音 素序列的声学置信度,得到不同语言音素序列的声学置信度;
    所述语言置信度计算模块用于根据所述不同语言的最佳音素序列和对应的 时间边界,分别计算不同语言的音素序列在对应语言的更高阶语言模型上的生 成概率,作为该音素序列的语言置信度,得到不同语言音素序列的语言置信度;
    所述韵律特征提取模块用于根据所述目标语言的最佳音素序列和对应的时 间边界以及所述输入音频的基频特征,计算输入音频的韵律特征;
    所述分类判别模块用于利用预先训练好的分类器对所述不同语言音素序列 的声学置信度、语音置信度以及所述输入音频的韵律特征组成的特征向量进行 目标语言/非目标语言分类。
    可选地,所述一组识别器中每个识别器采用其对应语言的声学模型和语言 模型,所述声学模型需要预先采用相应语言的语音数据进行训练,所述语音模 型需要预先采用相应语言的文本数据进行训练。
    可选地,所述音频的韵律特征包括句子级基音频率最大值,句子级基音频 率最小值,句子级基音频率的方差,音素级基音频率方差的均值,音素级基音 频率方差的方差,音素级基音频率方差的最大值和最小值之差,句子中有声段 所占的比例,句子中无声音素的比例,句子中最大音素时长,句子中最小音素 时长,句子中音素时长的均值,句子中音素时长的方差。
    可选地,分类判别模块还用于将所述不同语言音素序列的声学置信度、语 音置信度以及所述输入音频的韵律特征组成一个超向量,送入预先训练好的分 类器进行预测分类,计算该超向量的得分,如果该得分大于给定阈值,则确定 输入语言音频为目标语言音频,否则确定为非目标语言音频。
    另一方面,提供了一种语言音频的检测方法,所述方法包括:
    提取输入语音信号的声学特征,所述声学特征至少包括输入音频的基频特 征;
    对所述声学特征进行并行语音识别解码,得到不同语言的最佳音素序列和 对应的时间边界,所述不同语言的最佳音素序列和对应的时间边界至少包括目 标语言的最佳音素序列和对应的时间边界;
    根据所述不同语言的最佳音素序列和对应的时间边界,分别计算不同语言 的音素序列在DNN模型上的后验概率,作为该音素序列的声学置信度,得到不 同语言音素序列的声学置信度;
    根据所述不同语言的最佳音素序列和对应的时间边界,分别计算不同语言 的音素序列在对应语言的更高阶语言模型上的生成概率,作为该音素序列的语 言置信度,得到不同语言音素序列的语言置信度;
    根据所述目标语言的最佳音素序列和对应的时间边界以及所述输入音频的 基频特征,计算输入音频的韵律特征;
    利用预先训练好的分类器对所述不同语言音素序列的声学置信度、语音置 信度以及所述输入音频的韵律特征组成的特征向量进行目标语言/非目标语言分 类。
    可选地,所述音频的韵律特征包括句子级基音频率最大值,句子级基音频 率最小值,句子级基音频率的方差,音素级基音频率方差的均值,音素级基音 频率方差的方差,音素级基音频率方差的最大值和最小值之差,句子中有声段 所占的比例,句子中无声音素的比例,句子中最大音素时长,句子中最小音素 时长,句子中音素时长的均值,句子中音素时长的方差。
    可选地,利用预先训练好的分类器对所述不同语言音素序列的声学置信度、 语音置信度以及所述输入音频的韵律特征组成的特征向量进行目标语言/非目标 语言分类包括:
    将所述不同语言音素序列的声学置信度、语音置信度以及所述输入音频的 韵律特征组成一个超向量,送入预先训练好的分类器进行预测分类,计算该超 向量的得分,如果该得分大于给定阈值,则确定输入语言音频为目标语言音频, 否则确定为非目标语言音频。
    本发明实施例提供的技术方案带来的有益效果是:
    本发明所提供的方法,通过综合利用声学置信度、语言置信度和韵律特征 信息,系统的检测性能获得显著提高,适用于不同长度的音频检测,具有很好 的检测稳定性,可以处理多种非目标语言音频和噪声音频,具有很好的实用性, 可以根据非目标语言的类型进行快速扩展,只需要提供新语种的声学模型和语 言模型,然后重新训练分类器模型就可以,具有较好的系统结构的灵活性和可 扩展性。
    附图说明
    为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明 的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。
    图1是本发明实施例提供的语言音频检测系统结构示意图;
    图2是本发明实施例提供的语言音频检测方法流程图。
    具体实施方式
    为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明 实施方式作进一步地详细描述。
    图1是本发明实施例提供的语言音频的检测系统结构示意图。参见图1,该 系统包括:声学特征提取模块、音素识别模块、声学置信度计算模块、语言置 信度计算模块、韵律特征提取模块和分类判别模块。其中,
    该声学特征提取模块用于提取输入语音信号的声学特征,该声学特征至少 包括输入音频的基频特征;
    其中,该声学特征可以包括:PLP((Perceptual Linear Predict ive,感知线性 预测)特征,MFCC(Mel Frequency Cepstrum Coefficient,mel频率倒谱系数) 特征,fbank特征等。
    该音素识别模块由至少包括目标语言对应识别器的一组识别器组成,该一 组识别器分别对应不同的语言,用于对该声学特征进行并行语音识别解码,得 到不同语言的最佳音素序列和对应的时间边界,该不同语言的最佳音素序列和 对应的时间边界至少包括目标语言的最佳音素序列和对应的时间边界;
    在本发明实施例中,音素识别模块,由一组音素识别器组成,分别对应不 同的语种。在这组音素识别器中,必须包括对应目标语言的语音识别器,也即 是,该组音素识别器中可以仅包括目标语言的音素识别器,这样可以减少系统 计算量,检测性能有限下降;也可以除了包括目标语言的音素识别器外,还包 括其他非目标语言的音素识别器,分别对应实际应用环境中可能遇到的语种。 每个识别器采用其对应语种的声学模型和音素语言模型。此模块输出的是一组 音素序列及其对应的时间边界和内部状态序列。可选地,该一组识别器中每个 识别器采用其对应语言的声学模型和语言模型,该声学模型需要预先采用相应 语言的语音数据进行训练,该语音模型需要预先采用相应语言的文本数据进行 训练。
    可选地,该一组识别器统一采用相同结构的声学模型和语言模型。典型地, 声学模型采用DNN(Deep Neural Network,深度神经网络)/HMM(Hidden Markov  Mode,隐马尔可夫模型),声学建模单元统一采用音素;语言模型采用音素的 n-gram(N元文法统计模型)统计语言模型。本发明优选的实施例中,解码采用 的n-gram语言模型为3-gram的音素语言模型。
    该声学置信度计算模块用于根据该不同语言的最佳音素序列和对应的时间 边界,分别计算不同语言的音素序列在DNN模型上的后验概率,作为该音素序 列的声学置信度,得到不同语言音素序列的声学置信度;
    常用的置信度计算方法有很多,包括基于特征的置信度技术,基于N-best 或lattice的置信度技术等。本发明实施例采用的置信度计算方案为基于DNN模 型的音素级声学后验的均值。
    可选地,声学置信度的计算方法为:
    C a ( s ) = 1 n Σ i = 1 i = n e C a ( p i ) , ]]>
    C a ( p i ) = 1 m Σ j = 1 j = m ln P ( s j | o j ) . ]]>
    其中,Ca(s)为句子s的声学置信度,Ca(pi)为句子中第i个音素的pi声学置信度, n为句子s中的音素数目,m为音素pi中包含的特征帧数,P(sj|oj)为音素pi中给定第j个 声学观察oj在状态sj上的后验概率。
    该语言置信度计算模块用于根据该不同语言的最佳音素序列和对应的时间 边界,分别计算不同语言的音素序列在对应语言的更高阶语言模型上的生成概 率,作为该音素序列的语言置信度,得到不同语言音素序列的语言置信度;
    在本发明实施例中,该置信度通过如下方式计算:给定语种A的识别器输 出的音素序列,计算该序列在一个标准音素语言模型下的生成概率。该标准音 素语言模型不同于音素识别所采用的语言模型,通常比音素识别的语言模型更 高阶。此处该语言模型除特殊申明外均指基于统计的n-gram语言模型。
    可选地,语言置信度的计算方法为:
    C1(s)=P(p1,p2…pn)
    =P(p1)P(p2|P1)P(p3|p1|p2)…P(pn|pn-k+1…pn-1)。
    其中,P(pn|pn-k+1…pn-1)为k-gram的音素语言模型的概率,可以在大量文本 数据上统计得到。
    本发明优选的实施例中,用于计算语言置信度的语言模型为4-gram的音素 语言模型。
    该韵律特征提取模块用于根据该目标语言的最佳音素序列和对应的时间边 界以及该输入音频的基频特征,计算输入音频的韵律特征;
    在本发明实施例中,该音频的韵律特征包括句子级基音频率最大值和最小 值,句子级基音频率的方差,句子中音素级基音频率方差的均值和方差,句子 中音素级基音频率方差的最大值和最小值之差,句子中有声段(对应基音频率 非零的片断)所占的比例,句子中无声音素(该音素段内部基音频率值全部为 零)的比例,最大音素时长和最小音素时长,音素时长的均值和方差。
    该分类判别模块用于利用预先训练好的分类器对该不同语言音素序列的声 学置信度、语音置信度以及该输入音频的韵律特征组成的特征向量进行目标语 言/非目标语言分类。
    其中,该预先训练好的分类器需要预先采用收集并标注的大量数据训练。 常用的分类器有贝叶斯分类器、K近邻、支持向量机、决策树、最大熵和条件 随机场以及神经网络等。本发明采用支持向量机分类器。
    在本发明实施例中,分类判别模块还用于将该不同语言音素序列的声学置 信度、语音置信度以及该输入音频的韵律特征组成一个超向量,送入预先训练 好的分类器进行预测分类,计算该超向量的得分,如果该得分大于给定阈值, 则确定输入语言音频为目标语言音频,否则确定为非目标语言音频。其中,分 类器需要输出的得分为给定音频情况下其属于目标语言的后验概率。如果这个 后验概率大于给定阈值,则判定输入音频为目标语言,否则判定为非目标语言。
    在发明优选的实施例中,进行目标语言/非目标语言的分类判定的分类器采 用径向基内核的支持向量机模型。
    本发明实施例提供的系统,通过综合利用声学置信度、语言置信度和韵律 特征信息,系统的检测性能获得显著提高,适用于不同长度的音频检测,具有 很好的检测稳定性,可以处理多种非目标语言音频和噪声音频,具有很好的实 用性,可以根据非目标语言的类型进行快速扩展,只需要提供新语种的声学模 型和语言模型,然后重新训练分类器模型就可以,具有较好的系统结构的灵活 性和可扩展性。
    图2是本发明实施例提供的语言音频检测方法流程图,参见图2,该方法包 括:
    201、提取输入语音信号的声学特征,该声学特征至少包括输入音频的基频 特征;
    202、对该声学特征进行并行语音识别解码,得到不同语言的最佳音素序列 和对应的时间边界,该不同语言的最佳音素序列和对应的时间边界至少包括目 标语言的最佳音素序列和对应的时间边界;
    203、根据该不同语言的最佳音素序列和对应的时间边界,分别计算不同语 言的音素序列在DNN模型上的后验概率,作为该音素序列的声学置信度,得到 不同语言音素序列的声学置信度;
    204、根据该不同语言的最佳音素序列和对应的时间边界,分别计算不同语 言的音素序列在对应语言的更高阶语言模型上的生成概率,作为该音素序列的 语言置信度,得到不同语言音素序列的语言置信度;
    205、根据该目标语言的最佳音素序列和对应的时间边界以及该输入音频的 基频特征,计算输入音频的韵律特征;
    206、利用预先训练好的分类器对该不同语言音素序列的声学置信度、语音 置信度以及该输入音频的韵律特征组成的特征向量进行目标语言/非目标语言分 类。
    可选地,该预先训练好的分类器需要预先采用收集并标注的大量数据训练。
    可选地,该音频的韵律特征包括句子级基音频率最大值,句子级基音频率 最小值,句子级基音频率的方差,音素级基音频率方差的均值,音素级基音频 率方差的方差,音素级基音频率方差的最大值和最小值之差,句子中有声段所 占的比例,句子中无声音素的比例,句子中最大音素时长,句子中最小音素时 长,句子中音素时长的均值,句子中音素时长的方差。
    可选地,利用预先训练好的分类器对该不同语言音素序列的声学置信度、 语音置信度以及该输入音频的韵律特征组成的特征向量进行目标语言/非目标语 言分类包括:
    将该不同语言音素序列的声学置信度、语音置信度以及该输入音频的韵律 特征组成一个超向量,送入预先训练好的分类器进行预测分类,计算该超向量 的得分,如果该得分大于给定阈值,则确定输入语言音频为目标语言音频,否 则确定为非目标语言音频。
    本发明实施例提供的方法,通过综合利用声学置信度、语言置信度和韵律 特征信息,系统的检测性能获得显著提高,适用于不同长度的音频检测,具有 很好的检测稳定性,可以处理多种非目标语言音频和噪声音频,具有很好的实 用性,可以根据非目标语言的类型进行快速扩展,只需要提供新语种的声学模 型和语言模型,然后重新训练分类器模型就可以,具有较好的系统结构的灵活 性和可扩展性。
    本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过 硬件来完成,也可以通过程序来指令相关的硬件完成,该的程序可以存储于一 种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光 盘等。
    以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的 精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的 保护范围之内。

    关 键  词:
    一种 语言 音频 检测 系统 方法
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:一种语言音频的检测系统及方法.pdf
    链接地址:https://www.zhuanlichaxun.net/p-5892892.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1