《声音判别系统、声音判别方法以及声音判别用程序.pdf》由会员分享,可在线阅读,更多相关《声音判别系统、声音判别方法以及声音判别用程序.pdf(20页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102222498 A (43)申请公布日 2011.10.19 CN 102222498 A *CN102222498A* (21)申请号 201110157383.X (22)申请日 2006.10.10 2005-305625 2005.10.20 JP 200680038851.9 2006.10.10 G10L 11/02(2006.01) G10L 15/04(2006.01) (71)申请人 日本电气株式会社 地址 日本东京都 (72)发明人 寺尾真 (74)专利代理机构 中科专利商标代理有限责任 公司 11021 代理人 汪惠民 (54) 发明名称 声。
2、音判别系统、 声音判别方法以及声音判别 用程序 (57) 摘要 本发明提供即使是在时间上的局部分析中取 得了接近声音的特征量这样的杂音也能正确地判 别为非声音的声音判别系统。该声音判别系统具 有 : 特征量提取单元 (421), 其分析由声学信号输 入单元 (410) 输入的声学信号并提取特征量的时 间系列 ; 子词边界得分计算单元 (424), 其参照在 声音模型存储单元 (431) 中存储的声音的声学模 型来计算子词边界得分的时间系列 ; 时间规律性 分析单元 (422), 其分析子词边界得分的时间规 律性 ; 以及声音判别单元 (423), 其使用子词边界 得分的时间规律性来判断输入声学。
3、信号是声音还 是非声音。 (30)优先权数据 (62)分案原申请数据 (51)Int.Cl. (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 1 页 说明书 10 页 附图 8 页 CN 102222509 A1/1 页 2 1. 一种声音判别装置, 其特征在于, 具有 : 输入声学信号的单元 ; 以及 针对输入声学信号来分析基于声音的语言特征的周期性, 判断是否具有伴随时间规律 性依次出现各种子词这样的声音信号中特有的性质, 并判别所述输入声学信号是声音还是 非声音的单元。 2. 根据权利要求 1 所述的声音判别装置, 其特征在于, 对所述输入声学信号是声音还是非声音。
4、进行判别的单元, 判断在利用所述输入声学信 号求出的、 表示元音类似度的元音得分或表示子词边界类似度的子词边界得分的时间系列 数据中是否存在时间规律性, 当具有时间规律性时所述输入声学信号被判别为声音。 权 利 要 求 书 CN 102222498 A CN 102222509 A1/10 页 3 声音判别系统、 声音判别方法以及声音判别用程序 技术领域 0001 本发明涉及声音判别系统、 声音判别方法以及声音判别用程序, 尤其涉及用于音 响信号中的声音和非声音判别的声音判别系统、 声音判别方法以及声音判别用程序。 背景技术 0002 作为这种现有的声音判别系统, 例如在专利文献1中公开了如图。
5、8所示的结构。 当 参照图 8 时, 该现有的声音判别系统具有 : 声学信号输入单元 810、 特征量提取单元 821、 声 学得分计算单元 824、 似然比计算单元 822、 声音判别单元 823、 声音模型存储单元 831 以及 非声音模型存储单元 832。对图 8 的现有声音判别系统的动作进行概括说明。 0003 从声学信号输入单元 810 所输入的声学信号中, 通过特征量提取单元 821 来分析 特征量。 作为特征量采用了基于LPC(Linear Predictive Coefficient : 线性预测系数)分 析的对数倒频谱和其一次时间微分。倒频谱是在声学信号的频域中的性质、 即表。
6、现了对数 波谱包络的形状的特征量。相对于按例如 32msec 来区域化的帧, 进行特征量的分析。 0004 声学得分计算单元 824, 针对利用特征量提取单元 821 求出的特征量来分别计算 : 0005 相对于在声音模型存储单元 831 中存储的声音模型的似然、 以及 0006 相对于在非声音模型存储单元 832 中存储的非声音模型的似然。 0007 此外, 声音模型使用声音信号预先进行学习, 非声音模型使用非声音信号预先进 行学习。作为这些模型例如使用 HMM(Hidden Markov Model)。 0008 似然比计算单元822对利用声学得分计算单元824取得的声音模型的似然和非声 。
7、音模型的似然的比进行计算。 0009 声音判别单元823在利用似然比计算单元822算出的似然比超过了规定阈值的区 间持续了预订的时间时, 将该区间判别为声音。 0010 在该现有的声音判别系统中, 准备将表现了声学信号的频域性质的对数倒频谱作 为特征量的声音和非声音模型, 以帧单位来对两者的似然进行比较, 所以可进行有杂音的 这种程度的较强的声音判别。 0011 此外, 在专利文献 2 中公开了作为区别具有周期性的恒定信号和白色杂音的恒定 杂音信号、 正确地检测恒定杂音信号区间的声音解码装置, 分析在子帧内的声音信号周期, 因为周期性强的信号是恒定元音等 ( 不是杂音 ) 的可能性高, 所以判。
8、断为不是恒定杂音区 间。在该专利文献 2 中, 音调履历分析器对在从适应符号表输入的音调周期的子帧间的波 动进行分析, 检测信号的类似元音来判断是否是声音。即, 在专利文献 2 中, 在子帧内的声 音信号的周期与元音声音波形的周期 (3 至 10msec) 对应。另外, 专利文献 3 公开了从声音 数据中提取声学参数 ( 例如, 18 维的 LPC 对数倒频谱、 零交叉数、 功率等 ), 并基于声学参 数、 在元音标准图形存储部中存储的元音标准图形来进行元音的检测, 根据判别结果以元 音、 辅音的顺序来探索词典及语法存储部, 并且生成假定说法, 按每一假定说法求辅音的得 分 ( 似然 ), 根。
9、据各得分来进行文字的选择并生成文字列数据。 0012 专利文献 1 : 日本特开平 10-254476 号公报 说 明 书 CN 102222498 A CN 102222509 A2/10 页 4 0013 专利文献 2 : 日本特开 2002-236495 号公报 0014 专利文献 3 : 日本特开平 06-266387 号公报 0015 非专利文献 1 : 古井贞熙著,数字声音处理 , 东海大学出版会, 1985 年, 第 40 页 0016 非专利文献 2 : 贵家仁志著,数字信号处理 , 昭晃堂, 1997 年, 第 96-99 页 0017 在参照图 8 进行了说明的上述现有的声。
10、音判别系统中具有如下的问题点, 例如将 在时间上的局部分析中取得接近声音的特征量这样的杂音、 即表示在局部具有与声音相同 的性质的杂音误判别为声音。以下说明产生这样的问题的原因。 0018 在现有的声音判别系统中, 一般利用比音素或音节等声音的构成单位短的时间长 度来分析作为声音模型或非声音模型的特征量使用的对数倒频谱等特征量。例如, 通过按 数十 msec 左右来区域化的短时间帧的分析来取得特征量。即, 对数倒频谱等特征量可称为 表示声学信号中的时间上的局部的性质。 0019 可是, 在杂音中局部分析的结果是还存在多个如取得与从声音中得到的特征量非 常接近的特征量的杂音。 例如, 当局部分离。
11、杂音进行分析时, 经常有取得接近作为声音的音 素 /a 或音素 /s/ 等的特征量的情况。 0020 其结果是, 在以帧单位来比较声音和非声音的似然的现有声音判别系统中, 在局 部分析中取得接近声音的特征量的杂音被误判别为声音。 0021 在专利文献 2 中公开了对元音具有的信号波形电平的周期性进行检测的结构, 不 过此方法也利用一个元音具有的局部特征来判别声音, 所以仍存在表示局部上接近声音的 特征的杂音被误判别为声音这样的问题。另外, 在从声学模型导出元音类似度的专利文献 3 中, 未记载对将表示与声音相同的性质的杂音误判别为声音这样的课题的认识。 发明内容 0022 因此, 本发明是鉴于。
12、上述课题而作出的, 其主要目的为, 提供对于即使是在时间上 的局部分析中取得接近声音的特征量这样的杂音, 也能正确地判别为非声音的声音判别系 统以及方法、 和计算机程序。 0023 本申请中公开的发明, 为了解决上述课题, 可构成为如下概括的结构。 0024 本发明涉及的系统 ( 装置 ) 具有 : 声音模型存储单元, 其存储有声音的声学模型 ; 元音得分计算单元, 其通过参照所述声学模型, 针对输入的声学信号的各个时刻来计算表 示元音类似度的元音得分 ; 时间规律性分析单元, 其分析所述元音得分的时间规律性 ; 以 及声音判别单元, 其采用所述元音得分的时间规律性来判别输入声学信号是声音还是。
13、非声 音。 0025 本发明涉及的系统 ( 装置 ) 具有 : 声音模型存储单元, 其存储有声音的声学模型 ; 子词边界得分计算单元, 其通过参照所述声学模型, 针对输入的声学信号的各个时刻来计 算表示子词边界类似度的子词边界得分 ; 时间规律性分析单元, 其分析所述子词边界得分 的时间规律性 ; 以及声音判别单元, 其采用所述子词边界得分的时间规律性来判别输入声 学信号是声音还是非声音。 0026 本发明涉及的方法含有 : 声音判别装置参照在声音模型存储单元中存储的声学模 型, 针对输入的声学信号的各个时刻来计算表示元音类似度的元音得分的步骤 ; 0027 所述声音判别装置分析所述元音得分的。
14、时间规律性的步骤 ; 以及 说 明 书 CN 102222498 A CN 102222509 A3/10 页 5 0028 所述声音判别装置采用所述元音得分的时间规律性来判别输入声学信号是声音 还是非声音的步骤。 0029 本发明涉及的方法含有 : 声音判别装置参照在声音模型存储单元中存储的声学模 型, 针对输入的声学信号的各个时刻来计算表示子词边界类似度的子词边界得分的步骤 ; 0030 所述声音判别装置分析所述子词边界得分的时间规律性的步骤 ; 以及 0031 所述声音判别装置采用所述子词边界得分的时间规律性来判别输入声学信号是 声音还是非声音的步骤。 0032 本发明涉及的存储介质, 。
15、存储使计算机执行以下的处理的程序 : 数据处理装置通 过参照在声音模型存储单元中存储的声学模型, 针对输入的声学信号的各个时刻来计算表 示元音类似度的元音得分的元音得分计算处理 ; 0033 所述数据处理装置分析所述元音得分的时间规律性的时间规律性分析处理 ; 以及 0034 所述数据处理装置采用所述元音得分的时间规律性来判别输入声学信号是声音 还是非声音的声音判别处理。 0035 本发明涉及的存储介质, 存储使计算机执行以下的处理的程序 : 数据处理装置通 过参照在声音模型存储单元中存储的声学模型, 针对输入的声学信号的各个时刻来计算表 示子词边界类似度的子词边界得分的子词边界得分计算处理 。
16、; 0036 所述数据处理装置分析所述子词边界得分的时间规律性的时间规律性分析处理 ; 以及 0037 所述数据处理装置采用所述子词边界得分的时间规律性来判别输入声学信号是 声音还是非声音的声音判别处理。 0038 根据本发明, 通过对基于声音语言特征的周期性、 即音节构造的周期性进行分析, 在时间上的局部分析中, 对如取得接近声音的特征量这样的杂音可正确地判别为是非声 音。 附图说明 0039 图 1 是表示本发明第 1 实施例的结构的图。 0040 图 2 是表示本发明第 1 实施例的动作的流程图。 0041 图 3 是示意性地表示在本发明第 1 实施例中针对 “” 这样的声音的元 音得分。
17、的时间系列曲线图的图。 0042 图 4 是表示本发明第 2 实施例的结构的图。 0043 图 5 是表示本发明第 2 实施例的动作的流程图。 0044 图 6 是示意性地表示在本发明第 2 实施例中针对 “” 这样的声音的音 节边界得分的时间系列曲线图的图。 0045 图 7 是表示本发明第 3 实施例的结构的图。 0046 图 8 是表示现有的声音判别系统的结构的图。 0047 符号说明 : 0048 110 声学信号输入单元 ; 120 数据处理装置 ; 121 特征量提取单元 ; 122 时间规律性 分析单元 ; 123 声音判别单元 ; 124 元音得分计算单元 ; 130 存储装置。
18、 ; 131 声音模型存储单 元 ; 410 声学信号输入单元 ; 420 数据处理装置 ; 421 特征量提取单元 ; 422 时间规律性分析 说 明 书 CN 102222498 A CN 102222509 A4/10 页 6 单元 ; 423 声音判别单元 ; 424 子词边界得分计算单元 ; 430 存储装置 ; 431 声音模型存储单 元 ; 710 输入装置 ; 720 数据处理装置 ; 730 存储装置 ; 731 声音模型存储部 ; 740 输出装置 ; 750 声音判别用程序 ; 810 声学信号输入单元 ; 821 特征量提取单元 ; 822 似然比计算单元 ; 823 。
19、声音判别单元 ; 824 声学得分计算单元 ; 831 声音模型存储单元 ; 832 非声音模型存储单 元 ; 具体实施方式 0049 参照附图对上述本发明的详细内容进行说明。此外, 显然在以下说明中括号内的 参照序号仅仅是为了便于掌握本发明的结构, 而并不限定本发明。 0050 本发明的第一声音判别系统具有 : 声音模型存储单元 ( 图 1 的 131), 其对元音以 及含有元音的音素等的声学模型进行存储 ; 元音得分计算单元 ( 图 1 的 124), 其通过参照 声学模型, 针对输入声学信号的各个时刻来计算表示元音类似度的元音得分 ; 时间规律性 分析单元 ( 图 1 的 122), 其。
20、根据元音得分的时间系列数据来对时间规律性进行分析 ; 以及 声音判别单元 ( 图 1 的 123), 其根据是否具有声音得分的时间系列数据的时间规律性来判 断输入声学信号是声音还是非声音。 0051 声音判别单元(图1的123), 在元音得分具有时间规律性时, 判别输入声学信号为 声音, 在元音得分不具有时间规律性时, 判别为非声音。通过上述结构, 在时间上的局部分 析中, 即使是如取得接近声音的特征量这样的杂音也能够被正确地判别为非声音。 0052 另外, 本发明的第二声音判别系统具有子词边界得分计算单元(图4的424), 其在 上述本发明的第一声音判别系统结构内的声音模型存储单元 ( 图 。
21、1 的 131) 中预先存储音 素及音节等子词单位的声学模型, 并代替所述本发明的第一声音判别系统结构中的元音得 分计算单元(图1的124), 通过参照子词单位的声学模型, 针对输入声学信号的各个时刻来 计算表示子词边界类似度 ( 音素边界类似度或音节边界类似度 ) 的子词边界得分。其他结 构与所述本发明的第一声音判别系统的结构相同。 在子词边界得分的时间系列具有时间规 律性时, 输入声学信号被判别为声音, 在子词边界得分的时间系列不具有时间规律性时, 被 判别为非声音。 通过上述结构, 在时间上的局部分析中, 即使是如取得接近声音的特征量这 样的杂音也能够被正确地判别为非声音。 0053 如。
22、上所述, 在本发明中通过使用声音的声学模型来求出表示元音类似度的元音得 分、 或表示子词边界类似度的子词边界得分的时间系列, 在求出的得分的时间系列具有时 间规律性 ( 周期性 ) 时, 输入声学信号被判别为声音, 在不具有时间规律性时, 输入声学信 号被判别为非声音。 0054 一般, 在声音信号中有音素及音节等子词伴随着时间规律性而出现这样的性质。 0055 即, 在声音信号中, 音素及音节等子词依次变化, 其变化的时间间隔一般处于从数 十 msec 到数百 msec 左右的范围内。 0056 另一方面, 在杂音等非声音信号中, 即使存在利用时间上的局部分析而取得接近 于音素及音节等的特征。
23、量的情况, 也几乎没有以数十 msec 到数百 msec 的时间间隔依次出 现接近各种子词的信号这样的情况。 0057 因此, 伴随着时间规律性而依次出现各种子词这样的性质可称为是声音信号中特 有的性质。 说 明 书 CN 102222498 A CN 102222509 A5/10 页 7 0058 本发明为了能在这样的声音信号中捕捉特有的性质, 而分析基于声音的语言特征 的周期性 ( 规律性 )。即, 判断在表示元音类似度的元音得分、 或表示子词边界类似度的子 词边界得分的时间系列数据中是否存在时间规律性, 当具有时间规律性时被判别为声音。 0059 在非声音信号中因为元音得分或子词边界得。
24、分具有时间规律性的情况很少, 所以 即使是利用时间上的局部分析而取得接近声音的特征量的杂音也能够被正确地判别为非 声音。 0060 此外, 为了正确地捕捉各种子词伴随时间规律性而依次出现这样的声音信号特有 的性质, 需要高精度地求出元音得分或子词边界得分。 在本发明中, 因为使用了音素或音节 等声音的声学模型, 所以可高精度地计算这些得分。以下, 利用实施例进行说明。 0061 实施例 0062 图 1 是表示本发明第一实施例的框图。参数图 1, 本发明的第一实施例具有 : 声学 信号输入单元 110、 数据处理装置 120 以及存储信息的存储装置 130。 0063 存储装置 130 具有声。
25、音模型存储单元 131。在声音模型存储单元 131 中存储有元 音及包含元音的音素等的声学模型。 0064 数据处理装置120具有 : 特征量提取单元121、 元音得分计算单元124、 时间规律性 分析单元 122 以及声音判别单元 123。 0065 特征量提取单元121对从声学信号输入单元110输入的声学信号进行分析并提取 特征量的时间系列。 0066 元音得分计算单元 124 通过参照在声音模型存储单元 131 中存储的声学模型, 针 对由特征量提取单元 121 所提取的各个时刻的特征量来计算元音得分。 0067 时间规律性分析单元122对由元音得分计算单元124取得的元音得分的时间规律。
26、 性进行分析。 0068 声音判别单元 123 根据是否具有元音得分的时间规律性来判断输入声学信号是 声音还是非声音。 0069 此外, 数据处理装置 120 中的各个单元 ( 特征量提取单元 121、 元音得分计算单元 124、 时间规律性分析单元122、 声音判别单元123)显然可以通过在数据处理装置120(计算 机 ) 上执行的程序来实现其功能及处理 ( 参照第三实施例 )。 0070 图 2 是用于说明本发明第一实施例的处理顺序的流程图。参照图 1 以及图 2 的流 程, 对本实施例的整体动作进行详细的说明。 0071 首先, 利用声学信号输入单元 110 来向系统输入声学信号 ( 图。
27、 2 的步骤 A1)。 0072 声学信号输入单元 110 可以通过麦克风等实时地输入声音, 也可以输入预先存储 在硬盘或磁带等存储介质中的声学信号。 0073 特征量提取单元 121 分析已输入的声学信号, 并提取用于表现声学信号的波谱形 状的特征量的时间系列 ( 图 2 的步骤 A2)。 0074 特征量按被称为 “帧” 的时间单位来进行分析。一个帧的长度例如是数十 msec 左 右。 0075 另 外,作 为 特 征 量 可 以 使 用 例 如 MFCC(Mel-scale Frequency Cepstral Coefficients) 等。MFCC 是在考虑了人类听觉特性的基础上表现。
28、出对数频率波谱的包络的 特征量, 可广泛地应用在声音判别等中。 说 明 书 CN 102222498 A CN 102222509 A6/10 页 8 0076 声音模型存储单元 131 存储有元音及包含元音的音素等的声学模型。在声音模 型存储单元 131 中存储的声学模型例如是作为可广泛应用在声音判别领域中的模型的 HMM(Hidden Markov Model) 或 GMM(Gaussian Mixture Model), 可预先利用声音信号来学 习元音或含有元音的音素。 0077 元音得分计算单元 124 参照在声音模型存储单元 131 中存储的声学模型, 针对由 特征量提取单元 121。
29、 提取的各个时刻的特征量 ( 特征量的时间系列 ) 来计算元音得分 ( 图 2 的步骤 A3)。 0078 这里, 所谓元音得分是表示输入声学信号的类似元音的尺度。该元音得分可通过 使用元音或含有元音的音素的声学模型, 以如下的方法求出。 0079 即, 如果在声音模型存储单元 131 中存储的声学模型是元音模型, 则能够将元音 模型相对于特征量的似然直接设为元音的得分。 0080 另外, 如果在声音模型存储单元 131 中存储的声学模型是音素模型, 则也能够将 与 /a/、 /i/、 /u/、 /e/、 /o/ 这样的元音相当的满足了模型似然的值设为元音得分。 0081 当在声音模型存储单元。
30、 131 中存储的声学模型含有辅音等元音以外的音素时, 还 可以将按以下公式 (1) 计算的元音的后验概率设为元音的得分。 0082 0083 在以上公式 (1) 中, x 表示特征量, q 表示音素, P(x|q) 表示音素 q 的模型似然, P(q|x) 表示音素 q 的后验概率。 0084 另外, S_all 表示在声音模型存储单元 131 中存储的全部音素的集合, S_vowel 表 示在 S_all 中包含的元音的集合。 0085 因此, 上述公式 (1) 的右边分母是全部音素模型的似然总和, 右边分子是表示元 音的音素模型的似然总和。 0086 通过根据上述公式 (1) 计算元音的。
31、后验概率, 可以取得标准化后的元音得分。 0087 如上述算出的元音得分的时间系列可认为, 表示输入声学信号的各个时刻是类似 哪个元音的信号。 0088 图 3 是表示针对 “” (k/o/N/n/i/ch/i/w/a) 这样的声音求出的元音得 分的时间系列的曲线图。在图 3 中, 横轴是时间, 纵轴是元音得分。图 3 的实线表示元音得 分的时间系列, 用虚线包围的矩形区域表示元音的区间。 0089 一般情况下, 在声音中有以几乎固定的时间间隔来规律地出现元音这样的性质, 所以元音得分针对声音的时间系列也如图 3 所示地具有时间规律性。 0090 另一方面, 在非声音中由于很少规律地出现类似元。
32、音的区间, 所以几乎没有针对 非声音的元音得分时间系列具有如图 3 所示的时间规律性的情况。 0091 接着, 时间规律性分析单元 122 对利用元音得分计算单元 124 求出的元音得分的 时间规律性进行分析 ( 图 2 的步骤 A4)。在该分析中例如可以使用自身相关分析。即, 通过 调查由对元音得分的时间系列进行了自身相关分析的结果的、 自身相关函数中的波峰的有 无以及波峰的位置, 可判断在元音得分中是否有时间周期性, 如果有周期性则求出其周期 值。此外, 关于自身相关分析的详细内容可参考非专利文献 1。 说 明 书 CN 102222498 A CN 102222509 A7/10 页 9。
33、 0092 另外, 作为对元音得分的时间规律性进行分析的其他方法, 可利用离散傅立叶变 换 (Discrete Fourier Transform)。通过对元音得分的时间系列进行离散傅立叶变换, 可 判断在元音得分中是否有时间周期性, 如果有周期性则求出其周期值。此外关于离散傅立 叶变换的详细内容可参考例如非专利文献 2。 0093 在进行这些自身相关分析或基于离散傅立叶变换的分析时的窗口宽度, 需要对在 声音信号中元音出现数次以上这样的时间长度来进行。 0094 以元音出现数次以上的长度来分析元音得分的时间规律性, 因此可以在元音以几 乎固定的时间间隔来规律地出现这样的声音中提取特有的性质。。
34、 0095 因此, 理想的是在进行自身相关分析或离散傅立叶变换时的窗幅, 为例如 100msec 以上左右。 0096 声音判别单元 123 根据元音得分的时间规律性的有无来判别输入声学信号是声 音还是非声音。 0097 即, 判断在元音得分中是否有时间周期性 ( 图 2 的步骤 A5), 在有周期性时判别为 输入声学信号是声音的可能性高, 在没有周期性时判别为输入声学信号是非声音 ( 图 2 的 步骤 A8)。 0098 另外, 在元音得分中确认了时间周期性时, 进一步判断其周期是否处于规定范围 内(图2的步骤A6)。 其判断结果是, 在周期处于规定范围内时输入声学信号被判别为声音 ( 图 。
35、2 的步骤 A7), 在周期不处于规定范围内时输入声学信号被判别为非声音 ( 图 2 的步骤 A8)。 0099 此外, 省略周期是否处于规定范围内的判断 ( 图 2 的步骤 A6), 仅利用在元音得分 中是否有时间周期性的判断 ( 图 2 的步骤 A5) 也能够判别声音和非声音。 0100 此外, 在图 2 的步骤 A6 中, 被判别为声音的元音得分的时间周期范围相当于声音 中的一般音节的周期。因此, 作为被判别声音的元音得分的时间周期的范围, 例如设为从 50msec 至 300msec。 0101 接着, 对本实施例的作用效果进行说明。 0102 本实施例中, 在表示声学信号的元音类似度。
36、的元音得分具有时间规律性时, 输入 声学信号被判别为声音, 在不具有时间规律性时被判别为非声音。 0103 因此, 关于在时间上的局部分析中取得了接近声音的特征量这样的杂音, 能够被 正确地判别为非声音。 0104 一般情况下, 在声音信号中有元音以几乎固定的时间间隔规律地出现这样的性 质, 在非声音信号中, 即使是在时间上的局部分析中取得接近声音的特征量的杂音, 也几乎 没有如声音信号那样伴随时间规律性地出现具有接近元音的特征的区间的情况。 0105 在本实施例中, 判定元音得分的时间规律性的有无, 在具有时间规律性时判别为 声音, 所以可捕捉在这样的声音中特有的性质。 0106 因此, 通。
37、过本实施例, 即使是在局部分析中取得了接近声音的特征量的杂音, 也能 正确地判别为非声音。 0107 此外, 关于所述专利文献 2 和本实施例的不同点进行说明。在所述专利文献 2 中, 通过分析在子帧内的信号周期来判断是否是恒定杂音区间, 周期性强的信号是恒定元音 等的可能性高, 判断为不是恒定杂音区间, 在该子帧内的信号周期与引起声带振动的 3 说 明 书 CN 102222498 A CN 102222509 A8/10 页 10 10msec 左右对应。在专利文献 2 中因为仅取得具有元音的信号波形电平的周期性, 所以可 知是类似元音的音。可是, 在专利文献 2 中不能正确地判别在局部分。
38、析中取得接近声音的 特征量的杂音为非声音。 0108 与此相对, 在本发明的第一实施例中, 基于元音得分的周期性 ( 例如, 在图 3 中元 音 o、 i、 i、 a 的周期为 100 200msec 左右 ), 判别输入声学信号是声音还是非声音。通过 本发明, 将含有意思的声音所具有的音节构造作为周期进行捕捉。当在声音中反复出现辅 音和元音、 并以时间系列来表示元音类似度时, 在该时间系列中出现与音节变化对应的周 期性。 这样, 在本实施例中通过检测基于声音的语言特征的周期性, 即使在信号电平类似声 音但实际上不是声音这样的情况下, 也能高精度地判别声音、 非声音。 0109 接着, 对本发。
39、明的第二实施例进行说明。图 4 是表示本发明第二实施例的结构的 图。参照图 4, 本发明的第二实施例具有 : 声学信号输入单元 410、 数据处理装置 420、 以及 存储信息的存储装置 430。 0110 存储装置 430 具有声音模型存储单元 431。 0111 在声音模型存储单元 431 中存储有音素及音节等子词单位的声学模型。 0112 数据处理装置 420 具有 : 特征量提取单元 421、 子词边界得分计算单元 424、 时间 规律性分析单元 422 以及声音判别单元 423。这些之中, 特征量提取单元 421、 时间规律性 分析单元 422、 声音判别单元 423 分别与图 1 。
40、的特征量提取单元 121、 时间规律性分析单元 122、 声音判别单元 123 相同。 0113 子词边界得分计算单元 424 通过参照在声音模型存储单元 431 中存储的声学模 型、 以及由特征量提取单元 421 提取的特征量, 针对各个时刻计算子词边界得分。 0114 此外, 数据处理装置 420 中的各个单元 ( 特征量提取单元 421、 子词边界得分计算 单元 424、 时间规律性分析单元 422、 声音判别单元 423) 显然也可以通过在数据处理装置 420 上执行的程序来实现其功能及处理。 0115 图 5 是用于对本发明第二实施例的动作进行说明的流程图。参照图 4 以及图 5 的。
41、 流程, 对本实施例的整体动作进行详细的说明。 0116 在所述第一实施例中, 通过元音得分计算单元 124, 针对输入声学信号来计算元音 得分的时间系列。 0117 在本实施例中, 取代通过元音得分计算单元 124 来计算元音得分的时间系列, 通 过子词边界得分计算单元 424 来计算对于入声学信号的子词边界得分的时间系列这一点, 与所述第一实施例不同。 0118 即, 图5的步骤B1B2的处理内容与图2的步骤A1A2的处理内容相同, 另外, 图 5 的步骤 B4 B8 的处理内容与图 2 的步骤 A4 A8 的处理内容相同, 因此省略说明。 0119 首先, 与所述第一实施例相同, 利用声。
42、学信号输入单元 410 对系统输入声学信号, 特征量提取单元 421 分析输入声学信号, 提取特征量的时间序列。 0120 接着, 子词边界得分计算单元 424, 参照提取的特征量和在声音模型存储单元 431 中存储的声学模型, 求对于输入声学信号的子词边界得分 ( 图 5 的步骤 B3)。 0121 这里, 所谓子词边界得分是表示在输入声学信号中音素或音节等构成声音的子词 单位的边界是否存在的尺度。 0122 即, 在某时刻如果子词边界得分高, 则表示 : 在该时刻之前的区间的声学信号是接 说 明 书 CN 102222498 A CN 102222509 A9/10 页 11 近某音素或音。
43、节的信号, 在该时刻之后的区间的声学信号是接近其他音素或音节的信号。 0123 具有这样的性质的子词边界得分, 可通过使用音素或音节等子词单位的声学模 型, 以如下的方法求出。 0124 首先, 利用在声音模型存储单元 431 中存储有音素及音节等子词单位的声学模 型, 来计算各个子词 q 相对于各个时刻 t 的特征量 x_t 的模型的似然 P(x_t|q)。 0125 接着, 在各个时刻按公式 (2) 来计算全部子词声学模型的似然的时间差分的平方 和 D(t)。 0126 0127 S_all 表示在声音模型存储单元 431 中存储的全部音素的集合。 0128 由公式 (2) 可知, D(t。
44、) 是表示在各个时刻的各个子词的似然变化大小的量, 所以 可作为子词边界得分使用。 0129 即, D(t) 大的情况则表示从其前后的声学信号所具有的子词变化为其他子词。 0130 这里, 将各个子词的似然 P(x_t|q) 的时间差分的和作为子词边界得分, 不过也可 以求出各个子词的后验概率 P(q|x_t) 后, 将后验概率的时间差分的和作为子词边界得分。 0131 各个子词的后验概率可通过与上述公式 (1) 同样的计算来求出。 0132 通过使用后验概率的时间差分, 可取得标准化了的子词边界得分。 0133 此外, 在声音模型存储单元 431 中存储的声学模型的单位和子词边界得分计算单 。
45、元 424 计算的子词边界得分的单位不一定需要相同。即, 例如在声音模型存储单元 431 中 存储音素的声学模型, 在子词边界得分计算单元 424 中仅考虑来自元音的转移, 由此可以 计算音节的边界得分。 0134 如上述那样算出的子词边界得分的时间系列可认为, 表示输入声学信号的各个时 刻类似哪个音素或音节等子词的边界。 0135 图 6 是表示针对 “” (k/o/N/n/i/ch/i/w/a) 这样的声音求出的音节边 界得分即音节边界类似度的时间系列的曲线图。在图 6 中, 横轴是时间, 纵轴是音节边界得 分。图 6 的实线表示音节边界得分的时间系列, 纵的虚线 ( 点线 ) 表示音节的。
46、边界。 0136 一般情况下, 在声音中有音素或音节等子词以几乎固定的时间间隔规律地出现这 样的性质, 所以针对声音的子词边界得分的时间系列如图 3 所示具有时间规律性。 0137 另一方面, 在非声音中由于几乎不会如声音那样地伴随时间规律性而依次出现接 近音素或音节的信号, 所以几乎没有对于非声音的子词边界得分的时间系列具有时间规律 性的情况。 0138 针对这样求出的子词边界得分的时间系列, 时间规律性分析单元 422 以及声音判 别单元 423 与所述第一实施例进行同样的动作, 并判别输入声学信号是声音还是非声音。 0139 接着, 对本实施例的作用效果进行说明。 0140 本实施例中,。
47、 在表示音素或音节的类似边界的子词边界得分具有时间规律性时输 入声学信号被判别为声音, 在不具有时间规律性时被判别为非声音, 所以即使是在时间上 的局部分析中取得接近声音的特征量这样的杂音, 也能被正确地判别为非声音。 0141 如上所述, 一般情况下, 在声音信号中有以几乎固定的时间间隔来规律地出现音 素或音节等子词这样的性质, 在非声音信号中, 即使是在时间上的局部分析中取得了接近 说 明 书 CN 102222498 A CN 102222509 A10/10 页 12 声音的特征量的杂音, 也几乎没有如声音信号那样伴随时间规律性地出现具有接近音素或 音节的信号的情况。 0142 在本实。
48、施例中, 判定子词边界得分的时间规律性的有无, 在具有时间规律性时判 别为声音, 所以能够在这样的声音中捕捉特有的性质。 0143 因此, 通过本实施例, 即使是在局部分析中取得了接近声音的特征量的杂音, 也能 正确地判别为非声音。 0144 接着, 对本发明的第三实施例进行说明。图 7 是表示本发明第三实施例的结构的 框图。参照图 7, 本发明的第三实施例由通过程序控制来动作的数据处理装置 720、 输入装 置 710、 存储装置 730 以及输出装置 740 构成。 0145 声音判别用程序 750 通过存储介质或经由传输介质的下载而被读入到数据处理 装置 720, 控制数据处理装置 720 的动作, 在存储装置 730 中生成声音模型存储部 731。 0146 数据处理装置720通过声音判别用程序750的控制来执行与所述第一实施例中的 数据处理装置 120 或所述第二实施例中的数据处理装置 420 进行的处理相同的处理。 0147 本发明可适用于从各种输入声学信号中判别声音进行声音识别的声音识别装置、 或用于在计算机中实现声音识别装置的程序这样的用途中。 0148 以上, 利用上述实施例对本发明进行了说明, 不过本发明并不仅限于上述实施例 的结构, 本领域的技术人员可知在本发明的范围内可进行各种变形、 修正。 说 明。