语音识别装置以及语音识别方法 【技术领域】
本发明涉及借助杂音适应处理及发话者适应处理等进行语音识别的语音识别装置及语音识别方法。
背景技术
作为语音识别难的主要原因可以例举为:在要被语音识别的发话语音中加入了背景杂音;由于发话者的发音气管和发话习惯等存在着个人差异。
为了根据包含有上述变动因素的发话语音来实现(顽强)的语音识别,已经在研究一种被称为HMM合成法或PMC法的语音识别方法(譬如可参照非专利文献1)。
按照HMM(Hidden Markov Model)合成法或PMC(Parallel ModelCombination)法,是在实际进行语音识别之前的预处理步骤中,通过将标准的初期语音模型(初期语音HMM)与从背景杂音生成的杂音模型(发话环境杂音HMM)合成在一起,来生成作为施加了杂音适应处理的合成语音模型的杂音适应语音模型(杂音适应语音HMM)。
然后,在进行实际的语音识别时,对含有发话者发话时的背景杂音的发话语音作开普斯托拉姆(ケプストラム)变换而得到的特征矢量系列,与在预处理步骤预先生成的杂音适应语音模型作对照,从而作为语音识别结果来输出能得到最大相似度的杂音适应语音模型等。另外,发话者适应技术也得到了广泛的研究,正在受到应用的有对模型的平均矢量和分散进行更新的MLLR或MAP推定法。
有关地非专利文献:“Improved Robustness for Speech RecognitionUnder Noisy condition Using correlated parallel Model Combination”IEEE 1998 P553-556。
然而,在现有的语音识别方法中,为了得到要作为对照对象的杂音适应语音模型(杂音适应语音HMM),需要对全部的初期语音模型进行杂音适应处理,存在着其处理量非常多这样的问题。
同时,因为象以上所述的那样需要实行非常多的处理量,所以就难以准备很多种类的初期语音模型。为此,如有必要对处理速度实行优先,就发生了难以提高认识性能之问题。
再者,虽然借助采用群集化的环境杂音适应技术可获得提高效率之目的,而事实上也难以把现有技术中的发话者适应技术(MLLR或MAP推定法)直接应用到杂音适应技术之中,存在着该两种技术共同面临的课题。
【发明内容】
本发明是为了解决以上所述之问题而完成的,其目的是要提供一种在对初期语音模型进行杂音适应及发话者适应等处理时能减低其处理量的语音识别装置和语音识别方法。
本发明的一个方面提供了一种语音识别装置,其将实施了杂音适应处理和发话者适应处理的合成语音模型与自发话时的发话语音求得的特征矢量系列进行对照来实行语音识别,其特征在于包括:记忆手段,其通过小组化或群集化且根据类似性把多数的语音模型分类成若干小组,且能够预先记忆自通过小组化或群集化而属于同一小组的每个小组的语音模型代表性地求得的各小组的代表语音模型、通过按上述各同一小组来求得属于上述各组的语音模型与上述代表语音模型之间的差分而得到的且属于各小组的差分模型、使上述代表语音模型和差分模型对应于各同一小组的小组信息;杂音适应代表语音模型生成手段,其通过对记忆在上述记忆手段中的每个同一小组的代表语音模型实行杂音适应处理来生成杂音适应代表语音模型;合成语音模型生成手段,其根据上述小组信息按上述每个同一小组把属于上述各小组的上述差分模型与上述杂音适应代表语音模型进行合成,从而生成每个同一小组的合成语音模型;更新模型生成手段,其对于实施过上述杂音适应处理的上述每个同一小组的合成语音模型,根据自发话语音求得的特征矢量系列施行发话者适应处理,从而生成杂音发话者适应语音模型;模型更新手段,从上述杂音发话者适应语音模型与根据上述小组信息选择的上述杂音发话者适应语音模型所属的小组的上述杂音适应代表语音模型之间的差分来生成上述每个同一小组的更新差分模型,同时按照该生成的更新差分模型来更新上述记忆手段中记忆的每个同一小组的差分模型。在语音识别时,通过对根据上述小组信息选择的上述更新差分模型所属的小组的上述代表语音模型实施杂音适应处理来生成杂音适应代表语音模型,同时将杂音适应代表语音模型与上述更新的更新差分模型进行合成来生成实施过杂音适应处理和发话者适应处理的合成语音模型,并且通过把该合成语音模型与自要被识别的发话者语音求得的特征矢量系列进行对照来实行上述语音识别。
本发明的另一个方面也提供了一种语音识别装置,其将实施了杂音适应处理和发话者适应处理的合成语音模型与自发话时的发话语音求得的特征矢量系列进行对照来实行语音识别,其特征在于包括:记忆手段,其通过小组化或群集化且根据类似性把多数的语音模型分类成若干小组,且能够预先记忆自通过小组化或群集化而属于同一小组的每个小组的语音模型代表性地求得的各小组的代表语音模型、通过按上述各同一小组来求得属于上述各组的语音模型与上述代表语音模型之间的差分而得到的且属于各小组的差分模型、使上述代表语音模型和差分模型对应于各同一小组的小组信息;杂音适应代表语音模型生成手段,其通过对记忆在上述记忆手段中的每个同一小组的代表语音模型实行杂音适应处理来生成杂音适应代表语音模型;合成语音模型生成手段,其根据上述小组信息按上述每个同一小组把属于上述各小组的上述差分模型与上述杂音适应代表语音模型进行合成,从而生成每个同一小组的合成语音模型;识别处理手段,其将上述合成语音模型生成手段中生成的合成语音模型与自要被识别的发话者语音求得的特征矢量系列进行对照;更新模型生成手段,其根据自发话者语音求得的特征矢量系列来对上述每个同一小组的合成语音模型实施发话者适应处理,从而生成实施过杂音适应处理和发话者适应处理的杂音发话者适应语音模型;模型更新手段,从上述杂音发话者适应语音模型与根据上述小组信息选择的上述杂音发话者适应语音模型所属的小组的上述杂音适应代表语音模型之间的差分来生成上述每个同一小组的更新差分模型,同时按照该生成的更新差分模型来更新上述记忆手段中记忆的每个同一小组的差分模型。上述识别处理手段将合成语音模型与自要被识别的发话者语音求得的特征矢量系列进行对照从而实行语音识别,该合成语音模型是通过将每次语音识别时被更新模型生成手段和模型更新手段更新了的上述更新差分模型与杂音适应代表语音模型进行合成而得到的、经过了杂音适应处理和发话者适应处理的合成语音模型,而该杂音适应代表语音模型则是根据上述小组信息而选择的更新差分模型所属的小组的上述代表语音通过接受杂音适应处理而生成的。
本发明的又一个方面提供了一种语音识别方法,其将实施了杂音适应处理和发话者适应处理的合成语音模型与自发话时的发话语音求得的特征矢量系列进行对照来实行语音识别,其特征在于包括:记忆步骤,其通过小组化或群集化且根据类似性把多数的语音模型分类成若干小组,且能够预先在记忆手段中记忆自通过小组化或群集化而属于同一小组的每个小组的语音模型代表性地求得的各小组的代表语音模型、通过按上述各同一小组来求得属于上述各组的语音模型与上述代表语音模型之间的差分而得到的且属于各小组的差分模型、使上述代表语音模型和差分模型对应于各同一小组的小组信息;杂音适应代表语音模型生成步骤,其通过对记忆在上述记忆手段中的每个同一小组的代表语音模型实行杂音适应处理来生成杂音适应代表语音模型;合成语音模型生成步骤,其根据上述小组信息按上述每个同一小组把属于上述各小组的上述差分模型与上述杂音适应代表语音模型进行合成,从而生成每个同一小组的合成语音模型;更新模型生成步骤,其对于实施过上述杂音适应处理的上述每个同一小组的合成语音模型,根据自发话语音求得的特征矢量系列施行发话者适应处理,从而生成杂音发话者适应语音模型;模型更新步骤,从上述杂音发话者适应语音模型与根据上述小组信息选择的上述杂音发话者适应语音模型所属的小组的上述杂音适应代表语音模型之间的差分来生成上述每个同一小组的更新差分模型,同时按照该生成的更新差分模型来更新上述记忆手段中记忆的每个同一小组的差分模型。在语音识别时,通过对根据上述小组信息选择的上述更新差分模型所属的小组的上述代表语音模型实施杂音适应处理来生成杂音适应代表语音模型,同时将杂音适应代表语音模型与上述更新的更新差分模型进行合成来生成实施过杂音适应处理和发话者适应处理的合成语音模型,并且通过把该合成语音模型与自要被识别的发话者语音求得的特征矢量系列进行对照来实行上述语音识别。
本发明的另一个方面也提供了一种语音识别方法,其将实施了杂音适应处理和发话者适应处理的合成语音模型与自发话时的发话语音求得的特征矢量系列进行对照来实行语音识别,其特征在于包括:记忆步骤,其通过小组化或群集化且根据类似性把多数的语音模型分类成若干小组,且能够预先在记忆手段中记忆自通过小组化或群集化而属于同一小组的每个小组的语音模型代表性地求得的各小组的代表语音模型、通过按上述各同一小组来求得属于上述各组的语音模型与上述代表语音模型之间的差分而得到的且属于各小组的差分模型、使上述代表语音模型和差分模型对应于各同一小组的小组信息;杂音适应代表语音模型生成步骤,其通过对记忆在上述记忆手段中的每个同一小组的代表语音模型实行杂音适应处理来生成杂音适应代表语音模型;合成语音模型生成步骤,其根据上述小组信息按上述每个同一小组把属于上述各小组的上述差分模型与上述杂音适应代表语音模型进行合成,从而生成每个同一小组的合成语音模型;识别处理步骤,其将上述合成语音模型生成步骤中生成的合成语音模型与自要被识别的发话者语音求得的特征矢量系列进行对照;更新模型生成步骤,其根据自发话者语音求得的特征矢量系列来对上述每个同一小组的合成语音模型实施发话者适应处理,从而生成实施过杂音适应处理和发话者适应处理的杂音发话者适应语音模型;模型更新步骤,从上述杂音发话者适应语音模型与根据上述小组信息选择的上述杂音发话者适应语音模型所属的小组的上述杂音适应代表语音模型之间的差分来生成上述每个同一小组的更新差分模型,同时按照该生成的更新差分模型来更新上述记忆手段中记忆的每个同一小组的差分模型。上述识别处理步骤将合成语音模型与自要被识别的发话者语音求得的特征矢量系列进行对照从而实行语音识别,该合成语音模型是通过将每次语音识别时被更新模型生成步骤和模型更新步骤更新了的上述更新差分模型与杂音适应代表语音模型进行合成而得到的、经过了杂音适应处理和发话者适应处理的合成语音模型,而该杂音适应代表语音模型则是根据上述小组信息而选择的更新差分模型所属的小组的上述代表语音通过接受杂音适应处理而生成的。
【附图说明】
图1是第1实施形态的语音识别装置的构成图。
图2是代表语音模型和差分模型的生成原理图。
图3是代表语音模型和差分模型以及初期语音模型的关系图。
图4是经过杂音适应处理的合成语音模型的生成原理图。
图5是经过杂音适应处理与发话者适应处理的杂音发话者适应语音模型的生成原理图以及更新差分模型的生成原理图。
图6是流程图,它表明了以更新差分模型对差分模型进行更新为止的动作。
图7是表示语音识别时的动作的流程图。
图8是表示第2实施形态的语音识别装置的构成图。
图9是表示第2实施形态的语音识别装置之动作的流程图。
【具体实施方式】
以下,参照附图来说明本发明之适宜的实施形态。
(第1实施形态)
以下,参照图1乃至图7来说明本发明的第1实施形态。这里,图1是显示本实施形态之语音识别装置之构成的方块图。
如图1所示,本语音识别装置具有用HMM进行语音识别的构造,它包括用于语音识别的语音模型的数据预先被记忆的记忆部1,发话者环境杂音模型生成部2,杂音适应代表语音模型生成部3,合成语音模型生成部4,更新模型生成部5,模型更新部6,认识处理部7。
本语音识别装置并且还包括语音分析部9和转换开关10。该语音分析部9用来对麦克风8收音到的收音信号v(t)以每所定的帧期间作开普斯托拉姆(ケプストラム)变换,从而生成并输出开普斯托拉姆(ケプストラム)领域的特征矢量系列V(n)。
在记忆部1中记忆着通过学习标准的发话者语音而生成的音素等的以分单词单位的许多语音模型等。
虽然详细之构成将会在以下的说明中变得明确,但一般所说的许多初期语音模型(仅仅学习了标准性的发话者语音就已经得到的语音模型)并不是以其本来的形态被记忆的,而是通过对许多的初期语音模型的各个分布(平均矢量和共分散行列)实行小组化或群集化来求得的代表语音模型的分布(C)和差分模型的分布(D),被分别地分组从而被记忆在代表语音模型记忆部1a和差分模型记忆部1b。
即,一旦通过上述的群集化等使许多的初期语音模型被分成X个(x=X的)小组G1~GX,就可以从属于第1号(x=1)小组G1的例如q1个(qx=q1)的初期语音模型S1,1~S1,q1来求得1个代表语音模型C1和q1个差分模型d1,1~d1,q1。
同时,可以从属于第2号(x=2)小组的例如q2个(qx=q2)的初期语音模型S2,1~S2,q2来求得1个代表语音模型C2和q2个差分模型d2,1~d2,q2。以下同样地,可以从属于第X号(x=X)小组的例如qx个(qx=qx)的初期语音模型Sx,1~Sx,qx来求得1个代表语音模型Cx和qx个差分模型dx,1~dx,qx。
然后,如图1所示,属于小组G1~GX的各个代表语音模型C1~CX被分组地记忆在代表语音模型记忆部1a中。并且,与代表语音模型C1对应的q1个差分模型d1,1~d1,q1,与代表语音模型C2对应的q2个差分模型d2,1~d2,q2,以及与最后的代表语音模型CX对应的qX个差分模型dX,1~dX,qX为止的各个差分模型,被对应于各小组而记忆于差分模型记忆部1b中。
然而,根据纸面之许可,在图1上,以符号D1表示与小组G1的代表语音模型C1对应的q1个差分模型d1,1~d1,q1,以符号D2表示与小组G2的代表语音模型C2对应的q2个差分模型d2,1~d2,q2。以下同样地,用符号Dx表示与小组Gx的代表语音模型Cx对应的qx个差分模型dx,1~dx,qx。
并且,用来对于被代表语音模型记忆部1a记忆的代表语音模型C1,C2…Cx…和被差分模型记忆部1b记忆的差分模型D1,D2…Dx…实行对应管理的小组信息,被记忆在小组信息记忆部1c中。
图2用来概念性地说明对应于前述X个(x=X)小组G1~GX的代表语音模型C1~CX,以及对应于这些代表语音模型C1~CX的差分模型D1~DX之生成原理,通过参照该图可以说明其生成原理。
首先,通过对上述的许多初期语音模型(初期语音HMM)之分布S实行小组化或群集化,来按照每个类似的初期语音模型进行分组,从而制作前述小组信息。
在这里,作为小组化之方法,可采用LBG法和分割(split)法等的群集化(clustering)手法,按照初期语音模型的各分布的平均矢量的类似性进行群集化。
同时,也可以象分成母音模型和子音模型这2个小组那样,根据对应于各模型的音韵的类似性等的事前信息进行分组。
此外,也可以同时并用这些前者的手法和后者的手法对初期语音模型进行分组。
通过这样的群集处理,便可以实行如图2所示的分组。
即,如图2所示,现列举已属于第x组Gx的语音模型,如果用Sx,1来表示属于小组Gx的第1号语音模型,则由其平均矢量μSx,1和共分散行列σdx,1(=σSx,1)组成的分布便是语音模型Sx,1。如果用Sx,2来表示第2号语音模型,则由其平均矢量μSx,2和共分散行列σdx,2(=σSx,2)组成的分布便是语音模型Sx,2。以下同样地,如果用Sx,qx来表示第x号语音模型,则由其平均矢量μSx,qx和共分散行列σdx,qx(=σSx,qx)组成的分布便是语音模型Sx,qx。
同时,关于已属于其他小组G1,G2等的语音模型也同样,由其平均矢量和共分散行列组成的分布便是语音模型。
以下,将说明关于各小组G1~GX的各代表语音模型C1~CX的寻求方法。然而,为了说明上的方便,这里只是代表性地说明一下如何来求得图2所示的第x组Gx的代表语音模型Cx。
这里,代表语音模型Cx是作为从图2所示基点Q延伸的平均矢量μCx,也作为针对其平均矢量μCx的共分散行列σCx的分布(图中用椭圆表示)来进行寻求的。
因此,如果以Cx(μCx,σCx)来表示代表语音模型Cx,则平均矢量μCx就可以由下式来求得。
μCX=(1/qX)Σy=1qxμSX,y---(1)]]>
再者,共分散行列σCx可以由下式来求得。
σSX=(1/qX)Σy=1qxσX,y+(1/qX)Σy=1qx(μX,y-μCX)(μX,y-μCX)T---(2)]]>
然而,在上式(1)在(2)中,变量x表示第x组Gx,变量y表示属于组Gx的各语音模型Sx,y(1≤y≤qx),变量qx表示已属于组Gx的语音模型Sx,y的总数。
此外,上述式(1)和式(2)也适用于属于其他小组G1,G2等的语音模型,通过演算各组的平均矢量和共分散行列,可以寻求其他小组的代表语音模型。
其次,与各小组G1~GX对应的差分模型D1~DX可以根据下式(3)、(4)进行演算。
以下为了说明上的方便,将代表性地叙述图2所示之第x组Gx的差分模型Dx即dx,1,dx,2~dx,qx被求得的情况。
μdX,y=μSX,y-μCX …(3)
即,可以根据上式(3)来求得平均矢量μdx,y。再者,可以根据下式(4)
σdX,y=σSX,y …(4)
来求得共分散行列σdx,y。
再者,上述式(3)(4)中的变量x表示第x组Gx,变量y表示了属于小组Gx的各语音模型Sx,y(1≤y≤qx),变量qx表示了已属于小组Gx的语音模型Sx,y的总数。
然后,从上式(3)(4)得到的平均矢量μdx,y与共分散行列σdx则作为差分矢量dx,y。
如果更具体地叙述,差分模型dx,1成为平均矢量μdx,1和共分散行列σdx,1的分布,差分模型dx,2成为平均矢量μdx,2和共分散行列σdx,2的分布,以下同样,差分模型dx,y(y=qx)成为平均矢量μdx,y和共分散行列σdx,y的分布。由此,便求得总计qx个的差分模型dx,1~dx,y。
这样求得的代表语音模型C1~CX和差分模型D1(d1,1~d1,q1)~DX(dX,1~dX,qX)被对应于各小组G1~GX,从而被事先记忆在代表语音模型记忆部1a和差分模型记忆部1b。
因此,如果作更一般的表述,则如图3所模式性地表示的那样,通过将属于第x组Gx的第y差分模型dx,y与该差分模型dx,y所属的小组Gx的代表语音分布Cx进行合成,可以根据求得对应于差分模型dx,y的初期语音模型Sx,y这种关系,从而把各小组Gx(1≤x≤X的)的代表语音模型Cx(1≤x≤X)和差分模型Dx(1≤x≤X)记忆在记忆部1,1b,并按照小组信息实行对应于每各组的管理。
再者,本实施形态中,通过对平均矢量作加算处理,并通过对分散行列作单纯的置换,可以实现上述的合成。
μdX,y+μCX=μSX,y …(5)
σdX,y=σSX,y …(6)
即,可借助根据上述关系的合成处理来进行上述的合成。
然而,为了比较容易地理解且为了说明上的方便,初期语音模型的各分布Sx,y是实行了小组x的第y号分布来进行识别的,不过实际上是对应于各HMM的。因此,差分模型的各分布也可同样地对应于各HMM而被记忆。
并且,对应于各语音HMM而被记忆的初期语音模型的各分布与其分布所属的小组之间的对应关系被表示的小组信息B被记忆在小组信息记忆部1c。
例如,如果以Smijk表示HMM编号i的状态j的混合k的初期语音模型的分布,以dmijk表示与其对应的各差分模型,以β表示初期语音模型的分布Smijk与各差分模型dmijk所属的群集,则小组信息Bmijk就能够显示分布Smijk是属于哪个小组的。于是,就下式就得以成立。
Bmi,j,k=β …(7)
据此,初期语音模型及差分模型与其所属的小组之对应关系,可以根据群集信息Bm来得到。
同时,作为在后述的杂音适应代表语音模型生成部3的杂音适应手法是采用雅可比(ャコビ)适应手法,根据HMM合成法对预先制作的初期杂音模型(为了方便而称作Ns)和上述各小组的代表语音模型C进行合成而获得的初期合成语音模型被用来更新记忆代表语音模型C。
再者,对初期杂音模型Ns进行记忆,而从被更新记忆了的各小组的代表语音模型C和从初期杂音模型Ns求得的各小组的雅可比行列J也被记忆,且供给于后述的杂音适应代表语音模型生成部3。
之后,发话环境杂音模型生成部2按照在发话环境产生的非发话期间的背景杂音来生成发话环境杂音模型(发话环境杂音HMM)N。
即,在发话者还未发话的非发话期间,由麦克风8来收集发话环境中所产生的背景杂音。然后,语音分析部9从收音信号v(t)来生成每各所定帧期间的背景杂音的特征矢量系列V(n)。再者,通过使转换开关10转换至发话环境杂音模型生成部2这一侧,可以使特征矢量系列V(n)作为背景杂音的特征矢量系列N(n)’输入至发话环境杂音模型生成部2。并且,发话环境杂音模型生成部2可通过学习特征矢量系列N(n)’来生成前文所述的发话环境杂音模型N。
杂音适应代表语音模型生成部3,对于被记忆在代表语音模型记忆部1a的代表语音模型C1~CX依照发话环境杂音模型N施行杂音适应处理。借此,就可以生成对应于各小组G1~GX的杂音适应代表语音模型(杂音适应代表语音HMM)C1N~CXN,并将它们供给至合成语音模型生成部4。
在这里,作为杂音适应的处理手法,作为一具体例子,可以采用HMM合成法或雅可比适应手法等,从而使用在代表语音模型的分布上重叠发话环境杂音的所谓杂音适应手法。
在HMM合成法的场合,使利用发话环境杂音模型N和各小组的代表语音模型Cx来算出各小组的杂音适应代表语音模型CxN。
在雅可比适应手法之场合,可以象前述一样地,使用以初期合成模型更新记忆的各小组的代表语音模型Cx、初期杂音Ns、发话环境杂音模型N和各小组的雅可比行列J来求得杂音适应代表语音模型CxN。
更一般地,如果对小组Gx的代表语音模型Cx进行杂音适应处理,且如果假定背景杂音为定常现象并把杂音模型N作为1状态·1混合之模型,就可以通过采用上述HMM合成法或雅可比适应手法的杂音适应处理,使代表语音模型Cx接受杂音适应代表语音模型CxN的杂音适应处理,并且使平均矢量变换成μCxN,而使共分散行列变换成σCxN。
如果把杂音模型N设定为2状态以上或2混合以上,虽然代表语音模型Cx会对应于2个以上的杂音适应分布,但在此场合下,代表语音模型Cx会对应于Cx,1N,Cx,2N。
然后,合成语音模型生成部4,将记忆于差分模型记忆部1b的各差分模型(图中,以D表示)与上述各杂音适应代表语音模型(图中,以CN表示)以对应于各小组G1~GX之方式进行合成,从而生成复数个合成语音模型(合成语音HMM)M。
即,如果用一般的语言进行描述,在杂音适应代表语音模型生成部3中,对应于各小组Gx(1≤x≤X)的杂音适应代表语音模型CxN(1≤x≤X)被生成时,合成语音模型生成部4将上述差分模型dx,1~dx,y(y=qx)合成至小组Gx的杂音适应代表语音模型CxN(1≤x≤X),从而生成与对初期语音模型Sx,1~Sx,y实施了杂音适应处理之情形相等的多个qx的合成语音模型Mx,1~Mx,y。
图4模式性地显示了如此生成的复数个合成语音模型M之构成。作为一个代表例,该图显示了从属于小组Gx的代表语音模型Cx和差分模型d1,1~d1,y(y=qx)生成的合成语音模型M1,1~M1,y之构成。
然而,为了容易理解,图4简略地显示了不考虑共分散行列的合成。
首先,把合成语音模型Mx,y的平均矢量作为μMx,y,且把分散行列作为σMx,y。这里,作为把杂音适应代表语音模型与差分模型进行合成的方法,如果不考虑因杂音适应所引起的代表语音模型之分散的变动,可根据下式来求得合成语音模型Mx,y的平均矢量μMx,y和共分散行列σMx,y。
μMX,y=μdX,y+μCXN …(8)
σMX,y=σdX,y …(9)
同时,如果考虑因杂音适应所引起的代表语音模型的共分散模型之变动,可根据下式来求得合成语音模型Mx,y的平均矢量μMx,y和共分散行列σMx,y
μMX,y=μdX,y+σCXN^(1/2)σCX^(-1/2)μCXN …(10)
σMX,y=σCXNσCX^(-1)σdX,y …(11)
然而,因为影响语音识别性能的最大因素是分布的平均矢量μMx,y,则可根据不实行共分散行列的分散适应处理的上式(8)和(9)来求得合成语音模型Mx,y的平均矢量μMx,y以及共分散行列σMx,y。在本实施形态中,可以根据上式(8)和(9)来求得合成语音模型Mx,y的平均矢量μMx,y以及共分散行列σMx,y,而且在降低演算处理量的同时来获得杂音适应性能。
再者,尽管将在以下还会详细描述,被记忆在差分模型记忆部1b的差分模型D1(d1,1~d1,q1),D2(d2,1~d2,q2)…Dx(dx,1~dx,qx)…会依据在更新模型生成部5和模型更新部6中生成的更新差分模型而得到更新。
为了容易地进行说明,在图1中,以D表示更新前的差分模型,以D”表示更新后的差分模型,同时以M表示将更新前的差分模型D和杂音适应代表语音模型CN合成而得到的合成语音模型,以M”表示将更新差分模型D和杂音适应代表语音模型CN合成而得到的合成语音模型。
接着,更新模型生成部5根据MLLR和MAP法等的发话者适应法,以特征矢量系列V(n)对发话者语音模型M作发话者适应处理,从而生成杂音发话者适应语音模型(杂音发话者适应语HMM)R。
在本实施形态中,在发话者适应处理时,可以请发话者朗读适合与进行发话者适应处理的适合之文章。
更新模型生成部5通过转换开关10接受(经图1中虚线所示之路径输入)于发话期间以麦克风8收音到的具有语音分析部9输出之发话语音特征的每个所定帧期间的特征矢量系列V(n),同时经过图1中虚线所示之路径接受在合成语音模型生成部4中生成的合成语音模型M。然后,通过按照输入的特征矢量系列V(n)对合成语音模型M实施发话者适应处理,可以生成杂音发话者适应语音模型R。
图5显示了杂音发话者适应语音模型R的生成原理,描述了这样一个代表例。即,根据上式(8)和(9)将属于小组Gx的代表语音模型Cx和差分模型Dx(dx,1~dx,y)进行合成,从得到的合成语音模型Mx,1~Mx,y生成杂音发话者适应语音模型Rx,1~Rx,y。再者,为了说明上的方便,共分散行列未被图示。
即,通过按照上式(8),(9)进行演算可以生成:由平均矢量μRx,1和共分散行列σRx,1(图示省略)的分布所组成的杂音发话者适应语音模型Rx,1、由平均矢量μRx,2和共分散行列σRx,2(图示省略)的分布所组成的杂音发话者适应语音模型Rx,2、以及以下同样地,由平均矢量μRx,y和共分散行列σRx,y(图示省略)的分布所组成的杂音发话者适应语音模型Rx,y。
此外,属于残余小组G1,G2…等的杂音发话者适应语音模型也可以按照上式(8)和(9)来生成,从而将得到的所有杂音发话者适应语音模型R供给于模型更新部6。
模型更新部6使用更新模型生成部5中生成的杂音发话者适应语音模型R、杂音适应代表语音模型生成部3中生成的杂音适应代表语音模型CN、差分模型记忆部1b中的更新前差分模型D,从而生成施行了发话者适应处理的更新差分模型D”,并且以该更新差分模型D”对更新前的差分模型D进行更新。
以下,如果代表性地说明一下与属于小组Gx的杂音发话者适应语音模型Rx和杂音适应代表语音模型CxN以及更新前的差分模型Dx相对应而被求得的更新差分模型Dx”的生成原理,则更新差分模型Dx”即dx,1”~dx,y”的各平均矢量为μdx,1”~μdx,y”,而共分散行列为dx,1”~dx,y”,它们可根据下式来求得。
μdX,y″=αX,y(μRX,y-σCXN^(1/2)σCX^(-1/2)μCXN)+(1-αX,y)μdX,y …(12)
σdX,y″=αX,y(σCXNσCX^(-1)σRX,y)+(1-αX,y)σdX,y …(13)
然而,上述式(12)(13)表明了实施共分散行列的杂音适应之手法,而在不进行共分散行列的杂音适应时可根据下式来求得。
μdX,y″=αX,y(μRX,y-μCXN)+(1-αX,y)μdx,y …(14)
σdX,y″=αX,yσRX,y+(1-αX,y)σdX,y …(15)
此外,在共分散行列的发话者适应也不进行的情况下,则可根据下式来求得。
μdX,y″=αX,y(μRX,y-μCXN)+(1-αX,y)μdX,y …(16)
σdX,y″=σdX,y …(17)
在发话者适应处理中,虽然平均矢量的适应效果比较大,但共分散行列的适应效果比较小。为此,可通过上式(16)(17)所示之手法来求得更新差分模型dx,1”~dx,y”的各平均矢量μdx,1”~μdx,y”和共分散行列σdx,1”~σdx,y”,从而在降低演算量之同时,得到发话者适应效果。为了这个缘故,本实施形态是根据上式(16)和(17)来求得更新差分模型dx,1”~dx,y”。
然而,上述式(16)(17)中的系数αx,y,是为了对求自杂音发话者适应语音模型Rx,y和合成语音模型Mx,y的更新差分模型dx,y进行适宜地调整的重量系数,被决定在0.0≤αx,y≤1.0的范围内。
再者,该重量系数αx,y即可以预先固定在上述范围内的所定值上,也可以象MAP推定法的重量系数那样在适应处理实施之际作变更。
以下,如果参照图5对属于小组Gx的更新差分模型dx,1”~dx,y”进行描述,便可以得知:更新差分模型dx,1”可以从平均矢量μdx,1”和从上述式(17)能得到的共分散行列σdx,1所组成的分布来求得。从上式(16)中的右边第1项能得到的矢量αx,1·(μRx,1-μCxN)和从第2项能得到的矢量(1-αx,1)·μdx,1之矢量和可以给出平均矢量μdx,1”。此外,残余的更新差分模型也可以按照同样的方式来求得。
一旦模型更新部6求得了有关全部小组G1~GX的更新差分模型D1”~DX”,就可以按照更新差分模型D1”~DX”来更新和记忆被记忆部1b记忆的更新前差分模型D1~DX。
接着,认识处理部7,在上述差分模型记忆部1b按更新差分模型D”被更新之后,随着实际的语音识别被开始,对发话者发出的发话语音作语音识别。
也就是说,一旦语音识别处理开始之后,在非发话期间内的合成语音模型生成部4,通过将杂音适应代表语音模型生成部3生成的杂音适应代表语音模型CN与更新差分模型D”进行合成,可以生成实施过杂音适应处理及发话者适应处理的全部小组G1~GX的合成语音模型M”。
然后,一旦发话者发话且在该发话期间内,语音分析部9将生成含有背景杂音的发话者语音的特征矢量系列V(n),并通过转换开关10供给至认识处理部7。
一旦特征矢量系列V(n)被供应,识别处理部7就将特征矢量系列V(n)与自合成语音模型M”生成的单词和句子的模型系列进行对照,从而作为认识结果来输出能得到最高相似度的合成语音模型M”的模型系列。
以下,将参照图6及图7的流程图来说明本语音识别装置之动作。
图6表示了在进行语音识别之前生成更新差分模型D”并更新该差分模型D时的动作。图7表示了采用更新差分模型D”进行语音识别时的动作。
如图6所示,更新处理一开始,首先在步骤S100中,杂音适应代表语音模型生成部3对代表语音模型C实施杂音适应处理,从而生成杂音适应代表语音模型CN。
即,在非发话期间被收音的背景杂音的特征矢量系列N(n)’从语音分析部9被供给至发话环境杂音模型生成部2,发话环境杂音模型生成部2再通过学习该特征矢量系列N(n)’来生成发话环境杂音模型N。
并且,杂音适应代表语音模型生成部3根据该发话环境杂音模型N来对代表语音模型C实施杂音适应处理,从而生成杂音适应代表语音模型CN。
然后,在步骤S102中,合成语音模型生成部4,通过将上述的杂音适应代表语音模型CN和更新前的差分模型d进行合成来生成合成语音模型M。
因此,在步骤S102中,如图4所示的那样,作过杂音适应处理的合成语音模型M被生成,但发话者适应处理还未被实施。
接着,在步骤S104中,更新模型生成部5按照发话者发出的发话语音来对合成语音模型M实施发话者适应处理。
即,当发话者宣读文章且在发话期间中,一旦发话语音的特征矢量系列V(n)从语音分析部9介由转换开关10被供给至更新模型生成部5时,更新模型生成部5就根据该特征矢量系列V(n)对合成语音模型M作发话者适应处理,从而生成杂音发话者适应语音模型R。
所以,在步骤S104就如图5所示那样,可以生成经过杂音适应处理和发话者适应处理的杂音发话者适应语音模型R。
然后在步骤S106中,模型更新部6从杂音发话者适应语音模型R、杂音适应代表语音模型CN和更新前的差分模型D,生成经过杂音适应处理和发话者适应处理的更新差分模型D”。
接着,在步骤S108中,模型更新部6以更新差分模型D”更新了差分模型记忆部1b的差分模型(更新前的差分模型)D之后,便完成更新处理。
这样,对所谓初期语音模型不是进行杂音适应处理和发话者适应处理,而只是就代表语音模型C进行杂音适应处理。通过将由此得到的杂音适应代表语音模型CN与合成差分模型D进行合成可以生成合成语音模型M并实施发话者适应处理,从而能大幅度削减在杂音适应处理和发话者适应处理上需要的处理量。
再者,因为在更新处理之际生成了实施过杂音适应处理和发话者适应处理的更新差分模型D”并预先更新差分模型记忆部1b的内容,于是就能大幅度降低语音识别时的处理量,从而能确保迅速的语音识别。
以下,参照图7来说明语音识别时的动作。
如图所示,一旦接受到来自发话者的指示便开始语音识别的处理。在步骤S200中,杂音适应代表语音模型生成部3通过对杂音适应记忆部1a内的代表语音模型C施行杂音适应处理,可以生成杂音适应代表语音模型CN。
总之,在发话者尚未发话的非发话期间内,发话环境杂音模型生成部2学习从语音分析部9输出的背景杂音的特征矢量系列N(n)’,从而生成发话环境杂音模型N。这样一来,杂音适应代表语音模型生成部3就立即根据那个发话环境杂音模型N来对代表语音模型C施行杂音适应处理,从而生成杂音适应代表语音模型CN。
之后,在步骤S202中,合成语音模型生成部4将杂音适应代表者模型CN与更新差分模型D”进行合成,从而生成施行了杂音适应处理和发话者适应处理的合成语音模型M”。
接着,在步骤S204中,认识处理部7将发话者语音的特征矢量系列V(n)与从合成语音模型M”生成的单词和句子之模型进行对照从而进行语音识别。
也就是说,一旦发话者开始发话,转换开关10就立即转换到认识处理部7一侧。于是,在发话期间中从语音分析部9输出的背景杂音重叠的发话语音的特征矢量系列V(n)被供给至认识处理部7。
然后,认识处理部7将特征矢量系列V(n)与从合成语音模型M”生成的单词和句子之模型进行对照,从而在步骤S206中作为语音认识结果来输出能获得最大相似度的合成语音模型M”的模型系列(对应于上述单词和句子的模型系列)。
这样,即使在语音认识之际,并不是对所谓的初期语音模型进行杂音适应处理和发话者适应处理,而是通过将杂音适应代表语音模型CN与更新差分模型D”进行合成来生成已实施过杂音适应处理和发话者适应处理的合成语音模型M”,从而能大幅度削减在杂音适应处理和发话者适应处理上所需的处理量。
另一方面,在现有技术的语音识别过程中,在实施发话者适应处理时,环境杂音适应处理也将在该发话者的发话环境之影响下被实行。因此,经过了发话者适应处理与环境杂音适应处理的音响模型被作为对照之对象与发话语音的特征矢量系列V(n)进行对照,因而成为阻碍语音认识率提高的原因。
然而,根据本实施形态,是对发话者适应处理后的音响模型实行差分模型化,也就是作为更新差分模型D”来生成该音响模型,从该更新差分模型D”来生成作为对照对象的合成语音模型M”,从而能降低环境适应处理的影响。借此,能得到杂音适应处理与发话者适应处理之相乘效果,进而实现更高的语音识别率。
(第2实施形态)
以下,将参照图8以及图9来说明本发明的第2实施形态。
然而,图8表示了本实施形态的语音识别装置的构成,其中与图1同一或相当的部分则用同样的符号来表示。
首先,参照图8来说明本实施形态之语音识别装置和第1实施形态之语音识别装置之间的差异。在第1实施形态之语音识别装置中,如图6以及图7之流程图所说明的那样,是在生成了实施过杂音适应处理和发话者适应处理的更新差分模型D”之后,对语音进行识别。而在本实施形态的语音识别装置中,是在语音识别过程中由更新模型生成部5和模型更新部6进行更新处理,从而在语音识别的同时生成差分模型D”。
接着,依照图9之流程图来说明本语音识别装置的动作。
如图9所示,一旦开始了语音识别处理之后,首先是在步骤S300中,由杂音适应代表语音模型生成部3对代表语音模型C实施杂音适应处理,从而生成杂音适应代表语音模型CN。
即,在发话者开始发话之前的非发话期间所收音的背景杂音之特征矢量系列N(n)’从语音分析部9被供给至发话环境杂音模型生成部2。然后,通过由发话环境杂音模型生成部2学习其特征矢量系列N(n)’来生成发话环境杂音模型N。
并且,杂音适应代表语音模型生成部3根据该发话环境杂音模型N对代表语音模型C实行杂音适应处理,从而生成杂音适应代表语音模型CN。
接着,在步骤S302中,合成语音模型生成部4,通过将上述的杂音适应代表语音模型CN与更新前的差分模型D进行合成,来生成合成语音模型M。
然后,在步骤S304中,认识处理部7将发话者语音的特征矢量系列V(n)与自合成语音模型M生成的单词和句子之模型系列进行对照从而对语音进行识别。
即,一旦发话者开始发话,转换开关10就立即转换到认识处理部7一侧。于是,在发话期间中从语音分析部9输出的发话语音的特征矢量系列V(n)被供给至认识处理部7。然后,认识处理部7将特征矢量系列V(n)与从合成语音模型M生成的模型系列进行对照,从而在步骤S306中作为语音认识结果RGC来输出能获得最大相似度的合成语音模型M的模型系列。
再者,在步骤S306中,上位候选的相似度信息也同时输出,并且从该上位候选的相似度值按照所定之基准来对照认识结果的信赖度并加以决定之。
之后,在步骤S308中,根据上述的信赖度来判断认识结果之正确与否。如果被判断为正确(正确的解答),此认识过程就转移到步骤S310。如果被判断为不正确(不是正确的解答),则此认识过程就被终止。然而,作为前文所述的认识结果的信赖度之计算方法,有各种各样的方法,但在这里将被省略其说明。
接着,在步骤S310,S312中,更新模型生成部5采用前述合成语音模型M和发话语音的特征矢量系列V(n)以及语音识别结果RCG进行发话者适应处理。再者,模型更新部6生成更新差分模型D”从而更新更新前的差分模型D。
即,首先在步骤S310中,更新模型生成部5根据语音识别结果RCG来辨别被认识的模型系列,从而根据特征矢量系列V(n)来对合成语音模型M施行发话者适应处理。
借此,譬如发话者发出「东京」之声音,且单词「东京」的语音识别结果RCG自认识处理部7被输出时,就根据发话语音「东京」的特征矢量系列V(n)对单词「东京」的合成语音模型M实施发话者适应处理,从而生成实施过杂音适应处理和发话者适应处理的杂音发话者适应语音模型R。
再者,模型更新部6从杂音发话者适应语音模型R和杂音适应代表语音模型CN以及更新前的差分模型D来生成对应于语音识别结果RCG的更新差分模型D”。
并且在步骤S312中,模型更新部6以更新差分模型D”来更新对应于语音识别结果RCG的差分模型(更新前的差分模型)D。
因此,在前述的语音识别结果RCG为单词「东京」之时,称为「东京」的单词的更新前的差分模型D就以更新差分模型D”被更新。
这样,根据本实施形态的语音识别装置,使用预先被设定在代表语音模型记忆部1a和差分模型记忆部1b的代表语音模型C和差分模型D对语音进行识别,可以生成同时实施过杂音适应处理和发话者适应处理的更新差分模型D”。
更应该引起注目的是在结束了最初的语音识别之后,譬如在另外的日期和时间等进行语音识别时,每当重复语音识别的次数增加之际,更新前的差分模型D就逐渐被更新成经过发话者适应处理的更新差分模型D”。为此,在图9的步骤S302中生成的合成语音模型M就成为经过杂音适应处理和发话者适应处理的合成语音模型。
所以,因为语音识别处理部7将合成语音模型M”与发话语音的特征矢量系列V(n)进行对照从而进行语音识别,随着本语音识别装置的使用次数之增加,可以获得认识率提高这样的出色效果。
然而,在第1,第2实施形态中,每当把预先设定的差分模型D更新成差分模型D”的时候,也可以对小组信息进行更新。
即,在第1实施形态中,在更新部6完成了图6所示之步骤S108的处理之后,将更新差分模型D(要被记忆在差分模型记忆部1b)与代表语音模型C合成而得到的合成模型S”与代表语音模型C之间的类似性被当做依据来变更小组信息(成为最类似的代表语音模型所属的小组的成员)和更新差分模型。
如前所述,实际上是更新差分模型dx,y”,以dmijk”的形式相对于HMM号码i、状态号码j和混合号码k被记忆。
同时,如前所述,dmijk”所属的群集被作为群集信息Bmijk来记忆。譬如,dmijk”所属的群集是β。即,如果Bmijk=β,则dmijk”所属的群集之代表模型是Cβ。因而,HMM号码i与状态号码j以及混合号码k的合成模型Smijk”,可以通过将dmijk”与Cβ进行合成来求得。
这里,根据Smijk”与全部的代表语音模型之间的类似性进行比较可获得以下结果。即、最类似的语音模型不是Cβ,而是Cγ。此时,更新差分模型与
dmijk”=Smijk”-Cγ
进行调换。而群集信息也与
Bmijk=γ
进行调换。
然后,被更新的差分信息·小组信息被更新记忆在记忆部1c。
然而,也可以对合成模型S”实行小组化或群集化,从而对小组信息B、代表语音模型C、更新差分模型D”进行更新。但是,实行群集化是需要有许多演算量的处理,因此不是十分有效。
此外,如果作为杂音适应手法是采用雅可比适应法,一旦对代表语音模型C进行更新,就需要制作初期合成模型等,因而就需要更多的演算。
如果希望以较少的演算量来得到所需之效果,可以象如上所述的那样,采用一种只对差分模型和小组信息进行改写的方法,这样则较为有效。
此外,在第2实施形态中,完成了图9所示的步骤S310之处理之后,将更新差分模型D(要被记忆在差分模型记忆部1b)与代表语音模型C合成而得到的合成模型S”与代表语音模型C之间的类似性被当做依据来变更小组信息(成为最类似的代表语音模型所属的小组的成员)和更新差分模型。
如前所述,实际上是更新差分模型dx,y”,以dmijk”的形式相对于HMM号码i、状态号码j和混合号码k被记忆。
同时,如前所述,dmijk”所属的群集被作为群集信息Bmijk来记忆。譬如,dmijk”所属的群集是β。即,如果Bmijk=β,则dmijk”所属的群集之代表模型是Cβ。因而,HMM号码i与状态号码j以及混合号码k的合成模型Smijk”,可以通过将dmijk”与Cβ进行合成来求得。
这里,根据Smijk”与全部的代表语音模型之间的类似性进行比较可获得以下结果。即、最类似的语音模型不是Cβ,而是Cγ。此时,更新差分模型与
dmijk”=Smijk”-Cγ
进行调换。而群集信息也与
Bmijk=γ
进行调换。
然后,被更新的差分信息·小组信息被更新记忆在记忆部1c。
然而,也可以对合成模型S”实行小组化或群集化,从而对小组信息B、代表语音模型C、更新差分模型D”进行更新。但是,实行群集化是需要有许多演算量的处理,因此不是十分有效。
此外,如果作为杂音适应手法是采用雅可比适应法,一旦对代表语音模型C进行更新,就需要制作初期合成模型等,因而就需要更多的演算。
如果希望以较少的演算量来得到所需之效果,可以象如上所述的那样,采用一种只对差分模型和小组信息进行改写的方法,这样则较为有效。
如上所述,根据第1,第2实施形态,能够在降低认识处理之处理量的同时,可进一步提高语音识别率。
即,根据第1实施形态的语音认识装置和语音认识方法,是在进行语音识别之前,生成更新差分模型并把它记忆在记忆部1,从而利用该更新差分模型进行语音识别之处理。也就是,根据类似性对多数的语音模型实行小组化或群集化,使如此得到的小组信息和小组的代表语音模型以及差分模型对应于每一个同一小组而被记忆在记忆部1。
并且,在进行语音识别之前,生成已实施过杂音适应处理和发话者适应处理的更新差分模型,并以该更新差分模型更新记忆部1中的差分模型。
这里,在以上述的更新差分模型更新记忆部1中的差分模型时,首先是对记忆于记忆部1中的每个同一小组的代表语音模型实施杂音适应处理,从而生成每个同一小组的杂音适应代表语音模型。
并且,通过将杂音适应代表语音模型和记忆部1中的差分模型合成在每个同一小组中,可以生成施行过杂音适应处理的合成语音模型。
再者,根据借助发话语音求得的特征矢量系列对实施了杂音适应处理的合成语音模型实施发话者适应处理,从而生成杂音发话者适应语音模型。
然后,从杂音发话者适应语音模型和杂音适应代表语音模型的差分来生成更新差分模型,从而以该更新差分模型来更新记忆部1的差分模型。
接着,在语音识别之际,对记忆部1中记忆的代表语音模型进行杂音适应处理。然后,通过将如此得到的杂音适应代表语音模型与已被更新的更新差分模型进行合成而获得的、且已施行了杂音适应处理和发话者适应处理的合成语音模型与自(要被识别的)发话者语音求得的特征矢量系列进行对照,从而进行语音识别。
这样,通过使用代表语音模型和差分模型来对差分模型施行杂音适应处理和发话者适应处理可以生成更新差分模型。然后,在语音识别之际,其代表语音模型已接受了杂音适应处理的杂音适应代表语音模型与更新差分模型进行合成,其结果就能够以较少的处理量来生成合成语音模型用以对照自发话者的发话语音求得的特征矢量系列。
总之,杂音适应处理和发话者适应处理并不是针对为识别语音的多数语音模型之全体来实行的,而是把多数的语音模型分解成代表语音模型和差分模型。然后,通过对这些代表语音模型和差分模型实行杂音适应处理和发话者适应处理并将它们合成在一起,可以生成合成语音模型用以对照自发话者的发话语音求得的特征矢量系列。借此,就可以实现处理量的大幅度降低。
此外,在上述第1实施形态中,在求得了上述杂音发话者适应模型之后,再根据与各杂音适应代表语音模型之间的类似性来变更杂音发话者适应模型所属的小组。然后,对小组信息加以更新和记忆以便反映此变更,再把杂音发话者适应模型与被变更的小组的杂音适应代表语音模型之间的差分作为更新差分模型。接着,通过将更新了的差分模型与(对基于被更新的小组信息的代表语音模型实施了杂音适应处理的)杂音适应代表语音模型进行合成而得到的合成语音模型被用来识别语音。之后,通过更新小组信息以及差分模型,可以提高语音识别率。
根据第2实施形态的语音识别装置和其语音识别方法,是按照类似性对多数的语音模型实行小组化或群集化,把如此得到的小组信息和各小组的代表语音模型以及差分模型以与每个同一小组相对应之方式记忆在忆部1中。之后,每当语音识别之时,在语音识别之处理过程中,生成已施行过杂音适应处理和发话者适应处理的更新差分模型,从而以该更新差分模型按每个同一小组对记忆部1的差分模型进行更新。
然后,每当语音识别被重复进行时,依据更新差分模型的更新处理被实行,并且将发话者适应处理的效果逐渐变高的更新差分模型与代表语音模型已接受了杂音适应处理的杂音适应代表语音模型进行合成,再把由该合成得到的合成语音模型与自发话者的发话语音求得的特征矢量系列进行对照,从而进行语音识别。
在这里,在以更新差分模型对记忆部1的差分模型进行更新的时候,通过对记忆部1中记忆的代表语音模型实施杂音适应处理,来生成杂音适应代表语音模型。
并且,通过将杂音适应代表语音模型与记忆部1的差分模型进行合成来生成合成语音模型。
再者,根据自发话者的发话语音求得的特征矢量系列来对合成语音模型实行发话者适应处理,可以生成实施过杂音适应处理和发话者适应处理的杂音发话者适应语音模型。
然后,从杂音发话者适应语音模型与杂音适应代表语音模型之间的差分来生成更新差分模型,从而以该更新差分模型来对记忆部1的差分模型进行更新。
再者,每当重复实行语音识别之际,是以最新的更新差分模型来对记忆部1中的原更新差分模型进行更新。
此外,将更新差分模型与(对记忆于记忆部1的代表语音模型实行了杂音适应处理的)杂音适应代表语音模型进行合成,再把该合成中得到的经过了杂音适应处理和发话者适应处理的合成语音模型与自(要被识别的)发话者的发话语音求得的特征矢量系列进行对照,从而进行语音识别。
这样,使用代表语音模型和差分模型,通过对差分模型实施杂音适应处理和发话者适应处理来生成更新差分模型。此外,每当进行语音识别时,通过将(已对代表语音模型实施了杂音适应处理的)杂音适应代表语音模型与更新差分模型进行合成,就能够以较少的处理量来生成合成语音模型从而与自发话者的发话语音求得的特征矢量系列进行对照。
此外,第2实施形态中也同样,在求得了上述的杂音发话者适应模型之后,按照与各杂音适应代表语音模型的类似性来变更杂音发话者适应模型所属的小组,然后对小组信息进行更新和记忆以便反映此变更。再者,将杂音发话者适应模型与变更了的小组的杂音适应代表语音模型之间的差分作为更新差分模型。并且,通过将更新了的差分模型与(对基于更新了的小组信息的代表语音模型实施了杂音适应处理的)杂音适应代表语音模型进行合成而得到的合成语音模型被用来进行语音识别。这样,通过对小组信息以及差分模型进行更新便可以提高语音识别率。
这样,根据第1和第2实施形态,是使用杂音适应代表语音模型和差分模型以及适应发话语音,并通过对差分模型实行发话者适应处理来生成更新差分模型。在语音识别时,通过将杂音适应代表语音模型与更新差分模型的合成来生成合成语音模型(该合成语音模型已经接受了为了与发话者语音的特征矢量进行对照的杂音适应处理以及发话者适应处理),从而可以大幅度减低为生成合成语音模型所需的处理量,并且可以实现语音识别处理的高速化以及认识精度的提高。