一种基于江淮语系的语音识别系统.pdf

上传人：b***

文档编号：6163946

上传时间：2019-05-15

格式：PDF

页数：5

大小：374.53KB

《一种基于江淮语系的语音识别系统.pdf》由会员分享，可在线阅读，更多相关《一种基于江淮语系的语音识别系统.pdf（5页完整版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 103839546 A (43)申请公布日 2014.06.04 CN 103839546 A (21)申请号 201410116258.8 (22)申请日 2014.03.26 G10L 15/14(2006.01) G10L 15/06(2013.01) (71)申请人合肥新涛信息科技有限公司地址 233100 安徽省合肥市高新区天通路 14 号软件园 4 号楼 210 室 (72)发明人刘亚斌许林冲陈良 (54) 发明名称一种基于江淮语系的语音识别系统 (57) 摘要本发明公开了一种基于江淮语系的语音识别系统。本发明提供的这种基于江淮语系的语音识。

2、别系统，由训练模块、建模模块和应用端模块组成。所述训练模块通过对输入的江淮语系训练语音以及对应的语音文本进行训练，通过所述建模模块应用隐马尔可夫模型（HMM）的工具包进行建模，并利用建立好的模型来完成所述应用端模块的设计；需要转换的语音信号直接送入所述应用端模块，由应用端模块进行语音识别，并转换成文本文档。本系统在实现语音识别的基础上，更加强化了对江淮大部分地区方言的识别。 (51)Int.Cl. 权利要求书 1 页说明书 2 页附图 1 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请权利要求书1页说明书2页附图1页 (10)。

3、申请公布号 CN 103839546 A CN 103839546 A 1/1 页 2 1. 一种基于江淮语系的语音识别系统，其特征在于，它包括训练模块、建模模块和应用端模块，所述建模模块是训练模块与应用端模块连接的桥梁，它们之间按照先训练（训练模块）再建模（建模模块）最后应用（应用端模块）的顺序进行工作，上述各单元还有以下特征：（1）所述训练模块，由训练语音、语音对应的转录文本和训练工具组成，用于建立语音与文本之间的联系，为建模准备素材，训练语音与文本之间采用多对一的方式即江淮语系的发音与普通话发音对应同一个转录文本；（2）所述建模模块，。

4、通过训练模块准备的素材应用隐马尔可夫模型（HMM）的工具包并配合模糊音识别技术建立准确合理的模型；（3）所述应用端模块，由语音识别器和语境二次识别器组成，语音识别器根据建模模块建立的模型来完成设计，用于对送入语音的首次识别，语境二次识别器由大量的词库组成，将首次识别后的语音根据前后文的语境进行二次识别。权利要求书 CN 103839546 A 2 1/2 页 3 一种基于江淮语系的语音识别系统技术领域 0001 基于江淮语系的语音识别系统，涉及一种语音识别技术，具体的说是将江淮语系的语音识别加入到普通的语音识别系统中去从而实现更宽泛的语音识别。背景。

5、技术 0002 目前我国市场上所研发的语音识别系统多是基于普通话的识别，涉及到方言的相对较少，即使涉及到方言也是粤语或者闽南语这些相对有代表性的语音。发明内容 0003 本发明为针对上述已有技术中存在的不足之处，提供一种基于江淮语系的语音识别系统，即在实现普通话识别的基础上同时满足对江淮语系语音的识别，以实现更宽泛的语音识别。其构造方案如下： 0004 1、一种基于江淮语系的语音识别系统，其特征在于，它包括训练模块、建模模块和应用端模块，所述建模模块是训练模块与应用端模块连接的桥梁，它们之间按照先训练（训练模块）再建模（建模模块）最后应用（应用端模。

6、块）的顺序进行工作，上述各单元还有以下特征： 0005 （1）所述训练模块，由训练语音、语音对应的转录文本和训练工具组成，用于建立语音与文本之间的联系，为建模准备素材，训练语音由江淮语系语音和普通话语音两部分组成，它们与转录文本之间采用多对一的方式即江淮语系的发音与普通话发音对应同一个转录文本，由训练工具通过单音节绑定建模三音节绑定建模多次训练找出语音与文本的对应关系的规律。 0006 （2）所述建模模块，通过训练模块准备的素材应用隐马尔可夫模型（HMM）的工具包并配合模糊音识别技术建立准确合理的模型，所谓模糊音识别技术主要是指对江淮地区方言的一些。

7、发音进行模糊处理，示例如下： 0007 0008 （3）所述应用端模块，由语音识别器和语境二次识别器组成，所述语音识别器根据建模模块建立的模型来完成设计，用于对送入语音的首次识别，所述语境二次识别器由大量的词库组成，将首次识别后的语音根据前后文的语境进行二次识别，最后将识别的结果以文本的方式输出。 0009 本发明的有益效果： 0010 由于江淮语系识别的加入，降低了系统对江淮地区使用者输入语音普通话的要求，同时由于引入了语境二次识别器，更大大的提高了识别的准确性。附图说明说明书 CN 103839546 A 3 2/2 页 4 0011 图 1 为本。

8、发明结构示意图。 0012 图中： 1、训练模块； 2、建模模块； 3、应用端模块； 4、江淮语系训练语音； 5、普通话训练语音； 6、转录文本； 7、训练工具； 8、语音识别器； 9、语境二次识别器； 10、语音输入端； 11、文本输出端。具体实施方式 0013 参见图 1，基于江淮语系的语音识别系统，包括有语音采集单元 1、训练模块； 2、建模模块； 3 应用端模块。 0014 训练模块 1 由江淮语系训练语音 4、普通话训练语音 5、转录文本 6 和训练工具 7 组成，训练工具7即为计算机上运行的软件，而江淮语系训练语。

9、音4、普通话训练语音5和转录文本6也存储在同一台计算机上，由训练工具7同时将它们调用进行多对一训练，通过单音节绑定建模三音节绑定建模多次训练找出语音与文本的对应关系的规律，为建模模块 2 提供建模素材。 0015 建模模块2也即为计算机上运行的软件，通过对训练模块1提供素材的读取，应用隐马尔可夫模型（HMM）的工具包并配合模糊音识别技术建立准确合理的模型，用以为应用端模块 3 设计语音识别器 8。 0016 应用端模块 3 由语音识别器 8 和语境二次识别器 9 组成，语音识别器 8 为根据建模模块2提供的模型设计而成的，用于对语音进行一次识别；语境二次识别器9由大量的词库组成，通过对一次语音识别后的文档，根据前后文的意思再次进行二次识别对识别的结果进行最后确认并输出文本， 0017 需要识别的语音由语音输入端 10 输入应用端模块 3，首先由语音识别器 8 进行一次识别，结果送入语境二次识别器 9 对应前后文进行二次识别，最后由文本输出端 11 输出文本文档。说明书 CN 103839546 A 4 1/1 页 5 图 1 说明书附图 CN 103839546 A 5 。

摘要
申请专利号：	CN201410116258.8	申请日：	2014.03.26
公开号：	CN103839546A	公开日：	2014.06.04
当前法律状态：	撤回	有效性：	无权
法律详情：	发明专利申请公布后的视为撤回IPC(主分类):G10L 15/14申请公布日:20140604\|\|\|实质审查的生效IPC(主分类):G10L 15/14申请日:20140326\|\|\|公开
IPC分类号：	G10L15/14; G10L15/06(2013.01)I	主分类号：	G10L15/14
申请人：	合肥新涛信息科技有限公司
发明人：	刘亚斌; 许林冲; 陈良
地址：	233100 安徽省合肥市高新区天通路14号软件园4号楼210室
优先权：
专利代理机构：		代理人：
PDF完整版下载：	PDF下载

内容摘要

本发明公开了一种基于江淮语系的语音识别系统。本发明提供的这种基于江淮语系的语音识别系统，由训练模块、建模模块和应用端模块组成。所述训练模块通过对输入的江淮语系训练语音以及对应的语音文本进行训练，通过所述建模模块应用隐马尔可夫模型（HMM）的工具包进行建模，并利用建立好的模型来完成所述应用端模块的设计；需要转换的语音信号直接送入所述应用端模块，由应用端模块进行语音识别，并转换成文本文档。本系统在实现语音识别的基础上，更加强化了对江淮大部分地区方言的识别。

权利要求书

权利要求书
1. 一种基于江淮语系的语音识别系统，其特征在于，它包括训练模块、建模模块和应用端模块，所述建模模块是训练模块与应用端模块连接的桥梁，它们之间按照先训练（训练模块）再建模（建模模块）最后应用（应用端模块）的顺序进行工作，上述各单元还有以下特征：
（1）所述训练模块，由训练语音、语音对应的转录文本和训练工具组成，用于建立语音与文本之间的联系，为建模准备素材，训练语音与文本之间采用多对一的方式即江淮语系的发音与普通话发音对应同一个转录文本；
（2）所述建模模块，通过训练模块准备的素材应用隐马尔可夫模型（HMM）的工具包并配合模糊音识别技术建立准确合理的模型；
（3）所述应用端模块，由语音识别器和语境二次识别器组成，语音识别器根据建模模块建立的模型来完成设计，用于对送入语音的首次识别，语境二次识别器由大量的词库组成，将首次识别后的语音根据前后文的语境进行二次识别。

说明书

说明书一种基于江淮语系的语音识别系统
技术领域
基于江淮语系的语音识别系统，涉及一种语音识别技术，具体的说是将江淮语系的语音识别加入到普通的语音识别系统中去从而实现更宽泛的语音识别。
背景技术
目前我国市场上所研发的语音识别系统多是基于普通话的识别，涉及到方言的相对较少，即使涉及到方言也是粤语或者闽南语这些相对有代表性的语音。
发明内容
本发明为针对上述已有技术中存在的不足之处，提供一种基于江淮语系的语音识别系统，即在实现普通话识别的基础上同时满足对江淮语系语音的识别，以实现更宽泛的语音识别。其构造方案如下：
1、一种基于江淮语系的语音识别系统，其特征在于，它包括训练模块、建模模块和应用端模块，所述建模模块是训练模块与应用端模块连接的桥梁，它们之间按照先训练（训练模块）再建模（建模模块）最后应用（应用端模块）的顺序进行工作，上述各单元还有以下特征：
（1）所述训练模块，由训练语音、语音对应的转录文本和训练工具组成，用于建立语音与文本之间的联系，为建模准备素材，训练语音由江淮语系语音和普通话语音两部分组成，它们与转录文本之间采用多对一的方式即江淮语系的发音与普通话发音对应同一个转录文本，由训练工具通过单音节绑定→建模→三音节绑定→建模多次训练找出语音与文本的对应关系的规律。
（2）所述建模模块，通过训练模块准备的素材应用隐马尔可夫模型（HMM）的工具包并配合模糊音识别技术建立准确合理的模型，所谓模糊音识别技术主要是指对江淮地区方言的一些发音进行模糊处理，示例如下：

（3）所述应用端模块，由语音识别器和语境二次识别器组成，所述语音识别器根据建模模块建立的模型来完成设计，用于对送入语音的首次识别，所述语境二次识别器由大量的词库组成，将首次识别后的语音根据前后文的语境进行二次识别，最后将识别的结果以文本的方式输出。
本发明的有益效果：
由于江淮语系识别的加入，降低了系统对江淮地区使用者输入语音普通话的要求，同时由于引入了语境二次识别器，更大大的提高了识别的准确性。
附图说明
图1为本发明结构示意图。
图中：1、训练模块；2、建模模块；3、应用端模块；4、江淮语系训练语音；5、普通话训练语音；6、转录文本；7、训练工具；8、语音识别器；9、语境二次识别器；10、语音输入端；11、文本输出端。
具体实施方式
参见图1，基于江淮语系的语音识别系统，包括有语音采集单元1、训练模块；2、建模模块；3应用端模块。
训练模块1由江淮语系训练语音4、普通话训练语音5、转录文本6和训练工具7组成，训练工具7即为计算机上运行的软件，而江淮语系训练语音4、普通话训练语音5和转录文本6也存储在同一台计算机上，由训练工具7同时将它们调用进行多对一训练，通过单音节绑定→建模→三音节绑定→建模多次训练找出语音与文本的对应关系的规律，为建模模块2提供建模素材。
建模模块2也即为计算机上运行的软件，通过对训练模块1提供素材的读取，应用隐马尔可夫模型（HMM）的工具包并配合模糊音识别技术建立准确合理的模型，用以为应用端模块3设计语音识别器8。
应用端模块3由语音识别器8和语境二次识别器9组成，语音识别器 8为根据建模模块2提供的模型设计而成的，用于对语音进行一次识别；语境二次识别器9由大量的词库组成，通过对一次语音识别后的文档，根据前后文的意思再次进行二次识别对识别的结果进行最后确认并输出文本，
需要识别的语音由语音输入端10输入应用端模块3，首先由语音识别器8进行一次识别，结果送入语境二次识别器9对应前后文进行二次识别，最后由文本输出端11输出文本文档。