《一种基于江淮语系的语音识别系统.pdf》由会员分享,可在线阅读,更多相关《一种基于江淮语系的语音识别系统.pdf(5页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103839546 A (43)申请公布日 2014.06.04 CN 103839546 A (21)申请号 201410116258.8 (22)申请日 2014.03.26 G10L 15/14(2006.01) G10L 15/06(2013.01) (71)申请人 合肥新涛信息科技有限公司 地址 233100 安徽省合肥市高新区天通路 14 号软件园 4 号楼 210 室 (72)发明人 刘亚斌 许林冲 陈良 (54) 发明名称 一种基于江淮语系的语音识别系统 (57) 摘要 本发明公开了一种基于江淮语系的语音识别 系统。本发明提供的这种基于江淮语系的语音识。
2、 别系统, 由训练模块、 建模模块和应用端模块组 成。所述训练模块通过对输入的江淮语系训练语 音以及对应的语音文本进行训练, 通过所述建模 模块应用隐马尔可夫模型 (HMM) 的工具包进行建 模, 并利用建立好的模型来完成所述应用端模块 的设计 ; 需要转换的语音信号直接送入所述应用 端模块, 由应用端模块进行语音识别, 并转换成文 本文档。 本系统在实现语音识别的基础上, 更加强 化了对江淮大部分地区方言的识别。 (51)Int.Cl. 权利要求书 1 页 说明书 2 页 附图 1 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书1页 说明书2页 附图1页 (10)。
3、申请公布号 CN 103839546 A CN 103839546 A 1/1 页 2 1. 一种基于江淮语系的语音识别系统, 其特征在于, 它包括训练模块、 建模模块和应用 端模块, 所述建模模块是训练模块与应用端模块连接的桥梁, 它们之间按照先训练 (训练模 块) 再建模 (建模模块) 最后应用 (应用端模块) 的顺序进行工作, 上述各单元还有以下特征 : (1) 所述训练模块, 由训练语音、 语音对应的转录文本和训练工具组成, 用于建立语音 与文本之间的联系, 为建模准备素材, 训练语音与文本之间采用多对一的方式即江淮语系 的发音与普通话发音对应同一个转录文本 ; (2) 所述建模模块,。
4、 通过训练模块准备的素材应用隐马尔可夫模型 (HMM) 的工具包并配 合模糊音识别技术建立准确合理的模型 ; (3) 所述应用端模块, 由语音识别器和语境二次识别器组成, 语音识别器根据建模模块 建立的模型来完成设计, 用于对送入语音的首次识别, 语境二次识别器由大量的词库组成, 将首次识别后的语音根据前后文的语境进行二次识别。 权 利 要 求 书 CN 103839546 A 2 1/2 页 3 一种基于江淮语系的语音识别系统 技术领域 0001 基于江淮语系的语音识别系统, 涉及一种语音识别技术, 具体的说是将江淮语系 的语音识别加入到普通的语音识别系统中去从而实现更宽泛的语音识别。 背景。
5、技术 0002 目前我国市场上所研发的语音识别系统多是基于普通话的识别, 涉及到方言的相 对较少, 即使涉及到方言也是粤语或者闽南语这些相对有代表性的语音。 发明内容 0003 本发明为针对上述已有技术中存在的不足之处, 提供一种基于江淮语系的语音识 别系统, 即在实现普通话识别的基础上同时满足对江淮语系语音的识别, 以实现更宽泛的 语音识别。其构造方案如下 : 0004 1、 一种基于江淮语系的语音识别系统, 其特征在于, 它包括训练模块、 建模模块和 应用端模块, 所述建模模块是训练模块与应用端模块连接的桥梁, 它们之间按照先训练 (训 练模块) 再建模 (建模模块) 最后应用 (应用端模。
6、块) 的顺序进行工作, 上述各单元还有以下 特征 : 0005 (1) 所述训练模块, 由训练语音、 语音对应的转录文本和训练工具组成, 用于建立 语音与文本之间的联系, 为建模准备素材, 训练语音由江淮语系语音和普通话语音两部分 组成, 它们与转录文本之间采用多对一的方式即江淮语系的发音与普通话发音对应同一个 转录文本, 由训练工具通过单音节绑定建模三音节绑定建模多次训练找出语音与文 本的对应关系的规律。 0006 (2) 所述建模模块, 通过训练模块准备的素材应用隐马尔可夫模型 (HMM) 的工具包 并配合模糊音识别技术建立准确合理的模型, 所谓模糊音识别技术主要是指对江淮地区方 言的一些。
7、发音进行模糊处理, 示例如下 : 0007 0008 (3) 所述应用端模块, 由语音识别器和语境二次识别器组成, 所述语音识别器根据 建模模块建立的模型来完成设计, 用于对送入语音的首次识别, 所述语境二次识别器由大 量的词库组成, 将首次识别后的语音根据前后文的语境进行二次识别, 最后将识别的结果 以文本的方式输出。 0009 本发明的有益效果 : 0010 由于江淮语系识别的加入, 降低了系统对江淮地区使用者输入语音普通话的要 求, 同时由于引入了语境二次识别器, 更大大的提高了识别的准确性。 附图说明 说 明 书 CN 103839546 A 3 2/2 页 4 0011 图 1 为本。
8、发明结构示意图。 0012 图中 : 1、 训练模块 ; 2、 建模模块 ; 3、 应用端模块 ; 4、 江淮语系训练语音 ; 5、 普通话 训练语音 ; 6、 转录文本 ; 7、 训练工具 ; 8、 语音识别器 ; 9、 语境二次识别器 ; 10、 语音输入端 ; 11、 文本输出端。 具体实施方式 0013 参见图 1, 基于江淮语系的语音识别系统, 包括有语音采集单元 1、 训练模块 ; 2、 建 模模块 ; 3 应用端模块。 0014 训练模块 1 由江淮语系训练语音 4、 普通话训练语音 5、 转录文本 6 和训练工具 7 组成, 训练工具7即为计算机上运行的软件, 而江淮语系训练语。
9、音4、 普通话训练语音5和转 录文本6也存储在同一台计算机上, 由训练工具7同时将它们调用进行多对一训练, 通过单 音节绑定建模三音节绑定建模多次训练找出语音与文本的对应关系的规律, 为建模 模块 2 提供建模素材。 0015 建模模块2也即为计算机上运行的软件, 通过对训练模块1提供素材的读取, 应用 隐马尔可夫模型 (HMM) 的工具包并配合模糊音识别技术建立准确合理的模型, 用以为应用 端模块 3 设计语音识别器 8。 0016 应用端模块 3 由语音识别器 8 和语境二次识别器 9 组成, 语音识别器 8 为根据建 模模块2提供的模型设计而成的, 用于对语音进行一次识别 ; 语境二次识别器9由大量的词 库组成, 通过对一次语音识别后的文档, 根据前后文的意思再次进行二次识别对识别的结 果进行最后确认并输出文本, 0017 需要识别的语音由语音输入端 10 输入应用端模块 3, 首先由语音识别器 8 进行一 次识别, 结果送入语境二次识别器 9 对应前后文进行二次识别, 最后由文本输出端 11 输出 文本文档。 说 明 书 CN 103839546 A 4 1/1 页 5 图 1 说 明 书 附 图 CN 103839546 A 5 。