《一种口语考试评测的校标优化方法及系统.pdf》由会员分享,可在线阅读,更多相关《一种口语考试评测的校标优化方法及系统.pdf(18页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 (43)申请公布日 (21)申请号 201410798611.5 (22)申请日 2014.12.19 G09B 7/02(2006.01) G10L 15/26(2006.01) G06Q 50/20(2012.01) (71)申请人 科大讯飞股份有限公司 地址 230088 安徽省合肥市高新开发区望江 西路 666 号 (72)发明人 何春江 赵乾 胡阳 宋铁 (74)专利代理机构 北京维澳专利代理有限公司 11252 代理人 郭少晶 姜溯洲 (54) 发明名称 一种口语考试评测的校标优化方法及系统 (57) 摘要 本发明公开了一种口语考试评测的校标优化 方法及系统, 。
2、该方法包括从对应待校标题型的所 有语音数据中挑选部分语音数据作为定标语音数 据, 以通过定标专家进行人工标注 ; 获取人工标 注得到的定标语音数据的人工标注结果 ; 利用语 音识别系统对定标语音数据进行语音识别 ; 从定 标语音数据的语音识别结果中分别提取对应待校 标题型的评分标准的不同特征类型的评测特征 ; 结合定标语音数据的评测特征和人工标注结果, 训练优化对应待校标题型的原打分模型, 得到新 打分模型。由于利用人工标注结果优化原打分模 型, 可使新打分模型尽可能地与当前口语考试的 评分标准相吻合, 因此利用经本发明方法得到的 新打分模型进行口语考试评测可以表现出更好的 评分性能。 (51。
3、)Int.Cl. (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书3页 说明书9页 附图5页 (10)申请公布号 CN 104464423 A (43)申请公布日 2015.03.25 CN 104464423 A 1/3 页 2 1. 一种口语考试评测的校标优化方法, 其特征在于, 包括 : 接收当前口语考试的一口语考试题型, 并将所述口语考试题型作为待校标题型 ; 从对应所述待校标题型的考生作答的所有语音数据中挑选部分语音数据作为定标语 音数据, 以通过定标专家对所述定标语音数据进行人工标注 ; 获取通过所述人工标注得到的所述定标语音数据的人工标注结果 ; 利用语音识。
4、别系统对所述定标语音数据进行语音识别, 获得所述定标语音数据的语音 识别结果 ; 从所述定标语音数据的语音识别结果中分别提取对应所述待校标题型的评分标准的 不同特征类型的评测特征 ; 结合所述定标语音数据的评测特征和人工标注结果, 训练优化对应所述待校标题型的 原打分模型, 得到对应所述待校标题型的新打分模型。 2. 根据权利要求 1 所述的方法, 其特征在于, 所述方法还包括 : 利用所述定标语音数据的人工标注结果优化对应所述待校标题型的原知识库, 得到对 应所述待校标题型的新知识库 ; 所述从所述定标语音数据的语音识别结果中分别提取对应所述待校标题型的评分标 准的不同特征类型的评测特征包括。
5、 : 基于所述新知识库, 从所述定标语音数据的语音识别结果中分别提取对应所述待校标 题型的评分标准的不同特征类型的评测特征。 3. 根据权利要求 2 所述的方法, 其特征在于, 所述利用定标语音数据的人工标注结果 优化对应所述待校标题型的原知识库包括 : 利用所述定标语音数据的人工标注结果训练个性语言模型增加至所述原知识库中, 从 所述定标语音数据的人工标注结果中提取答题要点增加至所述原知识库中, 及在所述定标 语音数据的人工标注结果中挑选人工评分高于设定分数的人工转写数据作为参考答案增 加至所述原知识库中的至少一种。 4. 根据权利要求 1、 2 或 3 所述的方法, 其特征在于, 所述方法。
6、还包括 : 从对应所述待校标题型的考生作答的所有语音数据中至少挑选部分语音数据作为基 础语音数据 ; 利用所述基础语音数据, 对原语音识别系统中的声学模型和语言模型中的至少一种进 行训练优化, 得到新语音识别系统 ; 所述利用语音识别系统对所述定标语音数据进行语音识别包括 : 利用新语音识别系统对所述定标语音数据进行语音识别。 5. 根据权利要求 4 所述的方法, 其特征在于, 所述利用所述基础语音数据, 对原语音识 别系统的声学模型进行训练优化包括 : 利用所述原语音识别系统对所述基础语音数据进行语音识别, 获得所述基础语音数据 的语音识别结果 ; 提取所述基础语音数据的语音识别结果的数据特。
7、征 ; 挑选数据特征满足设定要求的基础语音数据的语音识别结果作为合格的语料 ; 利用所述合格的语料对原语音识别系统的声学模型进行训练优化。 6. 根据权利要求 4 所述的方法, 其特征在于, 所述利用所述基础语音数据, 对原语音识 权 利 要 求 书 CN 104464423 A 2 2/3 页 3 别系统的语言模型进行训练优化包括 : 从所述基础语音数据中挑选包含所述待校标题型的答题要点的语句, 作为基础语句 ; 利用所述基础语句对原语音识别系统的语言模型进行训练优化。 7. 一种口语考试评测的校标优化系统, 其特征在于, 包括 : 考试题型输入模块, 用于接收当前口语考试的一口语考试题型,。
8、 并将所述口语考试题 型作为待校标题型 ; 定标语音数据挑选模块, 用于从对应所述待校标题型的考生作答的所有语音数据中挑 选部分语音数据作为定标语音数据, 以通过定标专家对所述定标语音数据进行人工标注 ; 定标结果获取模块, 用于获取通过所述人工标注得到的所述定标语音数据的人工标注 结果 ; 识别结果获取模块, 用于利用语音识别系统对所述定标语音数据进行语音识别, 获得 所述定标语音数据的语音识别结果 ; 特征提取模块, 用于从所述定标语音数据的语音识别结果中分别提取对应所述待校标 题型的评分标准的不同特征类型的评测特征 ; 以及, 打分模型优化模块, 用于结合所述定标语音数据的评测特征和人工。
9、标注结果, 训练优 化对应所述待校标题型的原打分模型, 得到对应所述待校标题型的新打分模型。 8. 根据权利要求 7 所述的系统, 其特征在于, 所述系统还包括 : 知识库优化模块, 用于利用所述定标语音数据的人工标注结果优化对应所述待校标题 型的原知识库, 得到对应所述待校标题型的新知识库 ; 所述特征提取模块具体用于基于所述新知识库, 从所述定标语音数据的语音识别结果 中分别提取对应所述待校标题型的评分标准的不同特征类型的评测特征。 9. 根据权利要求 8 所述的系统, 其特征在于, 所述知识库优化模块具体用于通过利用 所述定标语音数据的人工标注结果训练个性语言模型增加至所述原知识库中, 。
10、从所述定标 语音数据的人工标注结果中提取答题要点增加至所述原知识库中, 及在所述定标语音数据 的人工标注结果中挑选人工评分高于设定分数的人工转写数据作为参考答案增加至所述 原知识库中的至少一种方式, 得到对应所述待校标题型的新知识库。 10. 根据权利要求 7、 8 或 9 所述的系统, 其特征在于, 所述系统还包括 : 基础语音数据挑选模块, 用于从对应所述待校标题型的考生作答的所有语音数据中至 少挑选部分语音数据作为基础语音数据 ; 语音识别系统优化模块, 用于利用所述基础语音数据, 对原语音识别系统中的声学模 型和语言模型中的至少一种进行训练优化, 得到新语音识别系统 ; 所述识别结果获。
11、取模块具体用于利用新语音识别系统对所述定标语音数据进行语音 识别。 11. 根据权利要求 10 所述的系统, 其特征在于, 所述语音识别系统优化模块包括声学 模型优化单元 ; 所述声学模型优化单元用于利用所述原语音识别系统对所述基础语音数据进行语音 识别, 获得所述基础语音数据的语音识别结果 ; 用于提取所述基础语音数据的语音识别结 果的数据特征 ; 用于挑选数据特征满足设定要求的基础语音数据的语音识别结果作为合格 的语料 ; 及用于利用所述合格的语料对原语音识别系统的声学模型进行训练优化。 权 利 要 求 书 CN 104464423 A 3 3/3 页 4 12. 根据权利要求 10 所述。
12、的系统, 其特征在于, 所述语音识别系统优化模块包括语言 模型优化单元 ; 所述语言模型优化单元用于从所述基础语音数据中挑选包含所述待校标题型的答题 要点的语句, 作为基础语句 ; 及用于利用所述基础语句对原语音识别系统的语言模型进行 训练优化。 权 利 要 求 书 CN 104464423 A 4 1/9 页 5 一种口语考试评测的校标优化方法及系统 技术领域 0001 本发明涉及语音信号处理技术领域, 尤其涉及一种口语考试校标优化方法及系 统。 背景技术 0002 随着语音识别技术的发展和日益成熟, 涉及语音技术、 自然语言理解、 人工智能、 数据挖掘、 机器学习等多学科知识的智能语音评测。
13、技术在计算机辅助教学、 口语考试自动 评分、 个人语言发音学习等应用场景中得到了广泛的应用。特别是在各类语言的大规模口 语考试中, 为了降低考试成本, 提高考试评分效率, 降低不同评分员间的主观差异性, 确保 考试的公平性, 智能语音评测技术发挥了重大作用, 并逐步代替人工进行口语评测, 例如, 在全国的普通话水平测试, 江苏中考英语口语考试, 广东高考英语口语考试中均使用智能 语音评测技术代替人工进行过大规模的自动评分。 0003 现有的口语考试评测方法是基于通用的语音识别系统识别出考生作答的语音数 据的内容, 并基于通用的知识库和打分模型, 针对识别出的内容给出相应的评测结果, 如图 1 。
14、所示, 具体包括如下步骤 : 0004 步骤 1 : 接收考生作答的语音数据和对应的考试试卷。 0005 步骤 2 : 利用通用的语音识别系统获取语音数据中各基本语音单元对应的语音识 别结果, 该语音识别系统具体是由解码器在声学模型和语言模型的基础上利用步骤 1 输入 的考试试卷生成更适合本题型的状态网络空间, 解码出以最大概率输出该语音数据的语音 识别结果。 。 0006 步骤 3 : 对于例如是朗读题型等参考答案唯一的口语考试题型, 直接从语音识别 结果中分别提取对应发音准确性、 流利性、 完整性、 语法、 语义等与评分标准相关的不同特 征类型的评测特征 ; 而对于例如是问答题等参考答案不。
15、唯一的口语考试题型, 基于例如是 包括答题要点、 参考答案等在内的知识库, 从语音识别结果中分别提取对应发音准确性、 流 利性、 完整性、 语法、 语义等与评分标准相关的不同特征类型的评测特征。 0007 步骤 4 : 使用预先训练好的通用的打分模型与步骤 3 提取到的不同特征类型的评 测特征相运算, 通过设定的线性或者非线性的机器学习算法映射出对应的分数。 0008 由此可见, 基于口语考试评测技术的评分准确性取决于语言识别系统的识别性能 及打分模型与评分标准的匹配度, 对于需要知识库参与的评测, 还取决于知识库对当前口 语考试的试题内容的覆盖度。 对于大规模考试而言, 因地域差异存在发音人。
16、声音特性、 麦克 风等机器, 录音环境等方面的差异, 及不同考题试卷、 各类题型的评分标准差异和学校、 教 育机构的主观评分差异, 所以, 现有的采用通用打分模型和知识库的口语考试评测方法, 很 难在不同地域的口语考试中达到最优的打分效果, 只有在训练声学模型的语音数据与考生 作答的麦克风声道情况、 环境噪声情况等一致, 且语言模型能够囊括所有考试试题的语言 信息时, 语音识别系统才能表现出很好的识别性能, 同时只有打分模型完全符合考试的评 分标准时, 评分的准确性才能得到保障。 但是实际应用中, 录音环境、 试题内容、 评分标准都 说 明 书 CN 104464423 A 5 2/9 页 6。
17、 是不可控制的, 例如, 针对英语口语考试, 相对城乡的考生, 大城市的大部分考生的发音特 性更加接近标准英文发音, 而且相对城乡的考场配置, 大城市的考场所配置的麦克风等机 器设备更加先进, 性能更好 ; 另外, 大城市所制定的考题、 评分标准与城乡英语口语考试间 通常也存在较大差异, 这使得通用的打分模型和知识库很难在不同区域、 不同试卷的口语 考试中均表现出较好的评分性能。 0009 基于以上说明可知, 现有口语考试评测方法存在通用性差的缺点, 具体表现为以 下几个方面 : 0010 1、 考生发音特性、 录音设备声道、 环境噪声程度与声学模型训练时不一致时, 语音 识别系统语音适应性很。
18、差, 语音解码器效果差 ; 0011 2、 当语言模型中的语言信息不能覆盖或侧重与当前口语考试的试题内容时, 识别 系统的识别性能差 ; 0012 3、 在知识库不能覆盖试题内容、 考点, 打分模型不能与当前口语考试的评分标准 相吻合时, 将表现出很差的评分性能。 发明内容 0013 本发明的实施例针对现有口语考试评测方法存在通用打分模型不能与当前口语 考试的评分标准相吻合时, 会表现出很差的评分性能的问题, 提出一种基于人工定标的口 语考试评测的校标优化方法及系统。 0014 为实现上述目的, 本发明采用的技术方案为 : 一种口语考试评测的校标优化方法, 包括 : 0015 接收当前口语考试。
19、的一口语考试题型, 并将所述口语考试题型作为待校标题型 ; 0016 从对应所述待校标题型的考生作答的所有语音数据中挑选部分语音数据作为定 标语音数据, 以通过定标专家对所述定标语音数据进行人工标注 ; 0017 获取通过所述人工标注得到的所述定标语音数据的人工标注结果 ; 0018 利用语音识别系统对所述定标语音数据进行语音识别, 获得所述定标语音数据的 语音识别结果 ; 0019 从所述定标语音数据的语音识别结果中分别提取对应所述待校标题型的评分标 准的不同特征类型的评测特征 ; 0020 结合所述定标语音数据的评测特征和人工标注结果, 训练优化对应所述待校标题 型的原打分模型, 得到对应。
20、所述待校标题型的新打分模型。 0021 优选的是, 所述方法还包括 : 0022 利用所述定标语音数据的人工标注结果优化对应所述待校标题型的原知识库, 得 到对应所述待校标题型的新知识库 ; 0023 所述从所述定标语音数据的语音识别结果中分别提取对应所述待校标题型的评 分标准的不同特征类型的评测特征包括 : 0024 基于所述新知识库, 从所述定标语音数据的语音识别结果中分别提取对应所述待 校标题型的评分标准的不同特征类型的评测特征。 0025 优选的是, 所述利用定标语音数据的人工标注结果优化对应所述待校标题型的原 知识库包括 : 说 明 书 CN 104464423 A 6 3/9 页 。
21、7 0026 利用所述定标语音数据的人工标注结果训练个性语言模型增加至所述原知识库 中, 从所述定标语音数据的人工标注结果中提取答题要点增加至所述原知识库中, 及在所 述定标语音数据的人工标注结果中挑选人工评分高于设定分数的人工转写数据作为参考 答案增加至所述原知识库中的至少一种。 0027 优选的是, 所述方法还包括 : 0028 从对应所述待校标题型的考生作答的所有语音数据中至少挑选部分语音数据作 为基础语音数据 ; 0029 利用所述基础语音数据, 对原语音识别系统中的声学模型和语言模型中的至少一 种进行训练优化, 得到新语音识别系统 ; 0030 所述利用语音识别系统对所述定标语音数据。
22、进行语音识别包括 : 0031 利用新语音识别系统对所述定标语音数据进行语音识别。 0032 优选的是, 所述利用所述基础语音数据, 对原语音识别系统的声学模型进行训练 优化包括 : 0033 利用所述原语音识别系统对所述基础语音数据进行语音识别, 获得所述基础语音 数据的语音识别结果 ; 0034 提取所述基础语音数据的语音识别结果的数据特征 ; 0035 挑选数据特征满足设定要求的基础语音数据的语音识别结果作为合格的语料 ; 0036 利用所述合格的语料对原语音识别系统的声学模型进行训练优化。 0037 优选的是, 所述利用所述基础语音数据, 对原语音识别系统的语言模型进行训练 优化包括 。
23、: 0038 从所述基础语音数据中挑选包含所述待校标题型的答题要点的语句, 作为基础语 句 ; 0039 利用所述基础语句对原语音识别系统的语言模型进行训练优化。 0040 为了实现上述目的, 本发明采用的技术方案为 : 一种口语考试评测的校标优化系 统, 包括 : 0041 考试题型输入模块, 用于接收当前口语考试的一口语考试题型, 并将所述口语考 试题型作为待校标题型 ; 0042 定标语音数据挑选模块, 用于从对应所述待校标题型的考生作答的所有语音数据 中挑选部分语音数据作为定标语音数据, 以通过定标专家对所述定标语音数据进行人工标 注 ; 0043 定标结果获取模块, 用于获取通过所述。
24、人工标注得到的所述定标语音数据的人工 标注结果 ; 0044 识别结果获取模块, 用于利用语音识别系统对所述定标语音数据进行语音识别, 获得所述定标语音数据的语音识别结果 ; 0045 特征提取模块, 用于从所述定标语音数据的语音识别结果中分别提取对应所述待 校标题型的评分标准的不同特征类型的评测特征 ; 以及, 0046 打分模型优化模块, 用于结合所述定标语音数据的评测特征和人工标注结果, 训 练优化对应所述待校标题型的原打分模型, 得到对应所述待校标题型的新打分模型。 0047 优选的是, 所述系统还包括 : 说 明 书 CN 104464423 A 7 4/9 页 8 0048 知识库。
25、优化模块, 用于利用所述定标语音数据的人工标注结果优化对应所述待校 标题型的原知识库, 得到对应所述待校标题型的新知识库 ; 0049 所述特征提取模块具体用于基于所述新知识库, 从所述定标语音数据的语音识别 结果中分别提取对应所述待校标题型的评分标准的不同特征类型的评测特征。 0050 优选的是, 所述知识库优化模块具体用于通过利用所述定标语音数据的人工标注 结果训练个性语言模型增加至所述原知识库中, 从所述定标语音数据的人工标注结果中提 取答题要点增加至所述原知识库中, 及在所述定标语音数据的人工标注结果中挑选人工评 分高于设定分数的人工转写数据作为参考答案增加至所述原知识库中的至少一种方。
26、式, 得 到对应所述待校标题型的新知识库。 0051 优选的是, 所述系统还包括 : 0052 基础语音数据挑选模块, 用于从对应所述待校标题型的考生作答的所有语音数据 中至少挑选部分语音数据作为基础语音数据 ; 0053 语音识别系统优化模块, 用于利用所述基础语音数据, 对原语音识别系统中的声 学模型和语言模型中的至少一种进行训练优化, 得到新语音识别系统 ; 0054 所述识别结果获取模块具体用于利用新语音识别系统对所述定标语音数据进行 语音识别。 0055 优选的是, 所述语音识别系统优化模块包括声学模型优化单元 ; 0056 所述声学模型优化单元用于利用所述原语音识别系统对所述基础语。
27、音数据进行 语音识别, 获得所述基础语音数据的语音识别结果 ; 用于提取所述基础语音数据的语音识 别结果的数据特征 ; 用于挑选数据特征满足设定要求的基础语音数据的语音识别结果作为 合格的语料 ; 及用于利用所述合格的语料对原语音识别系统的声学模型进行训练优化。 0057 优选的是, 所述语音识别系统优化模块包括语言模型优化单元 ; 0058 所述语言模型优化单元用于从所述基础语音数据中挑选包含所述待校标题型的 答题要点的语句, 作为基础语句 ; 及用于利用所述基础语句对原语音识别系统的语言模型 进行训练优化。 0059 本发明的有益效果在于, 本发明的口语考试评测的校标优化方法及系统的实施例。
28、 通过从对应待校标题型的考生作答的所有语音数据中挑选部分语音数据由定标专家进行 人工标注, 并利用人工标注结果优化对应待校标题型的原打分模型的步骤, 可使新打分模 型能够尽可能地与当前口语考试的评分标准相吻合, 进而在利用优化后的新打分模型进行 当前口语考试评测时可以表现出更好的评分性能。 附图说明 0060 图 1 为口语考试评测方法的实施方式的流程图 ; 0061 图 2 为根据本发明口语考试评测的校标优化方法的一种实施方式的流程图 ; 0062 图 3 为根据本发明口语考试评测的校标优化方法的另一种实施方式的流程图 ; 0063 图 4 为根据本发明口语考试评测的校标优化系统的一种实施结。
29、构的方框原理图 ; 0064 图 5 为根据本发明口语考试评测的校标优化系统的另一种实施结构的方框原理 图。 说 明 书 CN 104464423 A 8 5/9 页 9 具体实施方式 0065 下面详细描述本发明的实施例, 所述实施例的示例在附图中示出, 其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。 下面通过参考附 图描述的实施例是示例性的, 仅用于解释本发明, 而不能解释为对本发明的限制。 0066 本发明为了解决现有口语考试评测方法存在的通用打分模型不能与当前口语考 试的评分标准相吻合时, 会表现出很差的评分性能的问题, 提供一种口语考试评测的校标 优化。
30、方法, 该方法如图 2 所示包括如下步骤 : 0067 步骤 S1 : 接收当前口语考试的一口语考试题型, 并将该口语考试题型作为待校标 题型。 0068 由于本发明方法所要解决的是通用知识库和通用打分模型在录音环境、 试题内 容、 评分标准等有差异的不同地域的口语考试中表现出不同评分性能的技术问题, 所以此 处的当前口语考试应理解为是在根据录音环境、 试题内容、 评分标准等实际情况确定的、 适 于采用同一套打分模型进行口语考试评测的地域进行的口语考试。 0069 步骤 S2 : 从对应待校标题型的考生作答的所有语音数据中挑选部分语音数据作 为定标语音数据, 以通过定标专家对定标语音数据进行人。
31、工标注, 这里是将挑选出的每个 语音数据均作为一个独立的定标语音数据, 例如从对应待校标题型的考生作答的所有语音 数据中按男女等比例随机挑选预定百分比 ( 例如 2 5 ) 的语音数据作为定标语音数 据。 0070 该人工标注例如包括人工转写数据, 根据当前口语考试的评分标准进行的人工评 分, 句、 词、 音标发音正确性标注, 口语偏题程度标注, 语音录制质量标注, 答题内容人工扩 充等等, 这里的 “考生” 指参加上述当前口语考试的考生。 0071 步骤 S3 : 获取通过定标专家的人工标注得到的定标语音数据的人工标注结果。 0072 步骤 S4 : 利用语音识别系统对定标语音数据进行语音识。
32、别, 得到定标语音数据的 语音识别结果。 0073 该语音识别结果例如包括定标语音数据各基本语音单元对应的语音片段 ( 语音 边界 )、 语音内容、 识别置信度等, 而该基本语音单元可以是音节、 音素等。 0074 语音识别系统的解码器将基于声学模型和语言模型对定标语音数据进行解 码, 以得到定标语音数据的语音识别结果, 该声学模型例如是基于 MFCC(Mel-Frequency Cepstrum Coeffi cients, 美 尔 倒 谱 系 数 ) 特 征 的 声 学 模 型, 基 于 PLP(Perceptual Linear Predictive, 感知线性预测 ) 特征的声学模型,。
33、 基于 HMM-GMM(Hidden Markov Model-Gaussian Mixture Model, 隐马尔可夫模型 - 高斯混合模型 ) 的声学模型, 或基于 DBN(Deep Belief Network, 深度信念网络 ) 的神经网络声学模型等 ; 解码方式例如采用 Viterbi 搜索, A* 搜索等对定标语音数据进行解码。 0075 具体地, 对于问答题等没有文本标注的定标语音数据可以通过连续语音识别获取 定标语音数据对应的文本即基本语音单元序列, 以及各基本语音单元所对应的语音识别结 果。 而对于朗读题等具有标准答案的定标语音数据则采用语音对齐方式获得各基本语音单 元所对。
34、应的语音片断的时间边界。 0076 步骤 S5 : 从定标语音数据的语音识别结果中分别提取对应待校标题型的评分标 准的不同特征类型的评测特征。对于例如是问答题等参考答案不唯一的口语考试题型, 该 说 明 书 CN 104464423 A 9 6/9 页 10 步骤具体为基于知识库, 从定标语音数据的语音识别结果中分别提取对应待校标题型的评 分标准的不同特征类型的评测特征。 上述特征类型根据评分标准例如可包括以下一种或多 种 : 完整性特征、 发音准确性特征、 流利性特征、 韵律特征、 语法、 语义等, 其中 : 0077 该完整性特征用于描述语音片断序列对应的基本语音单元序列相应于答案网络 的。
35、文本完整度。 在本发明实施例中, 可以通过将基本语音单元序列与答案网络进行匹配, 获 得最优路径, 将最优路径和基本语音单元序列的匹配度作为完整性特征。 0078 需要说明的是, 针对不同的题型, 答案网络的形式可以不同, 比如, 对朗读题型, 其 参考答案为题面字词序列, 而对于问答题等半开放题型, 其参考答案往往由确定的答题要 点及其它辅助性连接字词构成。 此外由于答案的不确定性, 其表达形式往往较多, 相应的答 案网络通常由多个参考答案构成, 表现为多个答案句式或网格形式的参考答案。 0079 当然, 在参考答案不唯一时, 还可以根据各参考答案的出现概率构建一个带权重 的答案网络, 并选。
36、择相应的加权匹配率计算最优路径和基本语音单元序列的匹配度, 将对 应各基本语音单元的匹配度作为完整性特征。 0080 更进一步地, 在半开放题型的答案网络中, 答案中确定的答题要点对答案正确与 否描述的重要性要远高于其他连接性字词, 为了突显答题要点对答案完整度的重要性, 可 以分别对答题要点以及连接字词设置不同数值的权重, 在带权重的答案网络中搜索基本语 音单元序列的最优路径, 并将最优路径的累计得分作为匹配度。 0081 该发音准确性特征用于描述各语音片断的发音标准度。具体地, 可以分别计算各 语音片断的声学特征相应于答案网络的相似度, 将所述相似度作为发音准确性特征。 0082 该流利性。
37、特征用于描述考生语句表述的通顺性, 包括但不限于语句平均语速 ( 如 语音时长和语音单元个数的比例等)、 语句平均语流长度、 语句有效停顿比例等。 此外, 为了 补偿不同发音人在语速上的差异, 还可以采用音素段特征, 对所有发音部分进行归一化后 共同组成流利性特征。 具体地, 可以通过统计上下文无关音素的时长离散概率分布, 计算归 一化后时长评分的对数概率, 得到音素的段长评分。 0083 该韵律特征用于描述考生发音的韵律特点, 包括基频变化起伏等特征。 具体地, 可 以提取各语音片断的基频特征序列, 也可以随后进一步获取其动态变化特征, 如提取一阶 差分、 二阶差分等作为补充韵律特征。 00。
38、84 该语法特征用于描述基本语音单元序列相应于语法网络的语法准确度。 0085 该语义特征用于描述基本语音单元序列相应于语义网络的语义准确度。 0086 步骤 S6 : 结合各定标语音数据的评测特征和人工标注结果, 训练优化对应待校标 题型的原打分模型, 得到对应待校标题型的新打分模型, 以使新打分模型根据定标语音数 据的评测特征给出的最终评分尽可能地接近对应定标语音数据的人工评分。这样, 新打分 模型将相对原打分模型将能够更多地与对应待校标题型的评分标准相吻合, 进而会表现出 更好的评分性能。 0087 此处参与打分模型的训练优化的人工标注结果主要包括人工评分。 0088 由于当前口语考试的。
39、考生作答的语音数据及定标专家反映了当前口语考试的录 音环境、 试题内容、 评分标准等实际情况, 因此, 从对应待校标题型的考生作答的所有语音 数据中挑选部分语音数据由定标专家进行人工标注, 并利用人工标注结果对对应待校标题 型的原打分模型进行优化, 可使优化后的新打分模型能够尽可能地与当前口语考试的评分 说 明 书 CN 104464423 A 10 7/9 页 11 标准相吻合。进而, 若利用优化后的新打分模型按照如图 1 所示的方法进行口语考试评测 将会得到更加符合当前口语考试的录音环境、 试题内容、 评分标准等实际情况的评分结果。 0089 本领域技术人员可以明确的是, 上述对原打分模型。
40、进行优化的实施例, 既使对于 例如是问答题等参考答案不唯一的口语考试题型, 也可以相对现有口语考试评测方法获得 更好的评分性能。 在此, 为了进一步提高对于该类口语考试题型的口语考试评测准确性, 如 图 3 所示, 本发明的方法还可进一步包括如下步骤 : 0090 步骤 S4a : 利用定标语音数据的人工标注结果优化对应待校标题型的原知识库, 得到对应待校标题型的新知识库。 0091 在此基础上, 上述步骤 S5 具体为 : 基于新知识库, 从定标语音数据的语音识别结 果中分别提取对应待校标题型的评分标准的不同特征类型的评测特征。 0092 此处参与原知识库优化的人工标注结果主要包括人工转写数。
41、据, 句、 词、 音标发音 正确性标注, 口语偏题程度标注, 语音录制质量标注, 答题内容人工扩充等等, 特别是人工 标注结果的人工转写数据。 0093 该新知识库例如包括答案网络、 语法网络、 语义网络、 偏题分类模型、 主题与关键 词关系模型、 词语搭配规则树等等。 0094 由于定标语音数据的人工标注结果包含对应待校标题型的答题要点, 所以利用该 定标语音数据的人工标注结果优化得到的新知识库将相对原知识库将能够更多地覆盖对 应待校标题型的试题内容、 考点。 0095 在此基础上, 利用定标语音数据的人工标注结果优化对应待校标题型的原知识 库, 得到对应待校标题型的新知识库可包括 : 利用。
42、所述定标语音数据的人工标注结果训练 个性语言模型增加至所述原知识库中, 从所述定标语音数据的人工标注结果中提取答题要 点增加至所述原知识库中, 及将人工标注结果中人工评分高于设定分数的人工转写数据作 为参考答案增加至所述原知识库中的至少一种。 0096 从定标语音数据的人工标注结果中自动提取答题要点的方法可以为 : 依据人工评 分从高到低等分值对定标语音数据划分 N( 自然数 ) 个子集, 对每个子集中的单词、 词组或 搭配计算出现频率, 按频率高的优先策略抽取各子集中例如是 20的设定百分比的词、 词 组或搭配及对应的词频形成一个数据模型作为新知识库的一部分。 0097 由于上述步骤 S4 。
43、中需要利用语音识别系统对定标语音数据进行语音识别, 因此, 语音识别系统对于定标语音数据的识别性能也将一定程度地影响评测特征提取的准确性。 为了使该语音识别系统能够与当前口语考试的录音环境、 考生的发音特性等相适应, 本发 明的方法还可以包括对语音识别系统进行优化的步骤, 具体包括 : 0098 步骤 S8 : 从对应待校标题型的考生作答的所有语音数据中至少挑选部分语音数 据作为基础语音数据, 例如从对应待校标题型的考生作答的所有语音数据中按男女等比例 随机挑选预定百分比 ( 例如 5 15 ) 的语音数据作为基础语音数据, 在进行语音识别 系统优化的实施例中, 也可选择从基础语音数据中挑选定。
44、标语音数据, 例如从基础语音数 据中按照男女等比例挑选预定份数的基础语音数据作为定标语音数据。 0099 步骤 S9 : 利用基础语音数据, 对原语音识别系统中的声学模型和语言模型中的至 少一种进行训练优化, 得到新语音识别系统。 在此应该理解的是, 训练优化的目标应该为使 新语音识别系统对于对应待校标题型的考生作答的语音数据表现出优于原语音识别系统 说 明 书 CN 104464423 A 11 8/9 页 12 的识别性能, 该识别性能评价指标例如是音素置信度平均值。 0100 这里可以从对应待校标题型的考生作答的除基础语音数据外的所有语音数据中, 挑选预定份数或者预定百分比的语音数据作为。
45、基础验证语音数据 ; 利用原语音识别系统对 基础验证语音数据进行语音识别, 并将识别性能评价指标满足设定条件 ( 例如音素置信度 平均值大于 80 ) 的基础验证语音数据作为最终验证语音数据 ; 利用新语音识别系统对最 终验证语音数据进行语音识别, 如果解码出的所有最终验证语音数据的识别性能评价指标 均高于原语音识别系统解码出的对应最终验证语音数据的识别性能评价指标, 则说明新语 音识别系统对于对应待校标题型的考生作答的语音数据表现出优于原语音识别系统的识 别性能, 则训练优化结束, 否则继续进行训练优化。 0101 在利用基础语音数据对原语音识别系统进行训练优化的实施例中, 上述步骤 S4 。
46、中利用语音识别系统对所述定标语音数据进行语音识别可为 : 利用新语音识别系统对定标 语音数据进行语音识别。 0102 上述步骤 S9 中, 利用基础语音数据, 对原语音识别系统的声学模型进行训练优化 可进一步包括 : 0103 步骤 S91 : 利用原语音识别系统对基础语音数据进行语音识别, 获得基础语音数 据的语音识别结果。 0104 步骤 S92 : 提取基础语音数据的语音识别结果的数据特征。 0105 步骤 S93 : 挑选数据特征满足设定要求的基础语音数据的语音识别结果作为合格 的语料, 例如挑选音素置信度平均值大于 80的基础语音数据的语音识别结果作为合格的 语料。 0106 步骤S。
47、94 : 利用合格的语料, 例如基于最大后验概率(MAP, Maximum a Posteriori) 自适应算法对原语音识别系统的声学模型进行训练优化。 0107 上述步骤 S9 中, 利用基础语音数据, 对原语音识别系统的语言模型进行训练优化 可进一步包括 : 0108 步骤 S95 : 从基础语音数据中挑选包含所述待校标题型的答题要点的语句, 作为 基础语句, 该答题要点的提取可以参见步骤 S4 中的说明。 0109 步骤 S96 : 利用基础语句对原语音识别系统的语言模型进行训练优化。 0110 对语言模型进行训练优化的方法例如为 : 利用基础语句训练个性化语言模型, 并 将个性化语言。
48、模型与原语言模型以一定的权重 ( 例如以 0.4 和 0.6 的系数比 ) 进行插值混 合形成新语言模型。 0111 与上述口语考试评测的校标优化方法相对应, 如图 4 所示, 本发明的口语考试评 测的校标优化系统包括考试题型输入模块 1、 定标语音数据挑选模块 2、 定标结果获取模块 3、 识别结果获取模块 5、 特征提取模块 6 和打分模型优化模块 7。该考试题型提取模块 1 用 于接收当前口语考试的一口语考试题型, 并将该口语考试题型作为待校标题型 ; 该定标语 音数据挑选模块 2 用于从对应所述待校标题型的考生作答的所有语音数据中挑选部分语 音数据作为定标语音数据, 以通过定标专家对所。
49、述定标语音数据进行人工标注 ; 该定标结 果获取模块 3 用于获取通过所述人工标注得到的所述定标语音数据的人工标注结果 ; 该识 别结果获取模块 5 用于利用语音识别系统对所述定标语音数据进行语音识别, 获得所述定 标语音数据的语音识别结果 ; 该特征提取模块 6 用于从所述定标语音数据的语音识别结果 说 明 书 CN 104464423 A 12 9/9 页 13 中分别提取对应所述待校标题型的评分标准的不同特征类型的评测特征 ; 该打分模型优化 模块 7 用于结合所述定标语音数据的评测特征和人工评分, 训练优化对应所述待校标题型 的原打分模型, 得到对应所述待校标题型的新打分模型。 0112 进一步地, 如图 5 所示, 本发明的系统还可以包括知识库优化模块 4, 该知识库优 化模块 4 用于利用所有定标语。