基于国学经典学习的韵律自动评价系统.pdf

上传人:刘** 文档编号:11494875 上传时间:2021-09-30 格式:PDF 页数:19 大小:726.63KB
收藏 版权申诉 举报 下载
基于国学经典学习的韵律自动评价系统.pdf_第1页
第1页 / 共19页
基于国学经典学习的韵律自动评价系统.pdf_第2页
第2页 / 共19页
基于国学经典学习的韵律自动评价系统.pdf_第3页
第3页 / 共19页
文档描述:

《基于国学经典学习的韵律自动评价系统.pdf》由会员分享,可在线阅读,更多相关《基于国学经典学习的韵律自动评价系统.pdf(19页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910247547.4 (22)申请日 2019.03.29 (71)申请人 语文出版社有限公司 地址 100005 北京市东城区朝阳门内南小 街51号 (72)发明人 姜云峰 (74)专利代理机构 厦门福贝知识产权代理事务 所(普通合伙) 35235 代理人 郝学江 (51)Int.Cl. G10L 25/51(2013.01) G10L 15/02(2006.01) G10L 15/06(2013.01) G09B 7/02(2006.01) (54)发明名称 一种基于。

2、国学经典学习的韵律自动评价系 统 (57)摘要 本发明公开了一种基于国学经典学习的韵 律自动评价系统, 包括标准发音库构建模块, 语 音识别声学模型训练模块, 语音数据采集模块, 语音特征提取模块, 发音准确性检测模块, 音素 边界切分模块, 韵律准确性检测模块以及综合评 价模块。 本发明中, 不仅对发音的准确性进行评 价, 还对发音的韵律准确性(包括基频、 时长、 停 顿等信息)进行评价。 这样的系统能够更加对国 学经典的这种抑扬顿挫进行更好、 更客观、 更全 面、 更准确的评价; 本发明中, 语音特征提取模 块, 其中在基频的提取中, 增加了半倍频检测和 平滑处理模块, 大大减少了基频提取。

3、中普遍存在 的半倍频和不平滑的现象, 使得提取得到的基频 轨迹更加光滑, 更能反映学习者的基频走势。 权利要求书3页 说明书10页 附图5页 CN 110085257 A 2019.08.02 CN 110085257 A 1.一种基于国学经典学习的韵律自动评价系统, 包括标准发音库构建模块, 语音识别 声学模型训练模块, 语音数据采集模块, 语音特征提取模块, 发音准确性检测模块, 音素边 界切分模块, 韵律准确性检测模块以及综合评价模块; 所述标准发音库构建模块, 用于对标准发音人所朗读的国学经典音频进行处理, 抽取 发音自动评价所需的语音参数特征, 由此构建国学经典学习的标准发音库; 所。

4、述语音识别声学模型训练模块, 与标准发音库构建模块相连, 利用标准音库中的语 音数据进行语音识别声学模型的训练; 所述语音数据采集模块, 用于采集学习者的语音数据; 所述语音特征提取模块, 与语音数据采集模块相连, 用于从所接收到的学习者的语音 数据中提取用于发音准确性检测和韵律准确性检测的语音特征参数, 包括用于音素边界切 分和发音准确性判断的MFCC参数, 以及用于韵律准确性检测的基频参数; 所述发音准确性检测模块, 与语音特征提取模块、 语音识别声学模型训练模块和标准 发音库构建模块相连, 利用训练好的基于国学经典学习的所述语音识别声学模型引擎对所 述语音特征提取模块提取得到的语音特征进。

5、行音素的自动识别, 并与所述标准发音库中的 音素序列进行对比, 得到最终音素错误信息; 所述音素边界切分模块, 与语音特征提取模块和语音识别声学模型训练模块相连, 利 用训练好的基于国学经典学习的所述语音识别声学模型引擎对所述语音特征提取模块提 取得到的语音特征进行音素边界的切分, 给出每个音素对应的时间边界信息; 所述韵律准确性检测模块, 与语音特征提取模块、 音素边界切分模块和标准发音库构 建模块相连, 利用所述语音特征提取模块提取得到的语音参数和所述音素边界切分模块切 分得到的音素序列及其时间边界信息, 并与所述标准发音库中存储的标准发音人的韵律参 数评价, 并给出最终韵律上上的错误信息。

6、; 所述综合评价模块, 与发音准确性检测模块和韵律准确性检测模块相连, 用于结合发 音准确性检测模块和韵律准确性检测模块给出的错误提示, 反馈给学习者具体哪些地方存 在发音问题, 并综合发音的准确性和韵律的准备性, 并给出最终的发音质量的打分结果。 2.根据权利要求1所述的一种基于国学经典学习的韵律自动评价系统, 其特征在于: 所 述标准发音库构建模块包括: 标准发音人语音数据获取及预处理模块和标准发音人语音参 数特征提取模块, 标准发音人语音数据获取及预处理模块, 用于对标准发音人的诵读国学经典的语音数 据进行人工校对, 并将原始的录音数据处理成短句, 对处理后的音频进行统一标号并将其 文本。

7、对应音素序列进行保存; 标准发音人语音参数特征提取模块, 用于对经过所述标准发音人语音数据获取及预处 理模块处理后的语音数据进行特性抽取, 包括用于音素边界切分和发音准确性判断的MFCC 参数, 以及用于韵律准确性检测的韵律参数, 最后将提取得到的语音特征进行统一标号并 保存, 至此完成标准发音库构建模块的构建。 3.根据权利要求1所述的一种基于国学经典学习的韵律自动评价系统, 其特征在于: 所 述语音识别声学模型训练模块包括: 国学经典发音词典构建模块、 普适性语音识别声学模 型训练模块和基于国学经典语音识别声学模型训练模块, 国学经典发音词典构建模块, 用于生成了国学经典中的词和音素之间的。

8、映射关系; 权利要求书 1/3 页 2 CN 110085257 A 2 普适性语音识别声学模型训练模块, 用于额外的语音数据集, 进行具有普适性的语音 识别声学模型引擎的训练, 得到具有普适性的所述语音识别声学模型引擎; 基于国学经典语音识别声学模型训练模块, 将训练得到的具有普适性的所述语音识别 声学模型引擎作为初始的模型, 并所述标准发音库构建模块中的国学经典数据, 进行自适 应声学模型训练, 以得到基于国学经典的所述语音识别声学模型引擎。 4.根据权利要求1所述的一种基于国学经典学习的韵律自动评价系统, 其特征在于: 所 述语音特征提取模块包括: 基频提取模块、 半倍频检测模块、 数据。

9、平滑模块和MFCC参数提取 模块, 基频提取模块: 运用传统的基频提取算法对学习者的音频进行直接的基频提取, 在提 取得到的所述基频后加入了半倍频检测模块和数据平滑模块, 最终得到平滑的基频曲线; 半倍频检测模块: 利用前后几帧的基频平均值跟当前帧的基频值进行比较, 判断基频 值的提取是否正常; 数据平滑模块: 对经过半倍频检测模块处理后的基频进行7点平滑处理; MFCC参数提取模块: 运用传统的MFCC提取算法对学习者的音频进行直接的MFCC参数提 取。 5.根据权利要求4所述的一种基于国学经典学习的韵律自动评价系统, 其特征在于: 所 述基频值的提取是否正常的具体判断步骤如下: 利用前后几。

10、帧的基频平均值跟当前 帧的基频值Pitch进行比较, 当时, 则当前帧是倍频帧, 进而将其基频值 设为PitchPitch/2; 而当时, 则当前帧是半频帧, 进而将其基频值设 为Pitch2Pitch; 其他的情况, 则认为基频值提取正常, 其值不做改变。 6.根据权利要求1所述的一种基于国学经典学习的韵律自动评价系统, 其特征在于: 所 述韵律准确性检测模块包括: 韵律特征集中模块、 基频评价模块、 基频评价结果输出模块、 停顿评价模块、 语速归一化模块和时长评分模块, 韵律特征集中模块: 将所述语音特征提取 模块的学习者的基频特征和所述音素边界切分模块切分得到的音素序列及时间边界信息, 。

11、进行统一结构化表示, 以便后续使用; 基频评价模块: 首先通过所述标准发音库构建模块的统一标号查找学习者的发音音频 在标准发音库中的对应的标号, 得到学习者发音音频所对应的标准发音音库; 进而将所述 语音特征提取模块提取得到基频特征与搜索得到的对应标准音库中存储的基频特征进行 评价; 在评价法方法上, 采用了单词级别的归一化平均基频差作为权衡办法; 在单词级别 上, 采用皮尔逊相关系数评价的度量方法来衡量学习者的语音和标准语音的基频差; 基频评价结果输出模块: 当句子中某个单词级别的皮尔逊相关系数小于0.2, 认为学习 者的语音与标准语音在该单词上的基频走势差异较大, 并进行警告或错误信息存储。

12、; 停顿评价模块: 用于判断学习者停顿的位置是否合理进行判断; 语速归一化模块: 用于补偿发音人由语速的差异所带来的不利影响, 对音素时长进行 归一化; 时长评分模块: 用于将学习者的时间边界和标准发音的时间边界分别经过所述语速归 一化模块后, 判断时长是否正常。 7.根据权利要求6所述的一种基于国学经典学习的韵律自动评价系统, 其特征在于: 所 权利要求书 2/3 页 3 CN 110085257 A 3 述皮尔逊相关系数评价的度量方法如下: 需要用DTW算法对学习者的语音和标准语音的基 频序列进行对齐操作, 设经过DTW对齐后的学习者的语音和标准语音单词级别的基频序列 分别为Xi.XN和Y。

13、i.YN, 则其对应的基频打分值为: 其中和分别为基频序列Xi.XN和Yi.YN的均值。 8.根据权利要求6所述的一种基于国学经典学习的韵律自动评价系统, 其特征在于: 所 述语速归一化模块的的归一化步骤如下: 以帧为单位计算第i段语音的时长时, 在文本有关 的情况下, 可以通过音素所在单词wi的时长dwi对第i段语音时长di进行归一化, 具体公式为 9.根据权利要求1所述的一种基于国学经典学习的韵律自动评价系统, 其特征在于: 所 述时长评分模块判断时长是否正常的具体步骤如下: 设f(di)和分别为学习者和标准 发音人经过语速归一化后第i段语音的时长, 则当时, 认为学习者在这 段发音时时长。

14、过长; 当时, 认为学习者在这段发音时时短; 并进行警告 或错误信息存储。 其他情况则认为时长正常。 10.根据权利要求1所述的一种基于国学经典学习的韵律自动评价系统, 其特征在于: 所述综合评价模块包括: 错误信息提取模块、 权重自动设定模块和综合评价显示模块, 所述错误信息提取模块: 从所述发音准确性检测模块中得到发音错误的信息, 从所述 韵律准确性检测模块得到基频、 时长和停顿相关的错误信息; 权重自动设定模块: 为了衡量子模块的发音错误、 基频错误、 时长错误和停顿错误对最 终发音质量的评价结果的影响, 采用线性回归的方法对不同的子模块对最后评分的结果的 权重影响进行自动设定; 综合评。

15、价显示模块: 对错误信息提取模块中得到的发音、 基频、 时长和停顿相关的错误 信息进行显示, 显示其在语句中具体位置上的错误。 权利要求书 3/3 页 4 CN 110085257 A 4 一种基于国学经典学习的韵律自动评价系统 技术领域 0001 本发明涉及语言学习系统技术领域, 尤其涉及一种基于国学经典学习的韵律自动 评价系统。 背景技术 0002 语言学习是人们所学知识中非常重要的部分之一。 也有越来越多的人依靠语言学 习辅助工具来提高语言学习的速度和效率。 随着计算机、 多媒体、 语音等技术的不断发展, 能够对听说读写等方面有一定程度或部分支持的辅助学习系统不断涌现。 0003 虽然,。

16、 在语言学习领域已经有很多的研究工作和相应的运用系统。 如早期电子词 典、 到后来的跟读机、 点读机以及一些学习软件如听力软件等等, 都使得学习辅助系统的形 式和功能逐渐丰富了起来。 但是这些系统仍然存在很多问题没有很好的解决。 0004 主要表现在以下几点: 0005 1、 现存的系统对于发音质量的评价存在片面性, 没有把语言学习中其他环节有机 的结合起来。 比如现存的对发音质量评测的系统, 都只是实现了对发音错误的判断, 进而提 供给学习者一个分数或级别。 而对于语言学习来说, 特别是古汉语学习时, 韵律信息(停顿、 时长和基频)的准确性也很大程度影响了整个句子的发音质量。 如对发音停顿的。

17、把握很大 程度上将会影响整个句子语义, 而现存的系统只是对发音的内容进行判断, 并不考虑发音 停顿等韵律信息。 0006 2、 现存的系统缺乏错误的判断和反馈机制, 并没有告诉学习者自己发音的具体错 误, 很难满足学习者的需求。 0007 因此, 现有技术存在缺陷, 需要改进。 发明内容 0008 本发明的目的在于针对现有技术的不足, 提供一种基于国学经典学习的韵律自动 评价系统, 以提高对国学经典学习中发音质量评价的全面性和准备性。 0009 为了解决上述技术问题, 采用如下技术方案: 0010 一种基于国学经典学习的韵律自动评价系统, 包括标准发音库构建模块, 语音识 别声学模型训练模块,。

18、 语音数据采集模块, 语音特征提取模块, 发音准确性检测模块, 音素 边界切分模块, 韵律准确性检测模块以及综合评价模块; 0011 标准发音库构建模块, 用于对标准发音人所朗读的国学经典音频进行处理, 抽取 发音自动评价所需的语音参数特征, 由此构建国学经典学习的标准发音库; 0012 语音识别声学模型训练模块: 该模块与标准发音库构建模块相连, 利用标准音库 中的语音数据进行语音识别声学模型的训练; 0013 语音数据采集模块, 用于采集学习者的语音数据; 0014 语音特征提取模块: 与语音数据采集模块相连, 用于从所接收到的学习者的语音 数据中提取用于发音准确性检测和韵律准确性检测的语。

19、音特征参数, 包括用于音素边界切 说明书 1/10 页 5 CN 110085257 A 5 分和发音准确性判断的MFCC参数, 以及用于韵律准确性检测的基频参数; 0015 发音准确性检测模块: 与语音特征提取模块、 语音识别声学模型训练模块和标准 发音库构建模块相连, 利用训练好的基于国学经典学习的所述语音识别声学模型引擎对所 述语音特征提取模块提取得到的语音特征进行音素的自动识别, 并与所述标准发音库中的 音素序列进行对比, 得到最终音素错误信息; 0016 音素边界切分模块: 与语音特征提取模块和语音识别声学模型训练模块相连, 利 用训练好的基于国学经典学习的所述语音识别声学模型引擎对。

20、所述语音特征提取模块提 取得到的语音特征进行音素边界的切分, 给出每个音素对应的时间边界信息; 0017 韵律准确性检测模块, 与语音特征提取模块、 音素边界切分模块和标准发音库构 建模块相连, 利用所述语音特征提取模块提取得到的语音参数和所述音素边界切分模块切 分得到的音素序列及其时间边界信息, 并与所述标准发音库中存储的标准发音人的韵律参 数评价, 并给出最终韵律上上的错误信息; 0018 综合评价模块: 该模块与发音准确性检测模块和韵律准确性检测模块相连, 用于 结合发音准确性检测模块和韵律准确性检测模块给出的错误提示, 反馈给学习者具体哪些 地方存在发音问题, 并综合发音的准确性和韵律。

21、的准备性, 给出最终的发音质量的打分结 果。 0019 进一步的, 所述标准发音库构建模块包括: 标准发音人语音数据获取及预处理模 块和标准发音人语音参数特征提取模块; 0020 标准发音人语音数据获取及预处理模块, 用于对标准发音人的诵读国学经典的语 音数据进行人工校对, 并将原始的录音数据处理成短句, 对处理后的音频进行统一标号并 将其文本对应音素序列进行保存; 0021 标准发音人语音参数特征提取模块, 用于对经过所述标准发音人语音数据获取及 预处理模块处理后的语音数据进行特性抽取, 包括用于音素边界切分和发音准确性判断的 MFCC参数, 以及用于韵律准确性检测的韵律参数, 最后将提取得。

22、到的语音特征进行统一标 号并保存, 至此完成标准发音库构建模块的构建。 0022 进一步的, 所述语音识别声学模型训练模块包括: 国学经典发音词典构建模块、 普 适性语音识别声学模型训练模块和基于国学经典语音识别声学模型训练模块。 0023 国学经典发音词典构建模块, 用于生成了国学经典中的词和音素之间的映射关 系; 0024 普适性语音识别声学模型训练模块, 用于额外的语音数据集, 进行具有普适性的 语音识别声学模型引擎的训练, 得到具有普适性的所述语音识别声学模型引擎; 0025 基于国学经典语音识别声学模型训练模块, 将训练得到的具有普适性的所述语音 识别声学模型引擎作为初始的模型, 并。

23、所述标准发音库构建模块中的国学经典数据, 进行 自适应声学模型训练, 以得到基于国学经典的所述语音识别声学模型引擎。 0026 进一步的, 所述语音特征提取模块包括: 基频提取模块、 半倍频检测模块、 数据平 滑模块和MFCC参数提取模块。 0027 基频提取模块: 运用传统的基频提取算法对学习者的音频进行直接的基频提取, 在提取得到的所述基频后加入了半倍频检测模块和数据平滑模块, 最终得到平滑的基频曲 线; 说明书 2/10 页 6 CN 110085257 A 6 0028 半倍频检测模块: 利用前后几帧的基频平均值跟当前帧的基频值进行比较, 判断 基频值的提取是否正常; 0029 数据平。

24、滑模块: 对经过半倍频检测模块处理后的基频进行7点平滑处理; 0030 MFCC参数提取模块: 运用传统的MFCC提取算法对学习者的音频进行直接的 MFCC 参数提取。 0031 进一步的, 所述基频值的提取是否正常的具体判断步骤如下: 利用前后几帧的基 频平均值跟当前帧的基频值Pitch进行比较, 当时, 则当前帧是 倍频帧, 进而将其基频值设为 PitchPitch/2; 而当时, 则当前帧是半 频帧, 进而将其基频值设为Pitch2Pitch; 其他的情况, 则认为基频值提取正常, 其值不做 改变。 0032 进一步的, 所述韵律准确性检测模块包括: 韵律特征集中模块、 基频评价模块、 。

25、基 频评价结果输出模块、 停顿评价模块、 语速归一化模块和时长评分模块。 0033 韵律特征集中模块: 将所述语音特征提取模块的学习者的基频特征和所述音素边 界切分模块切分得到的音素序列及时间边界信息, 进行统一结构化表示, 以便后续使用; 0034 基频评价模块: 首先通过所述标准发音库构建模块的统一标号查找学习者的发音 音频在标准发音库中的对应的标号, 得到学习者发音音频所对应的标准发音音库; 进而将 所述语音特征提取模块提取得到基频特征与搜索得到的对应标准音库中存储的基频特征 进行评价; 在评价法方法上, 采用了单词级别的归一化平均基频差作为权衡办法; 在单词级 别上, 采用皮尔逊相关系。

26、数评价的度量方法来衡量学习者的语音和标准语音的基频差; 0035 基频评价结果输出模块: 当句子中某个单词级别的皮尔逊相关系数小于 0.2, 认 为学习者的语音与标准语音在该单词上的基频走势差异较大, 并进行警告或错误信息存 储; 0036 停顿评价模块: 用于判断学习者停顿的位置是否合理进行判断; 0037 语速归一化模块: 用于补偿发音人由语速的差异所带来的不利影响, 对音素时长 进行归一化; 0038 时长评分模块: 用于将学习者的时间边界和标准发音的时间边界分别经过所述语 速归一化模块后, 判断时长是否正常。 0039 进一步的, 所述皮尔逊相关系数评价的度量方法如下: 需要用DTW算。

27、法对学习者的 语音和标准语音的基频序列进行对齐操作, 设经过DTW对齐后的学习者的语音和标准语音 单 词级 别的 基频 序列分 别为Xi.XN和Yi.YN, 则其对应的 基频打分值为 : 其中和分别为基频序列Xi.XN和Yi.YN的 均值。 0040 进一步的, 所述语速归一化模块的的归一化步骤如下: 以帧为单位计算第i 段语 音的时长时, 在文本有关的情况下, 可以通过音素所在单词wi的时长 dwi对第i段语音时长 说明书 3/10 页 7 CN 110085257 A 7 di进行归一化, 具体公式为 0041 进一步的, 所述时长评分模块判断时长是否正常的具体步骤如下: 设 f(di)和。

28、 分 别为学 习者 和标准发音人经过语速归一化 后第i段语音的时 长 , 则当 时, 认为学习者在这段发音时时长过长; 当时, 认 为学习者在这段发音时时短; 并进行警告或错误信息存储。 其他情况则认为时长正常。 0042 进一步的, 所述综合评价模块包括: 错误信息提取模块、 权重自动设定模块和综合 评价显示模块。 0043 所述错误信息提取模块: 从所述发音准确性检测模块中得到发音错误的信息, 从 所述韵律准确性检测模块得到基频、 时长和停顿相关的错误信息; 0044 权重自动设定模块: 为了衡量子模块的发音错误、 基频错误、 时长错误和停顿错误 对最终发音质量的评价结果的影响, 采用线性。

29、回归的方法对不同的子模块对最后评分的结 果的权重影响进行自动设定; 0045 综合评价显示模块: 对错误信息提取模块中得到的发音、 基频、 时长和停顿相关的 错误信息进行显示, 显示其在语句中具体位置上的错误。 0046 由于采用上述技术方案, 具有以下有益效果: 0047 从上述技术方案可以看出, 本发明一种基于国学经典学习的韵律自动评价系统具 有以下有益效果: 0048 (1)本发明中, 不仅对发音的准确性进行评价, 还对发音的韵律准确性(包括基频、 时长、 停顿等信息)进行评价。 这样的系统能够更加对国学经典的这种抑扬顿挫进行更好、 更客观、 更全面、 更准确的评价; 0049 (2)本。

30、发明中, 对发音的准确性和韵律的准确性都提供了错误的判断和反馈机制, 都会告诉学习者自己发音的具体错误、 哪个地方有误。 这样的系统给出的更是学习者想要 的结果, 而不仅仅是一个单纯的打分或评级, 更加有利于学习者发现发音问题并改正发音 问题。 0050 (3)本发明中, 语音特征提取模块, 其中在基频的提取中, 增加了半倍频检测和平 滑处理模块, 大大减少了基频提取中普遍存在的半倍频和不平滑的现象, 使得提取得到的 基频轨迹更加光滑, 更能反映学习者的基频走势。 0051 (4)本发明中, 综合评价模块, 其中每个子模块, 包括发音准确性模块和韵律准备 性模块中的子模块基频、 时长、 停顿等。

31、对最终打分的影响的权重是通过统计机器学习的方 法得到的, 而不是人为手工设定的, 更加具有普适性和科学性。 附图说明 0052 下面结合附图对本发明作进一步说明: 0053 图1是本发明提供的一种基于国学经典学习的韵律自动评价系统的结构示意图; 0054 图2是本发明实施例一种基于国学经典学习的韵律自动评价系统中标准音库构建 模块的结构示意图; 说明书 4/10 页 8 CN 110085257 A 8 0055 图3是本发明实施例一种基于国学经典学习的韵律自动评价系统中的语音识别声 学模型训练模块的结构示意图; 0056 图4是本发明实施例一种基于国学经典学习的韵律自动评价系统中的语音特征提。

32、 取模块的结构示意图; 0057 图5是本发明实施例一种基于国学经典学习的韵律自动评价系统中的发音准确性 检测模块的结构示意图; 0058 图6是本发明实施例一种基于国学经典学习的韵律自动评价系统中的韵律准确性 检测模块的结构示意图; 0059 图7是本发明实施例一种基于国学经典学习的韵律自动评价系统中的综合评价模 块的结构示意图。 0060 标号说明 0061 1-标准发音库构建模块; 11-标准发音人语音数据获取及预处理模块; 12-标准发 音人语音参数特征提取模块; 2-语音识别声学模型训练模块; 21-国学经典发音词典构建模 块; 22-普适性语音识别声学模型训练模块; 23-基于国学。

33、经典语音识别声学模型训练模块; 3-语音数据采集模块; 4-语音特征提取模块; 41-基频提取模块; 42-半倍频检测模块; 43-数 据平滑模块; 44-MFCC参数提取模块; 5-发音准确性检测模块; 51-发音音素自动识别模块; 52-发音准确性检测及判断模块; 6-音素边界切分模块; 7-韵律准确性检测模块; 71-韵律特 征集中模块; 72-基频评价模块; 73-基频评价结果输出模块; 74-停顿评价模块; 75-语速归 一化模块; 76-时长评分模块; 8-综合评价模块; 81-错误信息提取模块; 82- 权重自动设定 模块; 83-综合评价显示模块。 具体实施方式 0062 为使。

34、本发明的目的、 技术方案和优点更加清楚明了, 下面通过附图及实施例, 对本 发明进行进一步详细说明。 但是应该理解, 此处所描述的具体实施例仅仅用以解释本发明, 并不用于限制本发明的范围。 此外, 在以下说明中, 省略了对公知结构和技术的描述, 以避 免不必要地混淆本发明的概念。 0063 在本发明的一个示例性实施例中, 给出了一种基于国学经典学习的韵律自动评价 系统, 如图1所示, 本实施例包括包括标准发音库构建模块, 语音识别声学模型训练模块, 语 音数据采集模块, 语音特征提取模块, 发音准确性检测模块, 音素边界切分模块, 韵律准确 性检测模块以及综合评价模块; 0064 标准发音库构。

35、建模块, 用于对标准发音人所朗读的国学经典音频进行处理, 抽取 发音自动评价所需的语音参数特征, 由此构建国学经典学习的标准发音库; 0065 语音识别声学模型训练模块: 该模块与标准发音库构建模块相连, 利用标准音库 中的语音数据进行语音识别声学模型的训练; 0066 语音数据采集模块, 用于采集学习者的语音数据; 0067 语音特征提取模块: 与语音数据采集模块相连, 用于从所接收到的学习者的语音 数据中提取用于发音准确性检测和韵律准确性检测的语音特征参数, 包括用于音素边界切 分和发音准确性判断的MFCC参数, 以及用于韵律准确性检测的基频参数; 0068 发音准确性检测模块: 与语音特。

36、征提取模块、 语音识别声学模型训练模块和标准 说明书 5/10 页 9 CN 110085257 A 9 发音库构建模块相连, 利用训练好的基于国学经典学习的所述语音识别声学模型引擎对所 述语音特征提取模块提取得到的语音特征进行音素的自动识别, 并与所述标准发音库中的 音素序列进行对比, 得到最终音素错误信息; 0069 音素边界切分模块: 与语音特征提取模块和语音识别声学模型训练模块相连, 利 用训练好的基于国学经典学习的所述语音识别声学模型引擎对所述语音特征提取模块提 取得到的语音特征进行音素边界的切分, 给出每个音素对应的时间边界信息; 0070 韵律准确性检测模块, 与语音特征提取模块。

37、、 音素边界切分模块和标准发音库构 建模块相连, 利用所述语音特征提取模块提取得到的语音参数和所述音素边界切分模块切 分得到的音素序列及其时间边界信息, 并与所述标准发音库中存储的标准发音人的韵律参 数评价, 并给出最终韵律上上的错误信息; 0071 综合评价模块: 该模块与发音准确性检测模块和韵律准确性检测模块相连, 用于 结合发音准确性检测模块和韵律准确性检测模块给出的错误提示, 反馈给学习者具体哪些 地方存在发音问题, 并综合发音的准确性和韵律的准备性, 给出最终的发音质量的打分结 果。 0072 以下分别对各个模块进行详细说明。 0073 图2是本发明实施例一种基于国学经典学习的韵律自。

38、动评价系统中标准音库构建 模块的结构示意图。 如图2所示, 标准发音库构建模块1, 用于对标准发音人所朗读的国学经 典音频进行处理, 抽取发音自动评价所需的语音参数特征, 由此构建国学经典学习的标准 发音库。 0074 标准发音库构建模块1包括: 0075 标准发音人语音数据获取及预处理模块1-1, 该模块主要是对标准发音人的诵读 国学经典的语音数据进行人工校对, 包括校对语音和文本之间的匹配性、 发音、 停顿、 时长 和基频上的错误等信息。 并将原始的录音数据处理成短句, 并对处理后的音频进行统一标 号并将其文本对应音素序列进行保存。 该标号作为不同国学经典文学之间的唯一标识符, 以便后续使。

39、用。 0076 标准发音人语音参数特征提取模块1-2, 该模块主要是经过模块1-1处理后的语音 数据进行特性抽取, 包括用于音素边界切分和发音准确性判断的MFCC 参数, 以及用于韵律 准确性检测的基频、 时长和停顿等参数。 最后将提取得到的语音特征进行统一标号并保存。 0077 由此, 完成标准发音库构建模块1的构建。 0078 图3是本发明实施例一种基于国学经典学习的韵律自动评价系统中的语音识别声 学模型训练模块的结构示意图。 如图3所示, 语音识别声学模型训练模块2, 标准发音库构建 模块1连接, 利用标准音库中的语音数据进行语音识别声学模型的训练, 生成训练好的语音 识别声学模型引擎。。

40、 0079 语音识别声学模型训练模块2包括: 0080 国学经典发音词典构建模块2-1, 该模块生成了国学经典中的词和音素之间的映 射关系; 0081 普适性语音识别声学模型训练模块2-2, 该模块利用额外的语音数据集(约 5000h), 进行具有普适性的语音识别声学模型引擎的训练, 得到具有普适性的语音识别声 学模型引擎。 在声学模型的训练中, 声学模型的建模方法不做限制, 可以是基于隐马尔科夫 说明书 6/10 页 10 CN 110085257 A 10 模型, 亦可以是基于深度学习的模型。 训练后的模型作为基于国学经典语音识别声学模型 训练的初始模型。 0082 基于国学经典语音识别声。

41、学模型训练模块2-3, 该模块将模块2-2中得到的具有普 适性的语音识别声学模型引擎作为初始的模型, 并利用标准发音库构建模块1中的国学经 典数据(约110h), 进行自适应声学模型训练, 以得到基于国学经典语音识别声学模型引擎。 基于国学经典语音识别声学模型引擎利用了经典国学语音数据进行自适应训练而得到的, 其对国学经典的识别性能将会有一定的提升。 0083 语音数据采集模块3, 用于在测试阶段, 采集学习者的语音数据。 0084 图4是本发明实施例一种基于国学经典学习的韵律自动评价系统中的语音特征提 取模块的结构示意图。 如图4所示, 语音特征提取模块4, 与语音采集模块3相连, 用于从所。

42、接 收到的学习者的语音数据中提取用于发音准确性检测和韵律准确性检测的语音特征参数, 包括用于音素边界切分和发音准确性判断的 MFCC参数, 以及用于韵律准确性检测的基频 参数。 0085 语音特征提取模块4, 包括: 0086 基频提取模块4-1: 即运用传统的基频提取算法如(Straight等)对学习者的音频 进行直接的基频提取。 然而这样直接提取的基频不可避免会出现半频、 倍频甚至一些比较 奇异的点。 所以我们在提取得到的基频后加入了半倍频检测模块4-2和数据平滑模块4-3。 从而使得这些现象得到削减, 最终得到比较平滑的基频曲线。 0087半倍频检测模块4-2: 即利用前后几帧(一般取3。

43、-5帧)的基频平均值跟当前 帧的基频值Pitch进行比较, 当时, 则当前帧是倍频帧, 进而将其基频值 设为PitchPitch/2; 而当时, 则当前帧是半频帧, 进而将其基频值设 为 Pitch2Pitch; 其他的情况, 则认为基频值提取正常, 其值不做改变。 0088 数据平滑模块4-3: 对经过半倍频检测模块4-2处理后的基频进行7点平滑处理, 即 用当前帧前后3帧的基频平均值作为当前帧的基频值, 以得到较为平滑的基频曲线和基频 走势。 通常, 基频曲线的走势能够反映出语句的重音、 语调等韵律信息。 0089 MFCC参数提取模块: 即运用传统的MFCC提取算法对学习者的音频进行直接。

44、的MFCC 参数提取。 0090 图5是本发明实施例一种基于国学经典学习的韵律自动评价系统中的发音准确性 检测模块的结构示意图。 如图5所示, 发音准确性检测模块5, 与语音特征提取模块4、 语音识 别声学模型训练模块2和标准发音库构建模块1连接, 利用训练好的语音识别声学模型引擎 对输入的语音特征(MFCC)进行音素的自动识别, 并与标准发音库中的音素序列进行对比, 得到最终音素错误信息。 0091 发音准确性检测模块5包括: 0092 发音音素自动识别模块5-1, 该模块将语音特征提取模块4中提取得到的 MFCC参 数送入到语音识别声学模型训练模块2中得到的语音识别声学模型引擎中, 得到发。

45、音人发 音的音素序列信息; 0093 发音准确性检测及判断模块5-2, 首先通过模块1所述统一标号查找学习者的发音 音频在标准发音库构建模块1中的对应的标号, 得到学习者发音音频所对应的标准发音音 说明书 7/10 页 11 CN 110085257 A 11 库。 进而将模块5-1中得到的音素序列与搜索得到的对应标准音库中存储的文本所对应的 音素进行比较, 主要包括音素的插入、 删除、 替换等几种错误。 并对对应的错误信息给予记 录。 0094 音素边界切分模块6: 与语音特征提取模块4和语音识别声学模型训练模块2相连, 利用训练好的语音识别声学模型引擎对输入的语音特征(MFCC)进行音素边。

46、界的切分, 给出 每个音素对应的时间边界信息。 0095 图6是本发明实施例一种基于国学经典学习的韵律自动评价系统中的韵律准确性 检测模块的结构示意图。 如图6所示: 韵律准确性检测模块7, 与语音特征提取模块4、 音素边 界切分模块6和标准发音库构建模块1相连, 利用语音特征提取得到的语音参数(基频)和音 素边界切分模块给出的音素序列及其时间边界信息, 并与标准发音库中存储的标准发音人 的基频、 时长和停顿等韵律参数分别进行基频、 时长和停顿等三个方面的评价, 并给出最终 韵律上(基频、 时长和停顿)上的错误信息。 0096 韵律准确性检测模块7包括: 0097 韵律特征集中模块7-1: 包。

47、括对语音特征提取模块4提取的学习者的基频特征和音 素边界切分模块6切分得到的音素序列及其时间边界信息, 进行统一结构化表示, 以便后续 使用。 0098 基频评价模块7-2: 首先通过模块1所述统一标号查找学习者的发音音频在标准发 音库构建模块1中的对应的标号, 得到学习者发音音频所对应的标准发音音库。 进而将模块 7-1中得到基频特征与搜索得到的对应标准音库中存储的基频特征进行评价。 在评价法方 法上, 本系统采用了单词级别的归一化平均基频差作为权衡办法, 即在单词级计算学习者 的语音和标准语音的平均基频差, 然后在整句求平均。 这样可以避免句子级的归一化平均 基频差存在的可能忽略局部差别(。

48、例如音素级差别)的影响。 在单词级别上, 本系统采用皮 尔逊相关系数评价的度量方法来衡量学习者的语音和标准语音的基频差。 由于学习者的语 音和标准语音之间的数据长度不一致, 在进行两种度量方法的计算之前, 需要用DTW算法对 学习者的语音和标准语音的基频序列进行对齐操作。 设经过 DTW对齐后的学习者的语音和 标准语音单词级别的基频序列分别为Xi.XN和Yi.YN, 则其对应的基频打分值(即皮尔逊 相关系数)为: 0099 0100其中和分别为基频序列Xi.XN和Yi.YN的均值。 0101 基频评价结果输出模块7-3: 当句子中某个单词级别的cov(X, Y)小于 0.2, 认为学 习者的语。

49、音与标准语音在该单词上的基频走势差异较大, 并进行警告或错误信息存储。 0102 停顿评价模块7-4: 该模块主要是学习者停顿的位置是否合理进行判断。 首先通过 模块1所述统一标号查找学习者的发音音频在标准发音库构建模块1中的对应的标号, 得到 学习者发音音频所对应的标准发音音库。 进而将模块7-1 中得到音素序列(包含停顿sp这 个音素)及其时间边界信息与搜索得到的对应标准音库中存储的音素序列(包含停顿sp这 个音素)进行对比。 当学习者得到的音素序列和标准发音的音素序列sp的位置不一样时, 则 认为学习者停顿错误, 并进行警告或错误信息存储。 说明书 8/10 页 12 CN 110085。

50、257 A 12 0103 语速归一化模块7-5: 考虑不同说话人的语速不同, 而且朗读国学经典的时候, 每 一句话的语速可能都会不太一样, 所以再进行时长评价会对时长进行归一化, 以消除上述 影响。 0104 以帧为单位计算第i段语音的时长时, 为了补偿发音人由语速的差异所带来的不 利影响, 应当对音素时长进行归一化。 在文本有关的情况下, 可以通过音素所在单词wi的时 长dwi对第i段语音时长di进行归一化: 0105 0106 时长评分模块7-6: 在将学习者的时间边界(即时长)和标准发音的时间边界分别 经过语速归一化模块7-5后。 设f(di)和分别为学习者和标准发音人经过语速归一化 。

展开阅读全文
内容关键字: 基于 国学 经典 学习 韵律 自动 评价 系统
关于本文
本文标题:基于国学经典学习的韵律自动评价系统.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/11494875.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1