语音处理方法、装置、存储介质及电子设备.pdf

上传人:奶盖 文档编号:11448305 上传时间:2021-09-27 格式:PDF 页数:29 大小:1.34MB
收藏 版权申诉 举报 下载
语音处理方法、装置、存储介质及电子设备.pdf_第1页
第1页 / 共29页
语音处理方法、装置、存储介质及电子设备.pdf_第2页
第2页 / 共29页
语音处理方法、装置、存储介质及电子设备.pdf_第3页
第3页 / 共29页
文档描述:

《语音处理方法、装置、存储介质及电子设备.pdf》由会员分享,可在线阅读,更多相关《语音处理方法、装置、存储介质及电子设备.pdf(29页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910362700.8 (22)申请日 2019.04.30 (71)申请人 北京大米科技有限公司 地址 100007 北京市朝阳区青年路7号院达 美中心T4-27层 (72)发明人 舒景辰梁光谭星张岱 王正博 (74)专利代理机构 北京恒博知识产权代理有限 公司 11528 代理人 范胜祥 (51)Int.Cl. G10L 15/08(2006.01) G10L 15/26(2006.01) G06F 17/27(2006.01) (54)发明名称 一种语音处理方法、 装。

2、置、 存储介质及电子 设备 (57)摘要 本申请实施例公开了一种语音处理方法、 装 置、 存储介质及电子设备, 其中, 方法包括: 采集 所输入的测评语音集合, 对所述测评语音集合中 各语音词汇进行识别; 当检测到在所述测评语音 集合中存在无法识别的目标语音词汇时, 采用音 译方式获取所述目标语音词汇对应的文本词汇; 输出所述文本词汇。 因此, 采用本申请实施例, 通 过对无法识别的目标语音词汇对应的文本词汇 进行识别, 可以提高对语音词汇识别的智能性。 权利要求书1页 说明书15页 附图12页 CN 110111778 A 2019.08.09 CN 110111778 A 1.一种语音处理。

3、方法, 其特征在于, 所述方法包括: 采集所输入的测评语音集合, 对所述测评语音集合中各语音词汇进行识别; 当检测到在所述测评语音集合中存在无法识别的目标语音词汇时, 采用音译方式获取 所述目标语音词汇对应的文本词汇; 输出所述文本词汇。 2.根据权利要求1所述的方法, 其特征在于, 所述输出所述文本词汇之后, 还包括: 响应于针对所述文本词汇输入的分类指令, 获取所述分类指令携带的分类类型; 基于所述分类类型对所述文本词汇进行标记。 3.根据权利要求2所述的方法, 其特征在于, 所述方法还包括: 获取所述目标语音词汇对应的目标样本语音曲线; 将所述目标样本语音曲线保存至系统语音曲线库中所述分。

4、类类型对应的曲线栏。 4.根据权利要求1所述的方法, 其特征在于, 所述对所述测评语音集合中各语音词汇进 行识别, 包括: 获取所述测评语音集合中各语音词汇对应的样本语音曲线; 将所述各语音词汇对应的样本语音曲线分别与标准语音曲线集合中各标准语音曲线 进行匹配, 获取所述各语音词汇对应的相似度集合; 基于所述相似度集合对所述各语音词汇进行识别。 5.根据权利要求4所述的方法, 其特征在于, 所述基于所述相似度集合对所述各语音词 汇进行识别, 包括: 获取所述相似度集合中的相似度最大值; 获取所述相似度最大值指示的目标标准语音曲线, 将所述目标标准语音曲线对应的目 标标准语音确定为所述各语音词汇。

5、对应的标准语音。 6.根据权利要求4所述的方法, 其特征在于, 所述方法还包括: 当检测到对所述测评语音集合识别完毕时, 基于所述各语音词汇对应的相似度集合对 所述测评语音集合进行评分处理, 生成所述测评语音集合对应的评分。 7.一种语音处理装置, 其特征在于, 所述装置包括: 词汇识别模块, 用于采集所输入的测评语音集合, 对所述测评语音集合中各语音词汇 进行识别; 词汇获取模块, 用于当检测到在所述测评语音集合中存在无法识别的目标语音词汇 时, 采用音译方式获取所述目标语音词汇对应的文本词汇; 词汇输出模块, 用于输出所述文本词汇。 8.根据权利要求7所述的装置, 其特征在于, 所述装置还。

6、包括: 类型获取模块, 用于响应于针对所述文本词汇输入的分类指令, 获取所述分类指令携 带的分类类型; 词汇标记模块, 用于基于所述分类类型对所述文本词汇进行标记。 9.一种计算机存储介质, 其特征在于, 所述计算机存储介质存储有多条指令, 所述指令 适于由处理器加载并执行如权利要求16任意一项的方法步骤。 10.一种电子设备, 其特征在于, 包括: 处理器和存储器; 其中, 所述存储器存储有计算机 程序, 所述计算机程序适于由所述处理器加载并执行如权利要求16任意一项的方法步骤。 权利要求书 1/1 页 2 CN 110111778 A 2 一种语音处理方法、 装置、 存储介质及电子设备 技。

7、术领域 0001 本申请涉及计算机技术领域, 尤其涉及一种语音处理方法、 装置、 存储介质及电子 设备。 背景技术 0002 作为人际交流的重要媒介, 口语在实际生活中占有极其重要的地位。 随着社会经 济的不断发展和全球化趋势的加剧, 人们对语言学习的效率以及语言评估的客观性、 公正 性和规模化测试提出了越来越高的要求。 随着语音识别技术的不断成熟, 涉及到信号处理、 自然语音理解、 人工智能、 数据挖掘和机器学习等多个学科的智能语音评测技术也得到了 越来越广泛的应用。 例如, 智能辅助教学系统项目在各中小学的推广, 普通话口语考试系统 在全国的普及等。 目前市面上出现了很多辅助口语评测类的电。

8、子产品(如点读机、 学习电 脑)以及口语评测类应用。 目前常见的口语学习场景都是指定朗读文本, 然后根据学习者朗 读的语音进行发音准确性和流畅度的评估。 但是, 指定朗读文本, 就限定了学习者必须指定 一个既定的题目或者内容来进行口语练习。 因此, 为了让学习者能够更加方便地进行口语 学习, 自由朗读题型便应运而生。 自由朗读题型, 即学习者随意选择朗读文本进行口语练 习。 0003 由于自由朗读题型没有标准答案, 在对学习者自由朗读的语音进行评测时, 需要 先对该语音进行识别, 而学习者自由朗读的文本中可能存在一些不常用词汇, 现有的语音 评测技术无法对这些不常用词汇进行识别, 导致对语音词。

9、汇识别的智能性低。 发明内容 0004 本申请实施例提供了一种语音处理方法、 装置、 存储介质及电子设备, 通过对无法 识别的目标语音词汇对应的文本词汇进行识别, 可以提高对语音词汇识别的智能性。 其技 术方案如下; 0005 第一方面, 本申请实施例提供了一种语音处理方法, 所述方法包括: 0006 采集所输入的测评语音集合, 对所述测评语音集合中各语音词汇进行识别; 0007 当检测到在所述测评语音集合中存在无法识别的目标语音词汇时, 采用音译方式 获取所述目标语音词汇对应的文本词汇; 0008 输出所述文本词汇。 0009 第二方面, 本申请实施例提供了一种语音处理装置, 所述装置包括:。

10、 0010 词汇识别模块, 用于采集所输入的测评语音集合, 对所述测评语音集合中各语音 词汇进行识别; 0011 词汇获取模块, 用于当检测到在所述测评语音集合中存在无法识别的目标语音词 汇时, 采用音译方式获取所述目标语音词汇对应的文本词汇; 0012 词汇输出模块, 用于输出所述文本词汇。 0013 第三方面, 本申请实施例提供一种计算机存储介质, 所述计算机存储介质存储有 说明书 1/15 页 3 CN 110111778 A 3 多条指令, 所述指令适于由处理器加载并执行上述的方法步骤。 0014 第四方面, 本申请实施例提供一种电子设备, 可包括: 处理器和存储器; 其中, 所述 存。

11、储器存储有计算机程序, 所述计算机程序适于由所述处理器加载并执行上述的方法步 骤。 0015 本申请一些实施例提供的技术方案带来的有益效果至少包括: 0016 在本申请一个或多个实施例中, 对采集的测评语音集合中的各语音词汇进行识 别, 对于无法识别的目标语音词汇, 采用音译方式获取其对应的文本词汇并进行输出, 从而 通过对无法识别的目标语音词汇对应的文本词汇进行识别, 可以提高对语音词汇识别的智 能性。 附图说明 0017 为了更清楚地说明本申请实施例或现有技术中的技术方案, 下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍, 显而易见地, 下面描述中的附图仅仅是本 申请的一些实。

12、施例, 对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下, 还可以 根据这些附图获得其他的附图。 0018 图1是本申请实施例提供的一种语音处理系统的网络架构示意图; 0019 图2是本申请实施例提供的一种语音处理方法的流程示意图; 0020 图3是本申请实施例提供的一种文本词汇显示界面示意图; 0021 图4是本申请实施例提供的一种文本词汇更正界面示意图; 0022 图5是本申请实施例提供的一种文本词汇显示界面示意图; 0023 图6是本申请实施例提供的一种语音处理方法的流程示意图; 0024 图7是本申请实施例提供的一种文本词汇确认界面示意图; 0025 图8是本申请实施例提供的一。

13、种文本词汇更正界面示意图; 0026 图9是本申请实施例提供的一种文本词汇分类界面示意图; 0027 图10是本申请实施例提供的一种文本词汇分类界面示意图; 0028 图11是本申请实施例提供的一种语音处理方法的流程示意图; 0029 图12是本申请实施例提供的一种语音处理方法的流程示意图; 0030 图13是本申请实施例提供的一种语音处理装置的结构示意图; 0031 图14是本申请实施例提供的一种语音处理装置的结构示意图; 0032 图15是本申请实施例提供的一种词汇识别模块的结构示意图; 0033 图16是本申请实施例提供的一种电子设备的结构示意图。 具体实施方式 0034 为使本申请的目。

14、的、 技术方案和优点更加清楚, 下面将结合附图对本申请实施例 方式作进一步地详细描述。 0035 下面的描述涉及附图时, 除非另有表示, 不同附图中的相同数字表示相同或相似 的要素。 以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方 式。 相反, 它们仅是如所附权利要求书中所详述的、 本申请的一些方面相一致的装置和方法 的例子。 说明书 2/15 页 4 CN 110111778 A 4 0036 在本申请的描述中, 需要理解的是, 术语 “第一” 、“第二” 等仅用于描述目的, 而不 能理解为指示或暗示相对重要性。 对于本领域的普通技术人员而言, 可以具体情况理解上 述术。

15、语在本申请中的具体含义。 此外, 在本申请的描述中, 除非另有说明,“多个” 是指两个 或两个以上。“和/或” , 描述关联对象的关联关系, 表示可以存在三种关系, 例如, A和/或B, 可以表示: 单独存在A, 同时存在A和B, 单独存在B这三种情况。 字符 “/” 一般表示前后关联对 象是一种 “或” 的关系。 0037 下面结合具体的实施例对本申请进行说明。 0038 请参见图1, 为本申请实施例提供的一种语音处理系统的架构示意图。 如图所示, 所述语音处理系统可以包括用户100和语音处理装置200。 所述语音处理装置200可以为电 子设备, 该电子设备包括但不限于: 个人电脑、 平板电。

16、脑、 手持设备、 车载设备、 可穿戴设备、 计算设备或连接到无线调制解调器的其它处理设备等。 在不同的网络中用户终端可以叫做 不同的名称, 例如: 用户设备、 接入终端、 用户单元、 用户站、 移动站、 移动台、 远方站、 远程终 端、 移动设备、 用户终端、 终端、 无线通信设备、 用户代理或用户装置、 蜂窝电话、 无绳电话、 个人数字处理(personal digital assistant, PDA)、 5G网络或未来演进网络中的终端设备 等。 也可以为具备评分处理功能的服务器。 0039 为了描述方便, 本申请实施例中以语音处理装置200为用户终端为例进行说明。 0040 如图1所示,。

17、 用户100向用户终端200输入测评语音指令, 用户终端200接收所述测 评语音指令之后, 用户终端200对用户100的测评语音指令作出响应, 显示提示信息提示用 户准备开始口语评测。 0041 用户100可随意选择朗读内容开始输入测评语音。 0042 此时, 用户终端200可以通过内置的录音采集装置或外置的录音采集装置采集用 户100输入的测评语音, 音频采集装置可以是一个或多个话筒(也称为麦克风)。 在话筒的数 量为多个的情况下, 多个话筒可以分布在不同的位置组成话筒阵列, 用户终端通过话筒阵 列获取每个话筒采集到的测评语音集合, 将多个通道采集到的测评语音集合进行合并得到 高保真的测评语。

18、音集合。 0043 可选的, 在音频采集装置外置的情况下, 音频采集装置可以通过预设长度(如 3.5mm)的耳机插口、 USB接口或蓝牙将采集到的测评语音实时传输给用户终端200。 用户终 端200将测评语音保存至测评语音集合。 用户终端200可以分多次采集用户100的测评语音 集合, 然后根据用户100选择指令从多个测评语音集合中选择一个最终的测评语音集合。 0044 例如: 用户小明想要测试自己的外语口语水平, 此时用户小明打开手机终端的测 评语音应用软件, 在测评语音界面通过点击测评语音按钮发出语音测评请求, 此时, 手机终 端响应于用户的测评语音请求, 在显示屏上显示 “开始语音评测”。

19、 的提示消息, 手机终端内 置有2个麦克风, 分别分布在手机终端的底部和顶部, 手机终端通过2个麦克风采集用户小 明的测评语音集合, 对两个麦克风采集通道上采集的测试语音集合进行滤波和降噪等过程 之后得到高保真的测试音频集合, 并保存下来。 0045 用户终端200对所述测评语音集合中各语音词汇进行识别, 当检测到在所述测评 语音集合中存在无法识别的目标语音词汇时, 采用音译方式获取所述目标语音词汇对应的 文本词汇, 并输出所述文本词汇。 0046 具体的, 用户终端200提取所述测评语音集合中各语音词汇对应的特征参数(如各 说明书 3/15 页 5 CN 110111778 A 5 语音词汇。

20、对应的样本语音曲线), 将所述各语音词汇的特征参数与系统数据库中标准语音 词汇的特征参数(如标准语音词汇对应的标准语音曲线)进行比对, 然后获取各语音词汇对 应的相似度集合, 依据所述相似度集合判断当前语音词汇是否可以被识别, 若检测无法识 别, 将该语音词汇确定为目标语音词汇, 采用音译方式将所述目标语音词汇转换为对应文 本词汇, 在显示屏上显示无法识别语音词汇的提示信息, 并输出对应的文本词汇。 0047 用户终端200在获取到当前测评语音集合之后, 继续获取当前测评语音的下一个 测评语音, 并将下一个测评语音确定为当前测评语音集合, 再执行对所述测评语音集合中 各语音词汇进行识别的步骤。。

21、 0048 当检测到对所述测评语音集合识别完毕时, 基于所述各语音词汇对应的相似度集 合对所述测评语音集合进行评分处理, 生成所述测评语音集合对应的评分。 0049 在一个或多个实施例中, 用户终端采集所输入的测评语音集合、 并对所述测评语 音集合中各语音词汇进行识别, 若检测到所述测评语音集合中存在无法识别的目标语音词 汇, 则采用音译方式获取所述目标语音词汇对应的文本词汇, 并输出该文本词汇, 通过对无 法识别的目标语音词汇对应的文本词汇进行识别及输出, 可以提高对语音词汇识别的智能 性; 此外, 可以将所述目标语音词汇及其所对应的文本词汇存入系统数据库, 以保证该目标 语音词汇再次出现在。

22、用户的测评语音集合中时, 系统可对其进行识别, 从而提高对用户测 评语音集合的识别精度, 进而更准确地实现对用户语音的评测, 以对用户的实际口语能力 提供更精确的评测、 对用户提高口语能力提供更有效的帮助。 0050 下面将结合附图2, 对本申请实施例提供的语音处理方法进行详细介绍。 本申请实 施例以语音处理方法应用于用户终端中来举例说明。 如图所示, 该语音处理方法可以包括 以下步骤: 0051 S101, 采集所输入的测评语音集合。 0052 其中, 所述测评语音集合可以是用户在一定时间内所朗读的语音音频的集合, 其 可以通过调用用户终端上的麦克风进行采集。 例如: 启动麦克风后, 对用户。

23、朗读的语音音频 进行录音, 经过一段时间的录制所采集到的语音信号即为测评语音集合。 0053 具体的, 所述测评语音集合可以包括多个词汇或短语, 例如:“side、 beach、 central、 crop、 go away” ; 可以是一段句子, 例如:“Hello, my name is Lucy” ; 也可以是一 个段落, 例如 “Quite a number of things have been done to help solve traffic problems in Singapore.For example, motorists must buy a special pass。

24、 if they want to drive into the downtown business district” 等。 0054 值得一提的是, 在本申请实施例中, 对所述测评语音集合的语言种类不做限制。 0055 S102, 对所述测评语音集合中各语音词汇进行识别。 0056 在本步骤中, 识别操作的具体实现可以包括: 对所述测评语音集合进行预处理、 提 取所述测评语音集合中各语音词汇的特征参数, 然后采用声学模型将所述各语音词汇的特 征参数与系统数据库中标准语音词汇的特征参数进行比对。 其中, 所述特征参数可以是频 谱、 发音曲线等, 相应地, 所述系统数据库可以是系统频谱库、 系统。

25、语音曲线库等。 0057 在一种可行的实施方式中, 采用语音识别技术对测评语音集合中各语音词汇进行 识别, 语音识别技术是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的 技术, 主要包括特征提取技术、 模式匹配准则及模型训练技术三个方面。 语音识别方法主要 说明书 4/15 页 6 CN 110111778 A 6 是模式匹配法, 在训练阶段, 录取词汇表中每一个词汇(即上述标准语音词汇)的语音, 并将 其特征矢量(即上述特征参数)作为模板(即上述标准语音词汇的特征参数)存入系统数据 库; 在识别阶段, 将输入的语音的特征矢量(即上述特征参数)依次与系统数据库中的每个 模板(即上述。

26、标准语音词汇的特征参数)进行相似度比较, 将相似度最高者作为识别输出结 果。 0058 S103, 当检测到在所述测评语音集合中存在无法识别的目标语音词汇时, 采用音 译方式获取所述目标语音词汇对应的文本词汇。 0059 需要说明的是, 所谓 “无法识别” , 具体意义可以是所述测评语音集合中某语音词 汇的特征参数与系统数据库中任一标准语音词汇的特征参数均不能完全重合, 或者所述测 评语音集合中某语音词汇的特征参数与系统数据库中各标准语音词汇的特征参数比对的 结果(如相似度等)均小于预设阈值等等, 则将该语音词汇记为目标语音词汇, 采用音译方 式获取其对应的文本词汇。 0060 具体的, 采用。

27、音译方式获取目标语音词汇对应的文本词汇, 即根据目标语音词汇 的发音将其转换为文本形式。 所述音译方式指把一种语言的词汇用另一种语言中与其发音 相同或近似的语音表示出来, 例如, 用发音近似的汉字将英语表示出来: 柠檬(lemon)、 沙发 (sofa)、 酷(cool)、 迪斯科(disco)、 欧佩克(OPEC)、 托福(TOEFL)、 雅皮士(Yuppies)、 特氟隆 (teflon)、 比基尼(bikini)、 尤里卡(EURECA)、 披头士(Beatles)、 腊克(locquer)、 妈咪 (mummy)、 朋克(punk)、 黑客(hacker)、 克隆(clone)等。 0。

28、061 举例来说, 采集的所述测评语音集合具体内容为 “Hello, my name is Lucy” , 系统 对测评语音集合中的各语音词汇进行识别, 由于系统数据库中的标准语音词汇不包括 “Lucy” , 所以语音词汇 “Lucy” 无法被识别, 则语音词汇 “Lucy” 即为目标语音词汇, 采用音译 方式获取 “Lucy” 对应的文本词汇 “露西” 。 0062 在一种可行的实施方式中, 所述音译方式可以通过将语音分解重组来实现, 例如 用发音近似的汉字将英语表示出来时, 先对所述目标语音词汇的语音波形进行分帧, 换言 之, 就是将声音切分成小段, 每小段称为一帧, 分帧操作一般不是简单。

29、的切开, 可以使用移 动窗函数来实现, 这里不详述; 将帧识别成状态, 其中, 状态可以理解成比音素更细致的语 音单位, 通常把一个音素划分成3个状态; 把状态组合成音素; 把音素组合成文本词汇; 例 如, 若干帧语音对应一个状态, 每三个状态组合成一个音素, 若干个音素组合成一个文本词 汇。 0063 S104, 输出所述文本词汇。 0064 具体的, 将获取到的所述目标语音词汇对应的文本词汇输出, 可以是输出至用户 终端的显示屏幕、 或者输出至系统数据库等, 输出的所述文本词汇可以用于展示给用户, 以 判断所述文本词汇是否与用户表达的语音词汇相符; 或者用于存入系统数据库, 以便再次 检测。

30、到所述目标语音词汇时能够将其识别。 0065 可选地, 在输出所述文本词汇后, 若接收到更正指令, 可以获取所述更正指令携带 的正确文本词汇。 所述更正指令及所述正确文本词汇可以由用户在用户终端的相关界面上 输入, 以使系统在输出的文本词汇与用户表达的语音词汇不相符的情况下, 对文本数据进 行更正。 0066 在一种可行的实现过程中, 用户终端显示界面的显示可以参照如图3至图5所示的 说明书 5/15 页 7 CN 110111778 A 7 方法, 其中包括如图3所示的文本词汇显示界面, 在该界面上包括 “无法识别目标语音词汇” 的文本提示信息和文本词汇确认界面, 所述文本词汇确认界面包括 。

31、“请确认以下文本词汇 是否正确: ” 的提示信息、 文本词汇的内容、“” 按钮和 “” 按钮, 所述 “” 按钮用于触发确 认所述文本词汇正确的操作, 所述 “” 按钮用于供用户确认所显示的文本词汇与用户表达 的语音词汇不相符, 进而触发下一步文本词汇更正的步骤。 0067 进一步的, 所述用户终端在文本词汇显示界面检测到 “” 按钮上的单击触摸动作 时, 显示如图4所示的文本词汇更正界面, 所述文本词汇更正界面包括 “请输入正确文本词 汇” 的提示信息、 输入框和确认按钮, 所述输入框用于供用户通过用户终端输入正确文本词 汇, 所述确认按钮为图形界面上的一个控件, 用于触发确认接收用户所输入。

32、的正确文本词 汇的操作。 0068 可以理解的是, 所述测评语音集合中可能存在多个无法识别的目标语音词汇, 每 当检测到无法识别的目标语音词汇时, 即可获取其对应的文本词汇; 相应地, 输出的文本词 汇可以为多个, 输出时可以将各目标语音词汇对应的文本词汇一起输出, 也可以按照检测 到各目标语音词汇的时间顺序依次输出。 0069 在一种可行的实现过程中, 用户终端显示的文本词汇显示界面如图5所示, 包括 “请确认以下文本词汇是否正确: ” 的提示信息、 多个文本词汇显示框和确认按钮, 所述多个 文本词汇显示框用于同时显示多个文本词汇, 所述确认按钮为图形界面上的一个控件, 用 于触发确认全部文。

33、本词汇均正确的操作。 0070 在一个或多个实施例中, 系统对采集的测评语音集合中的各语音词汇进行识别, 对于无法识别的目标语音词汇, 采用音译方式获取其对应的文本词汇, 从而可以输出无法 识别的所述目标语音词汇对应的文本词汇, 通过对无法识别的目标语音词汇对应的文本词 汇进行识别, 可以提高对语音词汇识别的智能性; 此外, 还使系统对用户测评语音集合的识 别更加精准, 进而更准确地实现对用户语音的评测, 以对用户的实际口语能力提供更精确 的评测、 对用户提高口语能力提供更有效的帮助。 0071 可以理解的是, 对用户语音的评测主要包括对语音质量进行的评估。 一般说来, 语 音质量至少包括三个。

34、方面内容: 清晰度、 可懂度和自然度。 清晰度是指语音中语音单元为意 义不连贯的(如音素、 声母、 韵母等)单元的清晰程度; 可懂度是指语音中有意义的语音单元 (如单词、 单句等)内容的可识别程度; 自然度则与语音的保真性密切相关。 在一个或多个实 施例中, 所述语音处理方法还能针对语音质量中的可懂度, 通过提高识别精度来提高评测 的精准度。 0072 请参见图6, 为本申请实施例提供了一种语音处理方法的流程示意图。 本申请实施 例以语音处理方法应用于用户终端中来举例说明。 该语音处理方法可以包括以下步骤: 0073 S201, 采集所输入的测评语音集合。 0074 具体可参见S101, 此处。

35、不再赘述。 0075 S202, 对所述测评语音集合中各语音词汇进行识别。 0076 具体可参见S102, 此处不再赘述。 0077 S203, 当检测到在所述测评语音集合中存在无法识别的目标语音词汇时, 采用音 译方式获取所述目标语音词汇对应的文本词汇。 0078 具体可参见S103, 此处不再赘述。 说明书 6/15 页 8 CN 110111778 A 8 0079 S204, 输出所述文本词汇。 0080 具体可参见S104, 此处不再赘述。 0081 S205, 响应于针对所述文本词汇输入的分类指令, 获取所述分类指令携带的分类 类型。 0082 其中, 所述分类指令可以是用户通过用。

36、户终端的相关界面上输入的, 分类类型可 以包括发音不标准词汇和生僻词汇, 此外, 还可以对生僻词汇进行进一步分类, 例如人名、 地名、 节目名、 菜名等等。 0083 具体的, 所述文本词汇可以输出至用户终端的显示屏, 以将该文本词汇呈现给用 户, 用户可以基于该文本词汇在相关界面上进行操作, 例如判断选择输出的文本词汇是否 错误、 输入正确文本词汇, 是否为生僻词汇、 或者是否为发音不标准词汇; 可选地, 若为生僻 词汇, 可进一步对生僻词汇进行分类选择。 系统可以获取根据用户的操作所生成的文本词 汇的分类指令, 并获取所述分类指令携带的分类类型。 0084 举例来说, 采集所输入的测评语音。

37、集合中包括以下词汇 “小朋友、 大酱汤、 宫崎骏、 普通话” : 系统对所述测评语音集合中各语音词汇进行识别, 可识别语音词汇 “小朋友” ; 检 测到无法识别的目标语音词汇 “大酱汤” , 输出采用音译方式获得的文本词汇 “大酱汤” , 获 取针对其输入的分类指令携带的分类类型为生僻词汇中的 “菜名” ; 检测到无法识别的目标 语音词汇 “宫崎骏” , 输出采用音译方式获得的文本词汇 “攻其郡” , 通过音译方式获得的文 本词汇与用户表达的语音词汇不符, 用户可以先对文本词汇进行更正(输入正确的文本词 汇 “宫崎骏” )后, 再输入分类指令(选择生僻词汇中的 “人名” 一类), 以使系统获取。

38、到更正过 的正确文本词汇 “宫崎骏” , 并获取所述分类指令对应的分类类型为生僻词汇中的 “人名” ; 检测到发音不准确导致无法识别的目标语音词汇 “普通话” , 输出采用音译方式获得的文本 词汇 “普通发” , 通过音译方式获得的文本词汇与用户表达的语音词汇不符, 用户可以先对 文本词汇进行更正(输入正确的文本词汇 “普通话” )后, 再输入分类指令(选择 “发音不标准 词汇” 类型), 以使系统获取到更正过的正确文本词汇 “普通话” , 并获取所述分类指令对应 的分类类型为 “发音不标准词汇” 。 0085 在一种可行的实现过程中, 用户终端显示的文本词汇显示界面如图5所示, 包括 “请确。

39、认以下文本词汇是否正确: ” 的提示信息、 多个文本词汇显示框和确认按钮, 所述用户 终端在当前界面检测到某个文本词汇显示框上的单击触摸动作时, 触发下一步文本词汇确 认的步骤。 例如, 所述用户终端在检测到第二个文本词汇显示框上的单击触摸动作时, 如图 7所示, 触发用户终端在显示界面上显示第二个文本词汇 “攻其郡” 对应的文本词汇确认信 息。 0086 进一步的, 如图7所示文本词汇对应的文本词汇确认界面包括对应文本词汇的内 容、“” 按钮和 “” 按钮, 当用户终端在当前界面检测到所述 “” 按钮上的单击触摸动作 时, 触发下一步文本词汇分类的操作; 当用户终端在当前界面检测到所述 “”。

40、 按钮上的单 击触摸动作时, 触发用户终端在显示界面上显示如图8所示的文本词汇更正界面, 在该界面 上用户可以在输入框中输入正确文本词汇后单击触摸确认按钮, 触发下一步文本词汇分类 的操作。 0087 进一步的, 文本词汇分类界面如图9所示, 包括 “请对一下文本词汇进行分类: ” 分 类提示信息、 对应文本词汇的内容、 多个分类类型按钮, 所述分类类型按钮用于供用户选择 说明书 7/15 页 9 CN 110111778 A 9 当前显示的文本词汇的分类类型, 例如生僻词汇、 发音不标准词汇等。 0088 进一步的, 所述中用户终端在文本词汇分类界面上检测到生僻词汇对应的分类类 型按钮上的单。

41、击触摸动作时, 显示如图10所示的文本词汇分类界面, 该界面包括输入框、 确 认按钮、 以及多个分类类型按钮; 所述多个分类类型按钮供用户对当前显示的文本词汇进 行进一步分类; 所述输入框用于输入分类类型, 若用户认为当前显示的文本词汇不属于多 个分类类型按钮上的任一分类, 可在所述输入框中输入新的分类类型, 输入框中可显示默 认文本 “请添加分类” , 所述用户终端在检测到输入框被使用时可自动删除该默认文本; 所 述确认按钮为图形界面上的一个控件, 用于触发确认接收用户所选择或所输入的分类类型 的操作。 0089 S206, 基于所述分类类型对所述文本词汇进行标记。 0090 可以理解的是,。

42、 基于分类类型可以将所述文本词汇标记为发音不标准词汇、 生僻 词汇人名类、 生僻词汇地名类、 生僻词汇节目名类、 生僻词汇菜名类等。 0091 在一个或多个实施例中, 系统对采集的测评语音集合中的各语音词汇进行识别, 输出无法识别的目标语音词汇对应的文本词汇, 通过对无法识别的目标语音词汇对应的文 本词汇进行识别及输出, 可以提高对语音词汇识别的智能性; 响应于针对所述文本词汇的 分类指令, 获取所述分类指令携带的分类类型, 基于分类类型对所述文本词汇进行标记, 可 以使输出的文本词汇更准确, 从而提高对用户测评语音集合的识别精度, 进而更准确地实 现对用户语音的评测, 以对用户的实际口语能力。

43、提供更精确的评测、 对用户提高口语能力 提供更有效的帮助。 0092 请参见图11, 为本申请实施例提供了一种语音处理方法的流程示意图。 本申请实 施例以语音处理方法应用于用户终端中来举例说明。 该语音处理方法可以包括以下步骤: 0093 S301, 采集所输入的测评语音集合。 0094 具体可参见S101, 此处不再赘述。 0095 S302, 获取所述测评语音集合中各语音词汇对应的样本语音曲线。 0096 具体的, 可先对所述测评语音集合进行预处理, 预处理方式包括音频信号去噪、 分 贝值设置等, 以去除音频中的杂音干扰和弱化背景音, 从而使得音频中的发音更为清晰, 得 到更适于语音识别的。

44、音频; 然后检测所述测评语音集合中语音停顿处或静音处、 对预处理 后的测评语音集合进行音频分割, 可以预先设置语音停顿时间间隔阈值, 计算所述测评语 音集合中停顿或静音持续的时间间隔, 当该时间间隔大于预先设定的语音停顿时间间隔阈 值时, 进行音频分割, 以将所述测评语音集合分割为语音词汇音频段; 识别各音频段的语音 曲线, 即可得到各语音词汇对应的样本语音曲线。 0097 需要说明的是, 语音曲线可以是语音信号的波形。 所述样本语音曲线, 即评测语音 集合中各语音词汇对应的语音信号的波形。 0098 S303, 将所述各语音词汇对应的样本语音曲线分别与标准语音曲线集合中各标准 语音曲线进行匹。

45、配, 获取所述各语音词汇对应的相似度集合。 0099 值得一提的是, 所述标准语音曲线集合可以是预先构建的系统语音曲线库中。 在 本步骤中, 将识别得到的样本语音曲线输入到所述标准语音曲线集合中, 与标准语音曲线 集合中的各标准语音曲线进行匹配, 一个样本语音曲线与一个标准语音曲线匹配的结果为 一个相似度, 将样本语音曲线分别于标准语音曲线集合中的各标准语音曲线匹配的结果为 说明书 8/15 页 10 CN 110111778 A 10 多个相似度, 统计每个样本语音曲线与各标准语音曲线匹配的结果, 即综合该样本语音曲 线对应的多个相似度, 可得到一个相似度集合。 可以理解的是, 每个语音词汇。

46、分别对应一个 相似度集合。 0100 S304, 基于所述相似度集合对所述各语音词汇进行识别。 0101 具体的, 可以预先设置相似度阈值, 若语音词汇对应的相似度集合中存在一个相 似度大于所述相似度阈值, 则判断该语音词汇可识别; 否则判断该语音词汇不可识别。 0102 举例来说, 测评语音集合中包括语音词汇1和语音词汇2; 获取语音词汇1的样本语 音曲线a、 语音词汇2的样本语音曲线b; 将样本语音曲线a与标准语音曲线集合中的各标准 语音曲线进行匹配、 得到相似度集合A, 将样本语音曲线b与标准语音曲线集合中的各标准 语音曲线进行匹配、 得到相似度集合B; 相似度集合A中任一相似度均不大于。

47、预先设置的相 似度阈值(例如95), 则判断语音词汇1无法识别, 将其记为目标语音词汇; 相似度集合B中 存在某一相似度(例如98)大于预先设置的相似度阈值(例如95), 则判断语音词汇2可 识别, 语音词汇2可视为: 与样本语音曲线a的相似度为98的标准语音曲线对应的语音词 汇。 0103 在一个或多个实施例中, 某个语音词汇对应的相似度集合中可能存在多个大于所 述相似度阈值的相似度, 此时仍判断该语音词汇可识别, 可以选择所述相似度集合中数值 最大的相似度所对应的标准语音曲线, 并将该语音词汇视为所选的标准语音曲线对应的语 音词汇。 0104 S305, 当检测到在所述测评语音集合中存在无。

48、法识别的目标语音词汇时, 采用音 译方式获取所述目标语音词汇对应的文本词汇。 0105 具体可参见S103, 此处不再赘述。 0106 S306, 输出所述文本词汇。 0107 具体可参见S104, 此处不再赘述。 0108 S307, 响应于针对所述文本词汇输入的分类指令, 获取所述分类指令携带的分类 类型。 0109 具体可参见S205, 此处不再赘述。 0110 S308, 基于所述分类类型对所述文本词汇进行标记。 0111 具体可参见S206, 此处不再赘述。 0112 S309, 获取所述目标语音词汇对应的目标样本语音曲线。 0113 具体的, 所述目标样本语音曲线可以是步骤S302。

49、中识别的。 举例来说, 测评语音集 合中包括无法识别的语音词汇1、 可识别的语音词汇2、 以及不可识别的语音词汇3, 分别对 应样本语音曲线a、 样本语音曲线b、 样本语音曲线c, 则目标语音词汇包括语音词汇1和语音 词汇3, 目标样本语音曲线包括样本语音曲线a和样本语音曲线c。 0114 S310, 将所述目标样本语音曲线保存至系统语音曲线库中所述分类类型对应的曲 线栏。 0115 举例来说, 目标语音词汇包括语音词汇1和语音词汇3, 其中语音词汇1的分类类型 为生僻词汇人名类、 语音词汇3的分类类型为生僻词汇地名类, 则将语音词汇1保存至系统 语音曲线库中生僻词汇人名类曲线栏, 将语音词汇。

50、3保存至系统语音曲线库中生僻词汇地 名类曲线栏, 以使后续再检测到下次检测到语音词汇1或语音词汇3时, 系统可对其进行识 说明书 9/15 页 11 CN 110111778 A 11 别。 可以理解的是, 将目标样本语音曲线保存至系统语音曲线库以后, 系统再次识别到该语 音词汇的方法与对测评语音集合中各语音词汇的识别大致相同, 具体可参见步骤S301至 S304, 此处不再赘述。 0116 在一个或多个实施例中, 电子设备对采集的测评语音集合中的各语音词汇进行识 别, 输出无法识别的目标语音词汇对应的文本词汇, 通过对无法识别的目标语音词汇对应 的文本词汇进行识别及输出, 可以提高对语音词汇。

展开阅读全文
内容关键字: 语音 处理 方法 装置 存储 介质 电子设备
关于本文
本文标题:语音处理方法、装置、存储介质及电子设备.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/11448305.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1