自学习的语音控制方法、系统及存储介质.pdf
《自学习的语音控制方法、系统及存储介质.pdf》由会员分享,可在线阅读,更多相关《自学习的语音控制方法、系统及存储介质.pdf(13页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201911321657.7 (22)申请日 2019.12.18 (71)申请人 睿住科技有限公司 地址 528311 广东省佛山市顺德区北滘镇 君兰社区居委会怡福路1号北滘国际 财富中心 (万联中心) 16楼1601-1610 单元 (72)发明人 陈品良李强魏会杰 (74)专利代理机构 广州三环专利商标代理有限 公司 44202 代理人 郭浩辉麦小婵 (51)Int.Cl. G10L 15/02(2006.01) G10L 15/18(2013.01) G10L 15/22。
2、(2006.01) G10L 15/30(2013.01) G10L 25/87(2013.01) G10L 15/06(2013.01) (54)发明名称 一种自学习的语音控制方法、 系统及存储介 质 (57)摘要 本发明公开了一种自学习的语音控制方法、 系统及存储介质, 所述方法包括: 实时采集用户 的语音输入信号, 先后经过前端处理、 声学特征 提取处理和解码处理, 通过构建WFST搜索空间模 型筛选匹配概率最高的最优路径, 得到最优识别 结果中的语音指令词后与语音指令词列表进行 匹配, 若匹配成功则输出对应的语音控制指令; 若匹配不成功则对该语音指令词进行标记, 并上 传至云端后台; 。
3、当云端后台检测存在超过预设标 记次数的语音指令词后, 自动下载该语音指令词 至DSP语音处理芯片, 完成语音指令词的自学习; 在接收更新指令后, 将新增的语音指令词关联至 对应的场景联动模式。 本发明能够深度学习用户 日常语音指令习惯从而更新语音指令词, 提高用 户语音控制体验。 权利要求书2页 说明书8页 附图2页 CN 110992932 A 2020.04.10 CN 110992932 A 1.一种自学习的语音控制方法, 其特征在于, 至少包括如下步骤: 当用户通过语音唤醒词唤醒设备后, 实时采集用户的语音输入信号, 先后经过前端处 理、 声学特征提取处理和解码处理, 并通过构建WFS。
4、T搜索空间模型筛选匹配概率最高的最 优路径, 得到最优识别结果; 根据所述最优识别结果中的语音指令词与本地预存的语音指令词列表进行匹配, 若匹 配成功则输出对应的语音控制指令; 若匹配不成功, 则对所述最优识别结果中的语音指令词进行标记, 并上传至云端后台 后进行存储; 当所述云端后台检测存在超过预设标记次数的语音指令词后, 自动下载该语音指令词 至DSP语音处理芯片中, 完成语音指令词的自学习; 在接收用户发送的更新语音指令词的指令后, 将新增的语音指令词更新至所述语音指 令词列表, 并关联至对应的场景联动模式。 2.根据权利要求1所述的自学习的语音控制方法, 其特征在于, 还包括: 预先采。
5、集用户录入的语音指令词后, 通过语音识别算法先后进行前端处理和声学特征 提取处理, 得到对应的声学特征数据; 对所述声学特征数据进行解码处理, 构建WFST搜索空间模型, 生成语音指令词列表后 保存至DSP语音处理芯片中。 3.根据权利要求1所述的自学习的语音控制方法, 其特征在于, 所述实时采集用户的语 音输入信号, 还包括: 通过双麦克风拾音器进行目标语音信号和环境音的采集, 并采用双麦降噪算法进行降 噪采集。 4.根据权利要求1所述的自学习的语音控制方法, 其特征在于, 所述构建WFST搜索空间 模型还包括声学模型训练, 具体为: 在获取语料集合对应的文字集后, 将获得的文字集进行格式化。
6、处理, 在音频文件中提 取声学特征数据并进行单因素训练后, 将得到的音频信息和文字信息进行对齐训练, 训练 得到音频参数。 5.根据权利要求1所述的自学习的语音控制方法, 其特征在于, 所述前端处理, 具体为: 将通过麦克风装置采集的语音信号转化为语音数据流, 传输至DSP语音处理芯片; 通过所述DSP语音处理芯片将所接收的语音数据流进行语音格式转码处理, 将语音数 据流转换成对应格式的语音文件; 对转码后的语音文件进行端点检测, 检测得到转码后的语音文件中的有效语音信息。 6.根据权利要求1所述的自学习的语音控制方法, 其特征在于, 所述声学特征提取处 理, 具体为: 将通过所述前端处理后的。
7、语音信号进行切割, 得到若干针的语音信号; 通过傅里叶变换算法计算每针语音信号中包含的能量值、 基音频谱、 共振峰值和短时 过零率, 并建立声学特征数学模型。 7.根据权利要求1所述的自学习的语音控制方法, 其特征在于, 所述解码处理, 具体为: 通过DSP语音处理芯片中的解码模块对提取的声学特征数据进行解码处理, 并采用发 音字典、 声学模型和语言模型建立WFST搜索空间模型。 权利要求书 1/2 页 2 CN 110992932 A 2 8.一种自学习的语音控制系统, 其特征在于, 包括: 语音识别模块, 用于当用户通过语音唤醒词唤醒设备后, 实时采集用户的语音输入信 号, 先后经过前端处。
8、理、 声学特征提取处理和解码处理, 并通过构建WFST搜索空间模型筛选 匹配概率最高的最优路径, 得到最优识别结果; 指令匹配模块, 用于根据所述最优识别结果中的语音指令词与本地预存的语音指令词 列表进行匹配, 若匹配成功则输出对应的语音控制指令; 自学习模块, 用于当语音指令词匹配不成功时, 对所述最优识别结果中的语音指令词 进行标记, 并上传至云端后台后进行存储; 当所述云端后台检测存在超过预设标记次数的 语音指令词后, 自动下载该语音指令词至DSP语音处理芯片中, 完成语音指令词的自学习; 指令更新模块, 用于在接收用户发送的更新语音指令词的指令后, 将新增的语音指令 词更新至所述语音指。
9、令词列表, 并关联至对应的场景联动模式。 9.根据权利要求8所述的自学习的语音控制系统, 其特征在于, 还包括: 预处理模块, 用于预先采集用户录入的语音指令词后, 通过语音识别算法先后进行前 端处理和声学特征提取处理, 得到对应的声学特征数据; 语音指令词列表模块, 用于对所述声学特征数据进行解码处理, 构建WFST搜索空间模 型, 生成语音指令词列表后保存至DSP语音处理芯片中。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质包括存储的计算 机程序, 其中, 在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权 利要求1至7任一项所述的自学习的语音控制方法。
10、。 权利要求书 2/2 页 3 CN 110992932 A 3 一种自学习的语音控制方法、 系统及存储介质 技术领域 0001 本发明涉及智能家居技术领域, 尤其涉及一种自学习的语音控制方法、 系统及存 储介质。 背景技术 0002 随着语音识别技术的发展, 已经越来越多的设备嵌入语音识别交互技术, 用户可 以通过语音在线控制相应的灯光、 窗帘、 空调等家用设备, 实现语音的分布式操控。 现在市 面上的语音识别技术分为在线语音和离线语音。 0003 但是, 在对现有技术的研究与实践的过程中, 本发明的发明人发现, 目前市面上的 离线语音识别系统需要用户先制定固定的指令词, 在厂家通过频繁指令。
11、词训练后, 在语音 MCU处理器上进行运算从而实现基本的识别功能, 不仅耗时和耗费人力, 并且指令词训练过 程繁琐而且不够人性化。 发明内容 0004 本发明实施例所要解决的技术问题在于, 提供一种自学习的语音控制方法、 系统 及存储介质, 能够基于用户日常使用的语音习惯更新语音指令词。 0005 为解决上述问题, 本发明的一个实施例提供一种自学习的语音控制方法, 至少包 括如下步骤: 0006 当用户通过语音唤醒词唤醒设备后, 实时采集用户的语音输入信号, 先后经过前 端处理、 声学特征提取处理和解码处理, 并通过构建WFST搜索空间模型筛选匹配概率最高 的最优路径, 得到最优识别结果; 0。
12、007 根据所述最优识别结果中的语音指令词与本地预存的语音指令词列表进行匹配, 若匹配成功则输出对应的语音控制指令; 0008 若匹配不成功, 则对所述最优识别结果中的语音指令词进行标记, 并上传至云端 后台后进行存储; 0009 当所述云端后台检测存在超过预设标记次数的语音指令词后, 自动下载该语音指 令词至DSP语音处理芯片中, 完成语音指令词的自学习; 0010 在接收用户发送的更新语音指令词的指令后, 将新增的语音指令词更新至所述语 音指令词列表, 并关联至对应的场景联动模式。 0011 进一步地, 所述自学习的语音控制方法, 还包括: 0012 预先采集用户录入的语音指令词后, 通过。
13、语音识别算法先后进行前端处理和声学 特征提取处理, 得到对应的声学特征数据; 0013 对所述声学特征数据进行解码处理, 构建WFST搜索空间模型, 生成语音指令词列 表后保存至DSP语音处理芯片中。 0014 进一步地, 所述实时采集用户的语音输入信号, 还包括: 0015 通过双麦克风拾音器进行目标语音信号和环境音的采集, 并采用双麦降噪算法进 说明书 1/8 页 4 CN 110992932 A 4 行降噪采集。 0016 进一步地, 所述构建WFST搜索空间模型还包括声学模型训练, 具体为: 0017 在获取语料集合对应的文字集后, 将获得的文字集进行格式化处理, 在音频文件 中提取声。
14、学特征数据并进行单因素训练后, 将得到的音频信息和文字信息进行对齐训练, 训练得到音频参数。 0018 进一步地, 所述前端处理, 具体为: 0019 将通过麦克风装置采集的语音信号转化为语音数据流, 传输至DSP语音处理芯片; 0020 通过所述DSP语音处理芯片将所接收的语音数据流进行语音格式转码处理, 将语 音数据流转换成对应格式的语音文件; 0021 对转码后的语音文件进行端点检测, 检测得到转码后的语音文件中的有效语音信 息。 0022 进一步地, 所述声学特征提取处理, 具体为: 0023 将通过所述前端处理后的语音信号进行切割, 得到若干针的语音信号; 0024 通过傅里叶变换算。
15、法计算每针语音信号中包含的能量值、 基音频谱、 共振峰值和 短时过零率, 并建立声学特征数学模型。 0025 进一步地, 所述解码处理, 具体为: 0026 通过DSP语音处理芯片中的解码模块对提取的声学特征数据进行解码处理, 并采 用发音字典、 声学模型和语言模型建立WFST搜索空间模型。 0027 本发明的一个实施例还提供了一种自学习的语音控制系统, 包括: 0028 语音识别模块, 用于当用户通过语音唤醒词唤醒设备后, 实时采集用户的语音输 入信号, 先后经过前端处理、 声学特征提取处理和解码处理, 并通过构建WFST搜索空间模型 筛选匹配概率最高的最优路径, 得到最优识别结果; 002。
16、9 指令匹配模块, 用于根据所述最优识别结果中的语音指令词与本地预存的语音指 令词列表进行匹配, 若匹配成功则输出对应的语音控制指令; 0030 自学习模块, 用于当语音指令词匹配不成功时, 对所述最优识别结果中的语音指 令词进行标记, 并上传至云端后台后进行存储; 当所述云端后台检测存在超过预设标记次 数的语音指令词后, 自动下载该语音指令词至DSP语音处理芯片中, 完成语音指令词的自学 习; 0031 指令更新模块, 用于在接收用户发送的更新语音指令词的指令后, 将新增的语音 指令词更新至所述语音指令词列表, 并关联至对应的场景联动模式。 0032 进一步地, 所述自学习的语音控制系统, 。
17、还包括: 0033 预处理模块, 用于预先采集用户录入的语音指令词后, 通过语音识别算法先后进 行前端处理和声学特征提取处理, 得到对应的声学特征数据; 0034 语音指令词列表模块, 用于对所述声学特征数据进行解码处理, 构建WFST搜索空 间模型, 生成语音指令词列表后保存至DSP语音处理芯片中。 0035 本发明的另一实施例还提供了一种计算机可读存储介质, 所述计算机可读存储介 质包括存储的计算机程序, 其中, 在所述计算机程序运行时控制所述计算机可读存储介质 所在设备执行如上述的自学习的语音控制方法。 0036 实施本发明实施例, 具有如下有益效果: 说明书 2/8 页 5 CN 11。
18、0992932 A 5 0037 本发明实施例提供的一种自学习的语音控制方法、 系统及存储介质, 所述方法包 括: 当用户通过语音唤醒词唤醒设备后, 实时采集用户的语音输入信号, 先后经过前端处 理、 声学特征提取处理和解码处理, 并通过构建WFST搜索空间模型筛选匹配概率最高的最 优路径, 得到最优识别结果; 根据所述最优识别结果中的语音指令词与本地预存的语音指 令词列表进行匹配, 若匹配成功则输出对应的语音控制指令; 若匹配不成功, 则对所述最优 识别结果中的语音指令词进行标记, 并上传至云端后台后进行存储; 当所述云端后台检测 存在超过预设标记次数的语音指令词后, 自动下载该语音指令词至。
19、DSP语音处理芯片中, 完 成语音指令词的自学习; 在接收用户发送的更新语音指令词的指令后, 将新增的语音指令 词更新至所述语音指令词列表, 并关联至对应的场景联动模式。 本发明能够深度学习用户 日常语音指令习惯, 生成基于用户习惯的语音指令词至语音控制系统, 无需进行繁琐的语 音指令词训练过程, 并解决目前固定离线式指令词在语音识别方面灵活性较低的问题, 提 高用户体验。 附图说明 0038 图1是本发明第一实施例提供的一种自学习的语音控制方法的流程示意图; 0039 图2是本发明第一实施例提供的实现自学习的语音控制方法的流程示意图; 0040 图3是本发明第一实施例提供的实现自学习的语音控。
20、制方法的电路装置的结构示 意图; 0041 图4是本发明第二实施例提供的一种自学习的语音控制系统的结构示意图。 具体实施方式 0042 下面将结合本发明实施例中的附图, 对本发明实施例中的技术方案进行清楚、 完 整地描述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而不是全部的实施例。 基于 本发明中的实施例, 本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例, 都属于本发明保护的范围。 0043 本发明第一实施例: 0044 请参阅图1-3。 0045 如图1所示, 本实施例提供了一种自学习的语音控制方法, 至少包括如下步骤: 0046 S101、 当用户通过语音。
21、唤醒词唤醒设备后, 实时采集用户的语音输入信号, 先后经 过前端处理、 声学特征提取处理和解码处理, 并通过构建WFST搜索空间模型筛选匹配概率 最高的最优路径, 得到最优识别结果。 0047 具体的, 对于步骤S101, 如图2所示, 当用户说出该设备的语音唤醒词, 唤醒语音设 备的时候就开始实时采集用户的语音信号。 通过语音MCU进行分析和翻译成指令词存储在 MCU的存储器上进行标记, 当设备的语音采集系统采集到用户的语音指令词以后, 通过语音 信号模数转换电路, 将语音模拟信号转换成数字信号后输入到语音处理专用DSP芯片, DSP 芯片运用语音识别算法软件在语音DSP芯片内进行语音识别,。
22、 先后进行前端处理、 特征提 取、 模型训练和解码四个步骤。 采集的每一句语音首先被麦克风拾音后成为语音数据流进 入DSP芯片后, 最先由前端处理, 前端处理是先进行语音格式转码将数据流转成PCM或者WAV 格式的语音, 然后进行端点检测, 将转码后语音中的有效语音检测出来, 最后将前端处理得 说明书 3/8 页 6 CN 110992932 A 6 到的分段语音数据送入特征提取模块, 进行声学特征提取, 最后解码模块对提取的特征数 据进行解码, 解码过程中利用发音字典, 声学模型, 语言模型等信息构建WFST搜索空间, 在 搜索空间内寻找匹配概率最大的最优路径, 得到最优的识别结果。 004。
23、8 S102、 根据所述最优识别结果中的语音指令词与本地预存的语音指令词列表进行 匹配, 若匹配成功则输出对应的语音控制指令。 0049 具体的, 对于步骤S102, 根据上一步得到的最优识别结果进行分析, 将最优识别结 果中识别得到语音指令词与本地存储的语音指令词列表中已有的指令词进行逐条比对, 若 比对结果一致则输出语音控制指令至对应的设备进行语音控制, 以使设备根据语音控制指 令进行驱动。 0050 S103、 若匹配不成功, 则对所述最优识别结果中的语音指令词进行标记, 并上传至 云端后台后进行存储。 0051 具体的, 对于步骤S103, 若比对结果不一致, 则将该指令信息标记, 并。
24、上传至云端 后台进行存储, 而本地设备则不执行动作。 0052 S104、 当所述云端后台检测存在超过预设标记次数的语音指令词后, 自动下载该 语音指令词至DSP语音处理芯片中, 完成语音指令词的自学习。 0053 具体的, 对于步骤S104, 当云端后台检测该语音信息的标记次数达到10次后, 自动 下载到存储语音芯片内部, 完成一次学习过程。 0054 S105、 在接收用户发送的更新语音指令词的指令后, 将新增的语音指令词更新至 所述语音指令词列表, 并关联至对应的场景联动模式。 0055 具体的, 对于步骤S105, 当用户打开APP时, 则会提示用户有新的指令词, 是否需要 关联进场景。
25、, 用户确定后即可将语音面板生成的指令词关联到场景形成用户习惯的指令。 例如设备当前默认的场景语音指令词是 “回家模式” , 实际上用户喜欢用 “我回家了” 代替 “回家模式” 这种生硬的交互模式, 当设备标记 “我回家了” 超过10次则自动生成该指令词完 成用户习惯的学习。 0056 在优选的实施例中, 所述自学习的语音控制方法, 还包括: 0057 预先采集用户录入的语音指令词后, 通过语音识别算法先后进行前端处理和声学 特征提取处理, 得到对应的声学特征数据; 0058 对所述声学特征数据进行解码处理, 构建WFST搜索空间模型, 生成语音指令词列 表后保存至DSP语音处理芯片中。 00。
26、59 具体的, 用户通过设备的语音采集系统预先录入相关语音指令词, 通过语音信号 模数转换电路, 将语音模拟信号转换成数字信号后输入至语音处理专用的DSP芯片中, DSP 芯片运用语音识别算法软件分别进行前端处理、 特征提取、 模型训练和解码处理, 构建WFST 搜索空间, 生成语音指令词列表后存储至本地。 0060 在优选的实施例中, 所述实时采集用户的语音输入信号, 还包括: 0061 通过双麦克风拾音器进行目标语音信号和环境音的采集, 并采用双麦降噪算法进 行降噪采集。 0062 具体的, 通过配置了两个电容式麦克风, 第一麦克风用于采集人声, 第二麦克风用 于采集环境音, 其中第一麦克。
27、风是主话筒, 用于拾取人与设备对话的语音, 第二麦克风是背 景声拾音话筒, 通常安装在设备的底部或者顶部, 并且远离第一麦克风, 两个麦克风在内部 说明书 4/8 页 7 CN 110992932 A 7 有主板隔离。 正常语音交互时, 用户嘴巴靠近第一麦克风或者声源距离与第一麦克风接近, 产生较大的音频信号Va, 与此同时, 第二麦克风也会得到一些语音信号Vb, 但Vb要比Va小得 多, 这两个信号输入语音前端处理器, 其输入端是个差分放大器, 也就是把两路信号相减后 再放大, 于是得到的信号是VmVa-Vb。 如果在使用环境中有背景噪音, 因为音源是远离设 备的, 所以到达设备的两个麦克风。
28、时声波的强度几乎是一样的, 也就是VaVb, 于是对于背 景噪音, 两个麦克风虽然都拾取背景噪音了, 但VmVa-Vb0, 从上面的分析可以看出, 这 样的设计可以有效地抵御设备周边的环境噪声干扰, 大大提高正常语音对话的清晰度。 0063 在优选的实施例中, 所述前端处理, 具体为: 0064 将通过麦克风装置采集的语音信号转化为语音数据流, 传输至DSP语音处理芯片; 0065 通过所述DSP语音处理芯片将所接收的语音数据流进行语音格式转码处理, 将语 音数据流转换成对应格式的语音文件; 0066 对转码后的语音文件进行端点检测, 检测得到转码后的语音文件中的有效语音信 息。 0067 具。
29、体的, 一句语音首先被麦克风拾音后成为语音数据流进入DSP最先由前端处理, 前端处理是先进行语音格式转码将数据流转成PCM或者WAV格式的语音, 然后进行端点检 测, 检测转码后语音中的有效语音。 0068 在优选的实施例中, 所述声学特征提取处理, 具体为: 0069 将通过所述前端处理后的语音信号进行切割, 得到若干针的语音信号; 0070 通过傅里叶变换算法计算每针语音信号中包含的能量值、 基音频谱、 共振峰值和 短时过零率, 并建立声学特征数学模型。 0071 具体的, 将前端处理得到的分段语音数据送入声学特征提取模块, 进行声学特征 提取, 由于语音信号是短时平稳信号, 首先将声音信。
30、号切成一针一针的, 每针大约20 30MS, 每针语音信号包含数个语音信号的基本周期, 再通过傅里叶变换计算把语音信号中 包含的能量值、 基音频谱、 共振峰值和短时过零率计算出来, 建立数学模型。 0072 在优选的实施例中, 所述解码处理, 具体为: 0073 通过DSP语音处理芯片中的解码模块对提取的声学特征数据进行解码处理, 并采 用发音字典、 声学模型和语言模型建立WFST搜索空间模型。 0074 具体的, 解码模块对提取的特征数据进行解码, 解码过程中利用发音字典, 声学模 型, 语言模型等信息构建WFST搜索空间, 通过加权有限状态转换器基于半环代数理论, 在状 态转移弧上设置有输。
31、入符号、 输出符号以及对应的权重值。 在语音识别中, 输入可能是发声 的声韵母, 输出是一个个汉字或词语。 在搜索空间内寻找匹配概率最大的最优路径, WFST的 计算过程虽然都有一个路径能输出最优结果, 但是需要在所有的路径中找到最短的路径, 使得语音识别的效率提高, 并提高准确率, 便得到最优的识别结果。 0075 在优选的实施例中, 所述构建WFST搜索空间模型还包括声学模型训练, 具体为: 0076 在获取语料集合对应的文字集后, 将获得的文字集进行格式化处理, 在音频文件 中提取声学特征数据并进行单因素训练后, 将得到的音频信息和文字信息进行对齐训练, 训练得到音频参数。 0077 具。
32、体的, 在采集到的语音指令进行声学特征提取后, 将提取出的语音指令片段进 行声学模型训练, 本实施例中声学模型训练基于目前的圣经网络算法构架, 将前端的特征 说明书 5/8 页 8 CN 110992932 A 8 提取出来的语音频谱作为神经网路算法的输入。 其中, 声学模型的训练步骤如下: 1、 获取语 料集和对应的文字集; 2、 将获得的文字集进行格式化; 3、 从音频文件提取声学特征; 4、 单因 素训练; 5、 将音频和文字对齐训练得到音频参数, 最终得到指令词对应的信号信息。 0078 如图3所示, 本实施例还提供了一种实现自学习的语音控制方法的电路装置, 包括 第一麦克风、 第二麦。
33、克风、 AD转DC电源模块、 语音主控MCU、 按键模块、 喇叭和WIFI模组, 所述 第一麦克风和第二麦克风, 用于实现目标语音信号的采集以及环境音的采集并利用算法实 现双麦降噪功能; 所述语音主控MCU, 用于实现语音信号的分析, 学习以及控制信号的输出; 所述WIFI模组, 用于实现与云端的通讯, 进而实现手机APP的控制; 所述AC转DC电源模块, 用 于实现强电转弱点的功能, 弱点供给语音模块和WIFI模块; 所述实体按键模块用于实现场 景本地一键操作。 0079 设备预先已默认有一套可控制场景或者设备的语音指令词, 当用户对着面板说出 固定的指令词, 设备即可执行相应的控制动作。 。
34、比如用户对着面板说:“我回来了。 ” , 面板执 行开灯。 如果当用户改变了语音内容, 说:“我下班了。 ” 此时此刻面板不会执行动作, 麦克风 会将该没有的语音拾音收集, 通过语音MCU进行分析和翻译成指令词存储在MCU的存储器上 进行标记, 当下一次用户还是说出了该指令词, 则再次标注记忆该指令, 通过自学习生成该 指令词, 并通过WIFI通讯上传至服务器, 当用户打开APP时, 则会提示用户有新的指令词, 是 否需要关联进场景, 用户确定后即可将语音面板生成的指令词关联到场景形成用户习惯的 指令。 0080 本发明实施例提供的一种自学习的语音控制方法, 包括: 当用户通过语音唤醒词 唤醒。
35、设备后, 实时采集用户的语音输入信号, 先后经过前端处理、 声学特征提取处理和解码 处理, 并通过构建WFST搜索空间模型筛选匹配概率最高的最优路径, 得到最优识别结果; 根 据所述最优识别结果中的语音指令词与本地预存的语音指令词列表进行匹配, 若匹配成功 则输出对应的语音控制指令; 若匹配不成功, 则对所述最优识别结果中的语音指令词进行 标记, 并上传至云端后台后进行存储; 当所述云端后台检测存在超过预设标记次数的语音 指令词后, 自动下载该语音指令词至DSP语音处理芯片中, 完成语音指令词的自学习; 在接 收用户发送的更新语音指令词的指令后, 将新增的语音指令词更新至所述语音指令词列 表,。
36、 并关联至对应的场景联动模式。 本发明能够深度学习用户日常语音指令习惯, 生成基于 用户习惯的语音指令词至语音控制系统, 无需进行繁琐的语音指令词训练过程, 并解决目 前固定离线式指令词在语音识别方面灵活性较低的问题, 提高用户体验。 0081 本发明第二实施例: 0082 如图4所示, 本实施例提供了一种自学习的语音控制系统, 包括: 0083 语音识别模块100, 用于当用户通过语音唤醒词唤醒设备后, 实时采集用户的语音 输入信号, 先后经过前端处理、 声学特征提取处理和解码处理, 并通过构建WFST搜索空间模 型筛选匹配概率最高的最优路径, 得到最优识别结果。 0084 具体的, 对于语。
37、音识别模块100, 当用户说出该设备的语音唤醒词, 唤醒语音设备 的时候就开始实时采集用户的语音信号。 通过语音MCU进行分析和翻译成指令词存储在MCU 的存储器上进行标记, 当设备的语音采集系统采集到用户的语音指令词以后, 通过语音信 号模数转换电路, 将语音模拟信号转换成数字信号后输入到语音处理专用DSP芯片, DSP芯 片运用语音识别算法软件在语音DSP芯片内进行语音识别, 先后进行前端处理、 特征提取、 说明书 6/8 页 9 CN 110992932 A 9 模型训练和解码四个步骤。 采集的每一句语音首先被麦克风拾音后成为语音数据流进入 DSP芯片后, 最先由前端处理, 前端处理是先。
38、进行语音格式转码将数据流转成PCM或者WAV格 式的语音, 然后进行端点检测, 将转码后语音中的有效语音检测出来, 最后将前端处理得到 的分段语音数据送入特征提取模块, 进行声学特征提取, 最后解码模块对提取的特征数据 进行解码, 解码过程中利用发音字典, 声学模型, 语言模型等信息构建WFST搜索空间, 在搜 索空间内寻找匹配概率最大的最优路径, 得到最优的识别结果。 0085 指令匹配模块200, 用于根据所述最优识别结果中的语音指令词与本地预存的语 音指令词列表进行匹配, 若匹配成功则输出对应的语音控制指令。 0086 具体的, 对于指令匹配模块200, 根据最优识别结果进行分析, 将最。
39、优识别结果中 识别得到语音指令词与本地存储的语音指令词列表中已有的指令词进行逐条比对, 若比对 结果一致则输出语音控制指令至对应的设备进行语音控制, 以使设备根据语音控制指令进 行驱动。 0087 自学习模块300, 用于当语音指令词匹配不成功时, 对所述最优识别结果中的语音 指令词进行标记, 并上传至云端后台后进行存储; 当所述云端后台检测存在超过预设标记 次数的语音指令词后, 自动下载该语音指令词至DSP语音处理芯片中, 完成语音指令词的自 学习。 0088 具体的, 对于自学习模块300, 若比对结果不一致, 则将该指令信息标记, 并上传至 云端后台进行存储, 而本地设备则不执行动作。 。
40、当云端后台检测该语音信息的标记次数达 到10次后, 自动下载到存储语音芯片内部, 完成一次学习过程。 0089 指令更新模块400, 用于在接收用户发送的更新语音指令词的指令后, 将新增的语 音指令词更新至所述语音指令词列表, 并关联至对应的场景联动模式。 0090 具体的, 对于指令更新模块400, 当用户打开APP时, 则会提示用户有新的指令词, 是否需要关联进场景, 用户确定后即可将语音面板生成的指令词关联到场景形成用户习惯 的指令。 例如设备当前默认的场景语音指令词是 “回家模式” , 实际上用户喜欢用 “我回家 了” 代替 “回家模式” 这种生硬的交互模式, 当设备标记 “我回家了”。
41、 超过10次则自动生成该 指令词完成用户习惯的学习。 0091 在优选的实施例中, 所述自学习的语音控制系统, , 还包括: 0092 预处理模块, 用于预先采集用户录入的语音指令词后, 通过语音识别算法先后进 行前端处理和声学特征提取处理, 得到对应的声学特征数据; 0093 语音指令词列表模块, 用于对所述声学特征数据进行解码处理, 构建WFST搜索空 间模型, 生成语音指令词列表后保存至DSP语音处理芯片中。 0094 具体的, 对于预处理模块和语音指令词列表模块, 用户通过设备的语音采集系统 预先录入相关语音指令词, 通过语音信号模数转换电路, 将语音模拟信号转换成数字信号 后输入至语。
42、音处理专用的DSP芯片中, DSP芯片运用语音识别算法软件分别进行前端处理、 特征提取、 模型训练和解码处理, 构建WFST搜索空间, 生成语音指令词列表后存储至本地。 0095 本发明实施例提供的一种自学习的语音控制系统, 包括: 语音识别模块, 用于当用 户通过语音唤醒词唤醒设备后, 实时采集用户的语音输入信号, 先后经过前端处理、 声学特 征提取处理和解码处理, 并通过构建WFST搜索空间模型筛选匹配概率最高的最优路径, 得 到最优识别结果; 指令匹配模块, 用于根据所述最优识别结果中的语音指令词与本地预存 说明书 7/8 页 10 CN 110992932 A 10 的语音指令词列表进。
43、行匹配, 若匹配成功则输出对应的语音控制指令; 自学习模块, 用于当 语音指令词匹配不成功时, 对所述最优识别结果中的语音指令词进行标记, 并上传至云端 后台后进行存储; 当所述云端后台检测存在超过预设标记次数的语音指令词后, 自动下载 该语音指令词至DSP语音处理芯片中, 完成语音指令词的自学习; 指令更新模块, 用于在接 收用户发送的更新语音指令词的指令后, 将新增的语音指令词更新至所述语音指令词列 表, 并关联至对应的场景联动模式。 本发明能够深度学习用户日常语音指令习惯, 生成基于 用户习惯的语音指令词至语音控制系统, 无需进行繁琐的语音指令词训练过程, 并解决目 前固定离线式指令词在。
44、语音识别方面灵活性较低的问题, 提高用户体验。 0096 本发明的另一个实施例还提供了一种计算机可读存储介质, 所述计算机可读存储 介质包括存储的计算机程序, 其中, 在所述计算机程序运行时控制所述计算机可读存储介 质所在设备执行如上述的一种自学习的语音控制方法。 0097 在本发明的上述实施例中, 对各个实施例的描述都各有侧重, 某个实施例中没有 详述的部分, 可以参见其他实施例的相关描述。 0098 在本申请所提供的几个实施例中, 应该理解到, 所揭露的技术内容, 可通过其它的 方式实现。 其中, 以上所描述的装置实施例仅仅是示意性的, 例如所述模块的划分, 可以为 一种逻辑功能划分, 实。
45、际实现时可以有另外的划分方式, 例如多个模块或组件可以结合或 者可以集成到另一个系统, 或一些特征可以忽略, 或不执行。 另一点, 所显示或讨论的相互 之间的耦合或直接耦合或通信连接可以是通过一些接口, 单元或模块的间接耦合或通信连 接, 可以是电性或其它的形式。 0099 所述作为分离部件说明的模块可以是或者也可以不是物理上分开的, 作为模块显 示的部件可以是或者也可以不是物理模块, 即可以位于一个地方, 或者也可以分布到多个 模块上。 可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。 0100 另外, 在本发明各个实施例中的各功能模块可以集成在一个处理模块中, 也可以。
46、 是各个模块单独物理存在, 也可以两个或两个以上模块集成在一个模块中。 上述集成的模 块既可以采用硬件的形式实现, 也可以采用软件功能模块的形式实现。 0101 以上所述是本发明的优选实施方式, 应当指出, 对于本技术领域的普通技术人员 来说, 在不脱离本发明原理的前提下, 还可以做出若干改进和变形, 这些改进和变形也视为 本发明的保护范围。 0102 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以 通过计算机程序来指令相关的硬件来完成, 所述的程序可存储于一计算机可读取存储介质 中, 该程序在执行时, 可包括如上述各方法的实施例的流程。 其中, 所述的存储介质可为磁 碟、 光盘、 只读存储记忆体(Read-Only Memory, ROM)或随机存储记忆体(Random Access Memory, RAM)等。 说明书 8/8 页 11 CN 110992932 A 11 图1 图2 说明书附图 1/2 页 12 CN 110992932 A 12 图3 图4 说明书附图 2/2 页 13 CN 110992932 A 13 。
- 内容关键字: 自学习 语音 控制 方法 系统 存储 介质
新能源汽车用直流充电座.pdf
汽车智能避碰装置.pdf
骨料分选系统.pdf
片材生产用冷却设备.pdf
排水管道定位结构.pdf
一体式地面操作控制台.pdf
调色色浆过滤装置.pdf
干式变压器线圈吊具.pdf
下肢体能训练机器人.pdf
具有振动功能的发声装置.pdf
方便调整的缝纫机卷布装置.pdf
通讯接口.pdf
挤浆机加料装置.pdf
检测光刻胶适用性的方法及装置.pdf
齿轮箱生产用滚齿装置.pdf
基于动态规划和量子退火的RNA结构预测方法及系统.pdf
基于大数据的电力数据监管系统及方法.pdf
基于UWB的音频传输方法、装置、终端及存储介质.pdf
铸造铝合金及其制备方法和应用.pdf
内置光纤电缆导体的制作方法.pdf
基于神经网络的噪声等级监测装置、监测方法及电子设备.pdf
轨道交通车辆电连接器用固定框装置.pdf
碳氮共渗的加热装置.pdf
油田隐患井报废的连续注浆封堵设备及方法.pdf
多角度辐照抗菌装置及其在制备抗菌面料中的应用.pdf
流星雨页面生成方法、装置、设备及存储介质.pdf
航路与平台之间安全距离的评估方法、电子设备.pdf
混凝土密实用混凝土振动装置.pdf
基于NS3网络仿真平台的数据链仿真方法.pdf
双重降低残碱的高镍无钴正极材料及其制备方法.pdf
PTFE膜自动缠卷设备及缠卷方法.pdf
装配式断热桥楼宇景观亮化结构及其应用.pdf
一种一孔两用的隧洞排水孔结构.pdf
钢管桩围堰结构.pdf
一种生态砌块.pdf
一种铁路桥梁用泄水管.pdf
一种卷帘门的抗风装置.pdf
一种掺有非预应力钢筋的管桩钢筋笼.pdf
大型沉管隧道管段基础.pdf
汽车手套箱开启装置.pdf
城市道路上空花园式电动跃层停车商务楼.pdf
蒸压加气砌块砌窗结构.pdf
一种升降式旋转室外消火栓.pdf
框架结构T型连接柱.pdf
防静电地板吸板器.pdf
一种建筑用箱体或井口预留孔洞活动模具.pdf
速成拉建房屋.pdf
预制桥面板精轧螺纹钢筋弧形连接构造.pdf
一种内固定式伸缩门滑行导轨及伸缩门.pdf
多用途封井器.pdf
一种新型圆弧建筑模板紧固件.pdf