语音指令识别方法、系统及计算机可读存储介质.pdf

上传人:凯文 文档编号:9283775 上传时间:2021-05-12 格式:PDF 页数:17 大小:664.33KB
收藏 版权申诉 举报 下载
语音指令识别方法、系统及计算机可读存储介质.pdf_第1页
第1页 / 共17页
语音指令识别方法、系统及计算机可读存储介质.pdf_第2页
第2页 / 共17页
语音指令识别方法、系统及计算机可读存储介质.pdf_第3页
第3页 / 共17页
文档描述:

《语音指令识别方法、系统及计算机可读存储介质.pdf》由会员分享,可在线阅读,更多相关《语音指令识别方法、系统及计算机可读存储介质.pdf(17页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010074215.3 (22)申请日 2020.01.22 (71)申请人 南京雷鲨信息科技有限公司 地址 210022 江苏省南京市江北新区星火 路17号创智大厦A座601室 (72)发明人 陈乙银塞力克斯兰穆郑斌 胡泰东 (74)专利代理机构 上海雍灏知识产权代理事务 所(普通合伙) 31368 代理人 沈汶波 (51)Int.Cl. G10L 15/22(2006.01) G10L 15/06(2013.01) G06F 3/16(2006.01) A63F 13/。

2、424(2014.01) (54)发明名称 语音指令识别方法、 系统及计算机可读存储 介质 (57)摘要 本发明提供了一种语音指令识别方法、 系统 及计算机可读存储介质, 语音指令识别方法, 包 括以下步骤: 于一智能终端内, 启动语音指令识 别脚本, 以加载语音指令识别脚本内的语音模 型; 当智能终端的内的一应用程序启动时, 启用 智能终端的音频采集设备; 采集输入至音频采集 设备的指令音频, 并识别指令音频至指令消息; 将指令消息与语音模型内的识别结果消息比对, 当指令消息与识别结果消息匹配或相似度大于 一相似度阈值时, 将指令消息与语音模型匹配; 执行所匹配的语音模型内预设的执行操作, 。

3、基于 执行操作控制应用程序。 采用上述技术方案后, 通过语音模型的训练和预设指令的配置, 可减少 语音语义识别时的工作时间, 降低语音操作过程 中的功耗。 权利要求书2页 说明书10页 附图4页 CN 111292744 A 2020.06.16 CN 111292744 A 1.一种语音指令识别方法, 其特征在于, 包括以下步骤: 于一智能终端内, 启动语音指令识别脚本, 以加载语音指令识别脚本内的语音模型; 当智能终端的内的一应用程序启动时, 启用智能终端的音频采集设备; 采集输入至音频采集设备的指令音频, 并识别所述指令音频至指令消息; 将所述指令消息与语音模型内的识别结果消息比对, 当。

4、所述指令消息与识别结果消息 匹配或相似度大于一相似度阈值时, 将所述指令消息与语音模型匹配; 执行所匹配的语音模型内预设的执行操作, 基于所述执行操作控制所述应用程序。 2.如权利要求1所述的语音指令识别方法, 其特征在于, 于一智能终端内, 启动语音指令识别脚本, 以加载语音指令识别脚本内的语音模型的 步骤包括: 智能终端内启动语音指令识别脚本, 并判断所述语音指令识别脚本内是否具有语音模 型; 当不具有语音模型时, 于智能终端内形成一提示界面, 显示激活语音消息接收功能的 信息; 接收外部形成的至少一条语音消息; 识别每一所述语音消息形成至少一条识别结果消息, 并将识别结果消息显示于一映射。

5、 界面; 于所述映射界面上还显示目标应用程序的操作单元; 将每一所述识别结果消息与一个或多个操作单元关联, 形成配置关系后保存。 3.如权利要求2所述的语音指令识别方法, 其特征在于, 识别每一所述语音消息形成至少一条识别结果消息, 并将识别结果消息显示于一映射 界面的步骤包括: 解析语音消息并将所述语音消息转换为文字消息; 提取所述文字消息中的关键词; 保存所述关键词为至少一条识别结果消息, 并发送所述识别结果消息至一服务器端以 于服务器端生成语音模型。 4.如权利要求3所述的语音指令识别方法, 其特征在于, 提取所述文字消息中的关键词的步骤包括: 获取目标应用程序及目标应用程序的常用语; 。

6、将所述文字消息与所述常用语对比, 提取文字消息中与常用语匹配或相似度高于一预 设阈值的内容; 保存所述内容为关键词或修改所述内容至相似度最接近的常用语为关键词。 5.如权利要求2所述的语音指令识别方法, 其特征在于, 将每一所述识别结果消息与一个或多个操作单元关联, 形成配置关系后保存的步骤包 括: 接收执行于映射界面上的外部操作, 根据所述外部操作, 移动所述操作单元与映射界 面的位置; 当任意操作单元移动至与一识别结果消息对应的位置时, 将识别结果消息与操作单元 关联; 权利要求书 1/2 页 2 CN 111292744 A 2 保存各操作单元与识别结果消息的关联关系为语音模型的配置关系。

7、。 6.如权利要求2所述的语音指令识别方法, 其特征在于, 将每一所述识别结果消息与一个或多个操作单元关联, 形成配置关系后保存的步骤 后, 还包括以下步骤: 对所述配置关系命名, 并自所述服务器端下载所述语音模型; 修改所述语音模型的名称为所述配置关系的名称, 并将所述配置关系保存至所述语音 模型内; 保存所述语音模型至一数据库。 7.如权利要求1所述的语音指令识别方法, 其特征在于, 执行所匹配的语音模型内预设的执行操作, 基于所述执行操作控制所述应用程序的步 骤包括: 根据语音模型内预设的执行操作, 构建针对智能终端的显示单元的触摸事件, 并发送 所述触摸事件至智能终端的控制单元; 基于。

8、智能终端的安装系统的注入方案, 控制单元产生触摸控制并生效, 以形成执行操 作控制应用程序。 8.如权利要求7所述的语音指令识别方法, 其特征在于, 根据语音模型内预设的执行操作, 构建针对智能终端的显示单元的触摸事件, 并发送 所述触摸事件至智能终端的控制单元的步骤还包括: 于智能终端的显示单元显示一提示符号以作为触摸事件构建成功的通知信号。 9.一种语音指令识别系统, 其特征在于, 包括: 脚本模块, 设于一智能终端内, 当脚本模块激活时, 启动设于脚本模块内的语音指令识 别脚本; 加载模块, 加载脚本模块内的语音指令识别脚本内的语音模型; 音频采集设备, 当智能终端的内的一应用程序启动时。

9、, 采集指令音频; 控制单元, 识别所述指令音频至指令消息, 将所述指令消息与语音模型内的识别结果 消息比对, 当所述指令消息与识别结果消息匹配或相似度大于一相似度阈值时, 将所述指 令消息与语音模型匹配, 并执行所匹配的语音模型内预设的执行操作, 以基于所述执行操 作控制所述应用程序。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现以下步骤: 于一智能终端内, 启动语音指令识别脚本, 以加载语音指令识别脚本内的语音模型; 当智能终端的内的一应用程序启动时, 启用智能终端的音频采集设备; 采集输入至音频采集设备的指令音频, 并识别所述指。

10、令音频至指令消息; 将所述指令消息与语音模型内的识别结果消息比对, 当所述指令消息与识别结果消息 匹配或相似度大于一相似度阈值时, 将所述指令消息与语音模型匹配; 执行所匹配的语音模型内预设的执行操作, 基于所述执行操作控制所述应用程序。 权利要求书 2/2 页 3 CN 111292744 A 3 语音指令识别方法、 系统及计算机可读存储介质 技术领域 0001 本发明涉及语音控制领域, 尤其涉及一种语音指令识别方法、 系统及计算机可读 存储介质。 背景技术 0002 随着智能终端、 平板电脑、 笔记本电脑的快速普及, 人们对上述设备的使用已越来 越有依赖性。 对于此类设备的使用, 用户一般。

11、基于设备所具有的触摸屏来输入指定, 例如单 击、 双击、 长按触摸屏上显示的操作按钮, 以向设备输出操作指令。 0003 为丰富用户向设备的指令输入, 不少设备厂商开发出了语音操作的功能。 通过对 用户向设备发出的语音的识别, 将其解析为对设备的操作后, 执行相应的操作。 0004 现有技术中, 通过语音识别将语音输入转换为语音指令, 再将语音指令和游戏中 的游戏指令进行映射的方式来实现, 具体实现时, 需要将语音采集识别模块和语音控制指 令集打包成SDK并深度集成到游戏模块中, 或需要终端设备中进行输入驱动程序的修改实 现成本高, 需要游戏厂家和设备厂家的深度合作开发才能完成。 且该方式兼容。

12、性差, 需要针 对每一个游戏指令进行适配, 以及未考虑到语音识别的功耗问题。 此外, 若语音识别的流程 较长或卡顿, 将影响用户的指令输入。 0005 因此, 需要一种新型的语音指令识别方法, 可以训练得到应用于低功耗场景操控 的模型, 在进行语音指令识别时, 减少语音识别和指令转化的流程, 提高智能终端的续航能 力。 发明内容 0006 为了克服上述技术缺陷, 本发明的目的在于提供一种语音指令识别方法、 系统及 计算机可读存储介质, 通过语音模型的训练和预设指令的配置, 可减少语音语义识别时的 工作时间, 降低语音操作过程中的功耗。 0007 本发明公开了一种语音指令识别方法, 包括以下步骤。

13、: 0008 于一智能终端内, 启动语音指令识别脚本, 以加载语音指令识别脚本内的语音模 型; 0009 当智能终端的内的一应用程序启动时, 启用智能终端的音频采集设备; 0010 采集输入至音频采集设备的指令音频, 并识别指令音频至指令消息; 0011 将指令消息与语音模型内的识别结果消息比对, 当指令消息与识别结果消息匹配 或相似度大于一相似度阈值时, 将指令消息与语音模型匹配; 0012 执行所匹配的语音模型内预设的执行操作, 基于执行操作控制应用程序。 0013 优选地, 于一智能终端内, 启动语音指令识别脚本, 以加载语音指令识别脚本内的 语音模型的步骤包括: 0014 智能终端内启。

14、动语音指令识别脚本, 并判断语音指令识别脚本内是否具有语音模 型; 说明书 1/10 页 4 CN 111292744 A 4 0015 当不具有语音模型时, 于智能终端内形成一提示界面, 显示激活语音消息接收功 能的信息; 0016 接收外部形成的至少一条语音消息; 0017 识别每一语音消息形成至少一条识别结果消息, 并将识别结果消息显示于一映射 界面; 0018 于映射界面上还显示目标应用程序的操作单元; 0019 将每一识别结果消息与一个或多个操作单元关联, 形成配置关系后保存。 0020 优选地, 识别每一语音消息形成至少一条识别结果消息, 并将识别结果消息显示 于一映射界面的步骤包。

15、括: 0021 解析语音消息并将语音消息转换为文字消息; 0022 提取文字消息中的关键词; 0023 保存关键词为至少一条识别结果消息, 并发送识别结果消息至一服务器端以于服 务器端生成语音模型。 0024 优选地, 提取文字消息中的关键词的步骤包括: 0025 获取目标应用程序及目标应用程序的常用语; 0026 将文字消息与常用语对比, 提取文字消息中与常用语匹配或相似度高于一预设阈 值的内容; 0027 保存内容为关键词或修改内容至相似度最接近的常用语为关键词。 0028 优选地, 将每一识别结果消息与一个或多个操作单元关联, 形成配置关系后保存 的步骤包括: 0029 接收执行于映射界。

16、面上的外部操作, 根据外部操作, 移动操作单元与映射界面的 位置; 0030 当任意操作单元移动至与一识别结果消息对应的位置时, 将识别结果消息与操作 单元关联; 0031 保存各操作单元与识别结果消息的关联关系为语音模型的配置关系。 0032 优选地, 将每一识别结果消息与一个或多个操作单元关联, 形成配置关系后保存 的步骤后, 还包括以下步骤: 0033 对配置关系命名, 并自服务器端下载语音模型; 0034 修改语音模型的名称为配置关系的名称, 并将配置关系保存至语音模型内; 0035 保存语音模型至一数据库。 0036 优选地, 执行所匹配的语音模型内预设的执行操作, 基于执行操作控制。

17、应用程序 的步骤包括: 0037 根据语音模型内预设的执行操作, 构建针对智能终端的显示单元的触摸事件, 并 发送触摸事件至智能终端的控制单元; 0038 基于智能终端的安装系统的注入方案, 控制单元产生触摸控制并生效, 以形成执 行操作控制应用程序。 0039 优选地, 根据语音模型内预设的执行操作, 构建针对智能终端的显示单元的触摸 事件, 并发送触摸事件至智能终端的控制单元的步骤还包括: 0040 于智能终端的显示单元显示一提示符号以作为触摸事件构建成功的通知信号。 说明书 2/10 页 5 CN 111292744 A 5 0041 本发明还公开了一种语音指令识别系统, 包括: 004。

18、2 脚本模块, 设于一智能终端内, 当脚本模块激活时, 启动设于脚本模块内的语音指 令识别脚本; 0043 加载模块, 加载脚本模块内的语音指令识别脚本内的语音模型; 0044 音频采集设备, 当智能终端的内的一应用程序启动时, 采集指令音频; 0045 控制单元, 识别指令音频至指令消息, 将指令消息与语音模型内的识别结果消息 比对, 当指令消息与识别结果消息匹配或相似度大于一相似度阈值时, 将指令消息与语音 模型匹配, 并执行所匹配的语音模型内预设的执行操作, 以基于执行操作控制应用程序。 0046 本发明又公开了一种计算机可读存储介质, 其上存储有计算机程序, 计算机程序 被处理器执行时。

19、实现以下步骤: 0047 于一智能终端内, 启动语音指令识别脚本, 以加载语音指令识别脚本内的语音模 型; 0048 当智能终端的内的一应用程序启动时, 启用智能终端的音频采集设备; 0049 采集输入至音频采集设备的指令音频, 并识别指令音频至指令消息; 0050 将指令消息与语音模型内的识别结果消息比对, 当指令消息与识别结果消息匹配 或相似度大于一相似度阈值时, 将指令消息与语音模型匹配; 0051 执行所匹配的语音模型内预设的执行操作, 基于执行操作控制应用程序。 0052 采用了上述技术方案后, 与现有技术相比, 具有以下有益效果: 0053 1.训练后的模型支持同一场景下的多个应用。

20、或是不同场景下的多个应用; 0054 2.映射方式更为直接, 方便用户将训练后的语音模型与操作指令关联; 0055 3.语音模型在使用时, 降低了识别功耗和时间, 有效加速将语音转换为操作的过 程; 0056 4.语音指令识别后, 无需再对指令分析其所映射的控制指令, 利用先期已预设的 语音模型, 将分析所用耗时转移至更前期, 加快语音指令转换为控制指令的速度; 0057 5.语音模型的共享性提高了语音指令识别系统的复用性。 附图说明 0058 图1为符合本发明一优选实施例中语音指令识别方法的流程示意图; 0059 图2为符合本发明一进一步优选实施例中语音指令识别方法的流程示意图; 0060 。

21、图3为符合本发明又一进一步优选实施例中语音指令识别方法的流程示意图; 0061 图4为符合本发明一优选实施例中语音指令识别系统的结构示意图。 具体实施方式 0062 以下结合附图与具体实施例进一步阐述本发明的优点。 0063 这里将详细地对示例性实施例进行说明, 其示例表示在附图中。 下面的描述涉及 附图时, 除非另有表示, 不同附图中的相同数字表示相同或相似的要素。 以下示例性实施例 中所描述的实施方式并不代表与本公开相一致的所有实施方式。 相反, 它们仅是与如所附 权利要求书中所详述的、 本公开的一些方面相一致的装置和方法的例子。 0064 在本公开使用的术语是仅仅出于描述特定实施例的目的。

22、, 而非旨在限制本公开。 说明书 3/10 页 6 CN 111292744 A 6 在本公开和所附权利要求书中所使用的单数形式的 “一种” 、“所述” 和 “该” 也旨在包括多数 形式, 除非上下文清楚地表示其他含义。 还应当理解, 本文中使用的术语 “和/或” 是指并包 含一个或多个相关联的列出项目的任何或所有可能组合。 0065 应当理解, 尽管在本公开可能采用术语第一、 第二、 第三等来描述各种信息, 但这 些信息不应限于这些术语。 这些术语仅用来将同一类型的信息彼此区分开。 例如, 在不脱离 本公开范围的情况下, 第一信息也可以被称为第二信息, 类似地, 第二信息也可以被称为第 一信。

23、息。 取决于语境, 如在此所使用的词语 “如果” 可以被解释成为 “在时” 或 “当 时” 或 “响应于确定” 。 0066 在本发明的描述中, 需要理解的是, 术语 “纵向” 、“横向” 、“上” 、“下” 、“前” 、“后” 、 “左” 、“右” 、“竖直” 、“水平” 、“顶” 、“底”“内” 、“外” 等指示的方位或位置关系为基于附图所 示的方位或位置关系, 仅是为了便于描述本发明和简化描述, 而不是指示或暗示所指的装 置或元件必须具有特定的方位、 以特定的方位构造和操作, 因此不能理解为对本发明的限 制。 0067 在本发明的描述中, 除非另有规定和限定, 需要说明的是, 术语 “安。

24、装” 、“相连” 、 “连接” 应做广义理解, 例如, 可以是机械连接或电连接, 也可以是两个元件内部的连通, 可 以是直接相连, 也可以通过中间媒介间接相连, 对于本领域的普通技术人员而言, 可以根据 具体情况理解上述术语的具体含义。 0068 在后续的描述中, 使用用于表示元件的诸如 “模块” 、“部件” 或 “单元” 的后缀仅为 了有利于本发明的说明, 其本身并没有特定的意义。 因此,“模块” 与 “部件” 可以混合地使 用。 0069 参阅图1, 为符合本发明一优选实施例中语音指令识别方法的流程示意图, 在该实 施例中, 语音指令识别方法包括以下步骤: 0070 S100: 于一智能终。

25、端内, 启动语音指令识别脚本, 以加载语音指令识别脚本内的语 音模型 0071 智能终端作为接受语音指令并将语音指令转换对自身的控制指令的设备, 其内保 存有语音指令识别脚本, 例如基于自然语言或非自然语言处理的API, 与语音指令识别脚本 内存储有语音模型(或未存储时, 新建语音模型)。 对于语音模型的加载, 用户对智能终端的 操作, 可选择语音模型的对应性, 例如用户需对某一目标性应用程序, 如 “王者荣耀” 、“刺激 战场” 、“腾讯视频” 等, 进行语音操控, 则选择语音模型时, 可选择专用于期望应用程序的语 音模型, 也即语音模型可用于智能终端内一应用场景下的一应用, 而当同一语音指。

26、令在不 同应用程序内所执行的操作相同时, 例如 “返回” 、“进入设置界面” 等, 可选择通用型语音模 型, 或者选择任一具有统一语音指令转化的语音模型, 即语音模型支持同一场景下的多个 应用或是不同场景下的多个应用。 0072 S200: 当智能终端的内的一应用程序启动时, 启用智能终端的音频采集设备 0073 基于用户的操作, 启动智能终端内的一应用程序, 在应用程序启动后, 基于智能终 端对应用程序的权限设置, 可调用智能终端的音频采集设备, 例如麦克风、 与智能终端有线 或无线连接的耳机设备等。 0074 S300: 采集输入至音频采集设备的指令音频, 并识别所述指令音频至指令消息 0。

27、075 用户向智能终端输入指令音频, 例如发出声音至智能终端、 向与智能终端有线或 说明书 4/10 页 7 CN 111292744 A 7 无线连接的耳机设备发出声音等, 由音频采集设备采集该指令音频。 可以理解的是, 音频采 集设备在应用程序运行时, 可始终静默工作, 当用户发出声音时, 可随时对指令音频采集, 或是预设一采集功能启动的按键、 操作(如双击智能终端、 三击智能终端等), 根据预设按 键、 操作的激活, 启用对指令音频的采集。 指令音频的采集后, 音频采集设备将转发至控制 单元(如CPU等), 由控制单元将音频信号的指令音频转换为文字形式或数字形式的指令消 息, 转换的方式。

28、已现有多种, 在此不作多赘述。 0076 S400: 将指令消息与语音模型内的识别结果消息比对, 当指令消息与识别结果消 息匹配或相似度大于一相似度阈值时, 将指令消息与语音模型匹配 0077 控制单元将把转换后的指令消息与语音模型内的识别结果消息比对, 可以理解的 是, 语音模型在训练时, 已将训练预设的语音指令转换为识别结果消息, 以及识别结果消息 与对应操作的映射关系。 因此, 指令消息与识别结果消息比对后, 以判断指令消息是否可匹 配至识别结果消息(如两者完全相同, 指令消息包含识别结果消息、 指令消息包含于识别结 果消息、 指令消息的表达意义等同于识别结果消息的表达意义、 指令消息的。

29、部分与识别结 果消息的部分重叠等), 或在指令消息与识别结果消息完全不同的情况下, 两者通过相同语 义、 近似语义具有一定的相似度(该相似度大于一相似度阈值), 从而确定指令消息与语音 模型内的识别结果消息匹配。 0078 S500: 执行所匹配的语音模型内预设的执行操作, 基于执行操作控制应用程序 0079 指令消息与语音模型映射成功后, 基于语音模型内已预设的, 与识别结果消息映 射的预设执行操作, 控制应用程序。 也就是说, 该实施例的语音指令识别方法中, 指令音频 至操作指令的映射配置关系为: 指令音频指令消息语音模型内的识别结果消 息执行操作对应用程序的操作控制。 可以理解的是, 执。

30、行操作可以是对应用程序 内的具体操作, 例如 “腾讯视频” 内对流媒体的快进、“王者荣耀” 内对操作英雄的回城控制 等。 0080 具有上述配置, 通过对语音模型的使用, 将语音消息与执行操作的分析映射关系, 提前在语音模型训练时完成, 从而语音指令识别时, 可完全摒弃语音消息所对应执行操作 的分析过程, 即简化语音识别操作的流程。 0081 参阅图2, 一优选实施例中, 于一智能终端内, 启动语音指令识别脚本, 以加载语音 指令识别脚本内的语音模型的步骤S100包括: 0082 S110: 智能终端内启动语音指令识别脚本, 并判断所述语音指令识别脚本内是否 具有语音模型 0083 语音指令识。

31、别脚本启动后, 将先判断该脚本内是否具有语音模型可利用加载。 0084 S120: 当不具有语音模型时, 于智能终端内形成一提示界面, 显示激活语音消息接 收功能的信息 0085 在不具有语音模型下, 需要训练形成语音模型。 语音模型训练方法可在一服务器 端、 智能终端内完成, 则语音模型训练时, 便通过服务器端自带的显示屏、 与服务器端连接 的显示屏、 智能终端的显示屏等交互介质向外展示。 具有这些显示屏后, 在初始语音模型训 练方法时, 将形成一提示界面, 提示界面显示在这些显示屏上, 并显示出已激活语音消息接 收功能的信息, 告知需要形成语音模型的用户可向服务器端、 智能终端、 或与服务。

32、器端, 智 能终端连接的麦克风等可接收语音的设备发送语音消息, 以开始对语音识别和模型建立。 说明书 5/10 页 8 CN 111292744 A 8 0086 S130: 接收外部形成的至少一条语音消息 0087 根据所显示的提示界面, 并进入模型训练界面后, 可提示用户向设备发送语音消 息的信息。 用户接收到该模型训练界面后, 可根据模型训练界面的引导, 向设备(如上文所 述的, 服务器端、 智能终端、 或与服务器端, 智能终端连接的麦克风等可接收语音的设备)发 送至少一条语音消息, 例如包括纯汉语的操作指令消息, 如 “攻击” 、“防御” 、“回城” 、“集 合” 、“撤退” 等, 或。

33、包括外语的操作指令消息, 如 “attack” 、“defence” 、“back” 、“done” 等, 或 包括数字的操作指令消息, 如 “666” 、“333” 、“886” 等。 0088 S140: 识别每一语音消息形成至少一条识别结果消息, 并将识别结果消息显示于 一映射界面 0089 接收到语音消息后, 将对每一语音消息作语音识别, 形成至少一条识别结果消息。 可以理解的是, 所形成的识别结果消息, 可以是完全对应于所接收的语音消息, 例如用户向 设备输入的语音消息为 “大家都进攻” , 则识别结果消息为 “大家都进攻” , 也可以是对应于 所接收的部分语音消息, 例如识别结果消。

34、息为 “都进攻” 或 “进攻” 。 所识别形成的识别结果 消息将在设备的显示屏上, 具体地, 在显示屏的映射界面上显示, 以告知用户设备对语音消 息的识别结果, 用户可确认识别的准确度, 在识别结果消息的准确度足够高时(大于设定阈 值, 或经用户确认), 可执行下一步; 而在识别结果消息的准确度不够时(小于设定阈值, 或 用户未确认), 可请求用户重新输入语音消息, 或重新对语音消息识别, 直至识别结果消息 的准确度足够高。 0090 S150: 于映射界面上还显示目标应用程序的操作单元 0091 映射界面上除显示识别结果消息外, 还将显示至少一个目标应用程序, 这些目标 应用程序为可使用语音。

35、模型, 并根据语音模型执行相应操作的应用程序, 例如根据语音消 息执行对应操作的游戏类应用程序, 根据语音消息执行流媒体控制的媒体类应用程序等。 在映射界面上, 对于目标应用程序的显示可采用唯一的、 易识别的操作单元, 例如目标应用 程序的名称、 图标等。 也就是说, 映射界面内分别展示了识别结果消息以及对应于目标应用 程序的操作单元, 可方便用户了解识别结果消息可对应至哪些使用场景。 0092 S160: 将每一识别结果消息与一个或多个操作单元关联, 形成配置关系后保存 0093 用户可在映射界面内输入控制指令, 对于每一识别结果消息, 将其与一个或多个 操作单元关联, 从而形成识别结果消息。

36、与操作单元的映射关系, 延伸至识别结果消息与目 标应用程序的映射关系, 进一步延伸至语音消息与目标应用程序内具体操作的映射关系, 该映射关系保存为配置关系。 例如, 识别结果消息为 “攻击” , 根据用户对识别结果消息的映 射操作,“攻击” 的识别结果消息与如 “王者荣耀” 、“使用召唤” 、“阴阳师” 等游戏类应用程序 关联, 从而在所形成的语音模型内, 对语音识别后的 “攻击” 将对应至目标应用程序的具体 操作。 该具体操作, 也可以是根据用户的映射操作, 在映射界面内将识别结果消息与应用程 序内的具体图标联系, 从而使得最初的 “攻击” 语音消息转换为 “王者荣耀” 、“使用召唤” 、 。

37、“阴阳师” 等游戏类应用程序的攻击图标的执行。 0094 通过上述配置, 训练后的模型支持同一场景下的多个应用或是不同场景下的多个 应用, 使得一个语音消息可在多个应用程序内使用, 首先节省了语音模型的所占空间; 其 次, 用户将语音消息与操作单元的映射方式更为直接。 0095 一进步优选实施例中, 识别每一所述语音消息形成至少一条识别结果消息, 并将 说明书 6/10 页 9 CN 111292744 A 9 识别结果消息显示于一映射界面的步骤S140包括: 0096 S141: 解析语音消息并将语音消息转换为文字消息 0097 接收到语音消息后, 可通过语音识别模块, 将语音信号形式的语音。

38、消息转换为文 字消息。 该实施例中使用的语音识别模块可以是常见的将语音转换为文字的APK等。 0098 S142: 提取文字消息中的关键词; 0099 对于所转换的文字消息, 将对其中的关键词提取。 而对于关键词的提取, 如上文所 述的, 可以是整个文字消息(例如文字消息的字数较少时), 或是文字消息中去除噪音文字, 或与操作指令无关的剩余关键词。 0100 S143: 保存关键词为至少一条识别结果消息, 并发送识别结果消息至一服务器端 以于服务器端生成语音模型 0101 将所得到的关键词保存为至少一条识别结果消息, 且当接收语音消息的为智能终 端时, 智能终端可将识别结果消息发送至服务器端,。

39、 在服务器端保存后, 转换为常用的语音 模型。 0102 更具体地, 提起文字消息中的关键词的步骤S142包括: 0103 S142-1: 获取目标应用程序及目标应用程序的常用语; 0104 对于用户的智能终端内已安装的应用程序, 根据用户的选择操作选定其中部分或 全部为目标应用程序。 选定目标应用程序后, 将获取该目标应用程序内的常用语。 以 “王者 荣耀” 的目标应用程序为例, 在确定目标应用程序包括其后, 可自网络上调取 “王者荣耀” 的 常用消息为常用语, 例如 “一波” 、“打野” 、“回城” 、“撤撤” 等, 也可根据用户自身的配置, 定 制有专用于自身的常用消息为常用语, 例如 。

40、“射手跟我” 、“别去回来” 灯, 也可对 “王者荣耀” 的各界面作识别, 将界面内显示的文字转换为常用语, 例如 “商城” 、“设置” 、“英雄” 等直接 显示在目标应用程序界面内的文字; 以 “腾讯视频” 的目标应用程序为例, 在确定目标应用 程序包括其后, 同样可自网络上调取 “腾讯视频” 的常用消息为常用语, 例如 “退出” 、“推 荐” 、“增大音量” 等, 也可根据用户自身的配置, 定制有专用于自身的常用消息为常用语, 例 如 “快进15秒” 、“快退30秒” 、“下一首” 等, 也可对 “腾讯视频” 的各界面作识别, 将界面内显 示的文字转换为常用语, 例如 “每日推荐” 、“影。

41、视” 、“综艺” 、“体育” 等直接显示在目标应用 程序界面内的文字。 0105 S142-2: 将文字消息与常用语对比, 提取文字消息中与常用语匹配或相似度高于 一预设阈值的内容; 0106 具有常用语后, 将把识别后所得的文字消息与常用语比对, 比对下可能有以下情 况: 0107 1)文字消息与常用语完全匹配 0108 以常用语为 “攻击” 或 “回城” 为例, 当语音消息转换为的文字消息为 “攻击” 或 “回 城” 时, 一方面表示用户对终端输入的语音为其发出的 “攻击” 或 “回城” , 另一方面, 在文字 消息与常用语完全匹配下, 将文字消息完全保留。 0109 2)文字消息的部分与。

42、常用语匹配 0110 以常用语为 “攻击” 或 “回城” 为例, 当语音消息转换为的文字消息为 “我要攻击” 、 “攻击对方” 、“我要回城” 或 “赶紧回城” 时, 一方面表示用户对终端输入的语音为其发出的 “我要攻击” 、“攻击对方” 、“我要回城” 或 “赶紧回城” , 另一方面, 文字消息中, 包含了常用语 说明书 7/10 页 10 CN 111292744 A 10 的全部, 则并不完全保留文字消息, 而是将文字消息中包括的常用语部分提取作为识别结 果消息, 以节省语音模型的占用空间。 0111 3)文字消息与常用语的部分匹配 0112 以常用语为 “快进15秒” 、“快退30秒”。

43、 、“播放音乐调节气氛” 为例, 当语音消息转换 为的文字消息为 “快退” 、“快进” 或 “来点音乐” 时, 一方面表示用户对终端输入的语音为其 发出的 “快退” 、“快进” 或 “来点音乐” , 另一方面, 全部文字消息中, 包含了常用语的部分, 即 文字消息包含于常用语内, 则可选择性地完全保留文字消息, 如仅保留 “快退” 、“快进” 或 “来点音乐” , 或者根据文字消息与常用语的包含程序, 自动地将文字消息映射至常用语, 如 文字消息为 “快退” 时, 所提取的为与该 “快退” 最接近的 “快退30秒” 。 0113 4)文字消息的部分与常用语的部分匹配 0114 以常用语为 “快。

44、进15秒” 、“快退30秒” 、“播放音乐调节气氛” 为例, 当语音消息转换 为的文字消息为 “我要快进” 、“我要快退” 或 “我要播放音乐” 时, 一方面表示用户对终端输 入的语音为其发出的 “我要快进” 、“我要快退” 或 “我要播放音乐” , 另一方面, 文字消息的部 分, 包含了常用语的部分, 即文字消息中的一部分与常用语的一部分重叠, 则保留两者重叠 的部分, 仅保留 “快退” 、“快进” 或 “播放音乐” 。 0115 5)文字消息的部分与常用语的部分的相似度高于一阈值 0116 以常用语为 “快进15秒” 、“快退30秒” 、“播放音乐调节气氛” 为例, 当语音消息转换 为的文。

45、字消息为 “我要前进” 、“我要回看” 或 “我要来点歌曲” 时, 一方面表示用户对终端输 入的语音为其发出的 “我要前进” 、“我要回看” 或 “我要来点歌曲” , 另一方面, 文字消息的部 分, 与常用语的部分基本不重叠或无重叠部分, 但文字消息所表达的控制指令与常用语所 表达的控制指令其实相同。 因此, 在该情况下, 步骤S322除对文字消息的识别外, 还将简单 地识别其表达的意思, 并与常用语中的各表达意义比较, 在表达意思本身一致下, 认为文字 消息与常用语具有一定的相似度, 在相似度大于所设的阈值情况下, 可选择性地包括文字 消息的全部或常用语的全部为关键词。 0117 S142-。

46、3: 保存内容为关键词或修改内容至相似度最接近的常用语为关键词 0118 在上述各情况下, 最终保存提取出的内容为关键词, 或者以常用语为标准修改内 容为关键词。 例如, 在上述4)、 5)情况下, 优选地以常用语为使用标准, 使得可简化对文字消 息的提取和表达意义理解的程序。 以已有常用语为使用基础, 可使用预先已对常用语表达 意义的分析结果, 简化语音模型的形成流程。 0119 一优选实施例中, 于映射界面上还显示目标应用程序的操作单元的步骤S150还包 括: 0120 S151: 获取目标应用程序的类型及关键帧; 0121 获取智能终端内所安装的应用程序列表, 并根据用户所设定的可作为目。

47、标应用程 序的应用程序, 或全部应用程序, 确定这些应用程序的类型, 例如游戏类、 媒体类、 社交类、 阅读类、 新闻类等。 对于这些目标应用程序, 还将获取其激活并运行下的至少一个关键帧, 例如, 目标应用程序启动界面下的显示帧、 进入操作界面下的显示帧、 最常使用界面下的显 示帧等。 0122 S152: 提取关键帧中对目标应用程序操作的部分或全部操作单元 0123 获取上述关键帧后, 将提取其中对应目标应用程序操作的部分或全部操作单元。 说明书 8/10 页 11 CN 111292744 A 11 例如, 某一关键帧下, 操作单元有始终显示在前端的攻击键、 防御键、 技能键, 或在用户。

48、点触 显示屏后显示的方向键、 指示键、 引导键等。 0124 另一优选实施例中, 将每一识别结果消息与一个或多个操作单元关联, 形成配置 关系后保存的步骤S160包括: 0125 S161: 接收执行于映射界面上的外部操作, 根据外部操作, 移动操作单元于映射界 面的位置; 0126 映射界面上显示操作单元, 以告知用户目标应用程序内的哪些操作将被映射至语 音模型。 用户识别这些操作单元后, 将向显示屏施加外部操作, 例如对操作单元的长摁、 点 摁、 双击等, 根据这些外部操作, 当用户对显示屏的接触部分, 如手指、 触摸笔等, 在显示屏 上移动时, 操作单元也将随接触部分的移动而移动, 从而。

49、改变操作单元在映射界面内的位 置。 0127 S162: 当任意操作单元移动至与一识别结果消息对应的位置时, 将识别结果消息 与操作单元关联; 0128 映射界面上, 还显示有识别结果消息, 且在识别结果消息旁, 可设有一空白区域, 作为映射关系的建立。 例如, 若有一个或多个操作单元被移动至空白区域内并为维持一定 时间后, 表示该操作单元与识别结果消息关联。 因此, 基于用户的操作, 任意一个或多个操 作单元移动至该与识别结果消息对应的位置时, 且用户的接触部分移出显示屏, 表示操作 单元的最终位置, 该最终位置与识别结果消息对应时, 识别结果消息便与操作单元关联。 0129 S163: 保。

50、存各操作单元与识别结果消息的关联关系为语音模型的配置关系。 0130 识别结果消息与操作单元关联后, 保存各操作单元与识别结果消息的关联关系, 若还具有下一关键词或对应于关键词的识别结果消息, 则可继续配置, 下一操作单元或识 别结果消息。 0131 一优选实施例中, 将每一所述识别结果消息与一个或多个操作单元关联, 形成配 置关系后保存的步骤S160后, 还包括以下步骤: 0132 S170: 对配置关系命名, 并自服务器端下载语音模型; 0133 根据用户的操作, 对保存的每一配置关系命名, 命名方式可以是目标应用程序+语 音模型的应用, 例如王者荣耀_攻击、 使命召唤_回血等, 或是将多。

展开阅读全文
内容关键字: 语音 指令 识别 方法 系统 计算机 可读 存储 介质
关于本文
本文标题:语音指令识别方法、系统及计算机可读存储介质.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/9283775.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1