《一种基于语音识别的阅读辅助系统.pdf》由会员分享,可在线阅读,更多相关《一种基于语音识别的阅读辅助系统.pdf(10页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103176998 A (43)申请公布日 2013.06.26 CN 103176998 A *CN103176998A* (21)申请号 201110432824.2 (22)申请日 2011.12.21 G06F 17/30(2006.01) G10L 15/26(2006.01) (71)申请人 上海博路信息技术有限公司 地址 201315 上海市浦东新区沪南路 2688 弄 77 号 601 室 (72)发明人 顾健 (54) 发明名称 一种基于语音识别的阅读辅助系统 (57) 摘要 本发明公开了一种基于语音识别的阅读辅助 系统, 包含终端语音采集模块, 语。
2、音识别模块, 搜 索及内容处理模块等。本发明通过终端获取用户 阅读的内容的语音, 在终端或系统进行内容的识 别后进行内容的搜索和处理, 按照内容相关性进 行排序, 并将搜索和处理的结果返回给终端, 终端 对系统传递的数据进行解析和处理并叠加显示在 用户的终端显示界面。通过终端识别用户阅读语 音的内容并基于用户语音内容包含的进行搜索和 处理获取用户需要的内容辅助信息, 提供了基于 一种基于语音识别的阅读辅助的业务体验。 (51)Int.Cl. 权利要求书 1 页 说明书 5 页 附图 3 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书1页 说明书5页 附图3页 (10。
3、)申请公布号 CN 103176998 A CN 103176998 A *CN103176998A* 1/1 页 2 1. 一种基于语音识别的阅读辅助系统, 其特征在于, 终端获取用户阅读的内容的语音, 在终端或系统进行内容的识别后进行内容的搜索和处理, 按照内容相关性进行排序, 并将 搜索和处理的结果返回给终端, 终端对系统传递的数据进行解析和处理并叠加显示在用户 的终端显示界面。 2. 如权利要求 1 所述, 终端获取用户阅读的内容的语音, 其特征在于, 用户朗读感兴趣 的内容部分, 终端获取用户的语音并将语音记录转换为压缩的音频数据文件作为识别数据 源, 进行语音文字识别, 获取其包含。
4、的文本。 3. 如权利要求 1 所述, 终端获取用户的语音后, 在终端或系统进行内容的识别后进行 内容的搜索和处理, 其特征在于, 获取用户感兴趣并朗读的内容部分的语音后, 通过终端本 地语音识别方式或基于系统开放的语音识别服务方式识别获取语音对应的文本内容, 并获 得返回的识别结果。 4. 如权利要求 3 所述, 在终端或系统进行语音的识别, 其特征在于, 系统通过服务方式 开发语音识别服务接口, 终端侧通过系统端提供的语音识别服务访问接口发起语音识别服 务的请求, 系统端获取对应的识别请求以及原始语音数据后即可执行对应的识别服务。 5. 如权利要求 1 所述, 在终端或系统进行语音的识别后。
5、进行内容的搜索和处理, 其特 征在于, 终端获取识别语音包含的文本, 并以此文本作为关键词发起对搜索引擎的搜索, 获 取搜索引擎的搜索结果并进一步获取其包含的内容, 在终端应用界面上进行显示或播放对 应的内容。 6. 如权利要求 5 所述, 终端获取搜索引擎的搜索结果并在终端显示或播放, 其特征在 于, 终端获取到搜索引擎返回的搜索结果, 以窗口叠加方式显示在用户的阅读界面上, 用户 随即可以查阅或点击播放到对应内容的各种有关信息。 7. 如权利要求 5 所述, 终端通过搜索引擎获取对应内容的搜索结果, 其特征在于, 搜索 引擎包含了系统内外部的搜索引擎, 系统内部的搜索引擎搜索系统内的各种数。
6、据, 包含文 件, 数据库, 系统外部的搜索引擎为开放在互联网上的各种搜索引擎, 终端按照对应引擎的 语法发起关键词的搜索获取对应的内容, 并按照匹配度进行排序处理, 获取最大精确匹配 的各种搜索结果。 权 利 要 求 书 CN 103176998 A 2 1/5 页 3 一种基于语音识别的阅读辅助系统 技术领域 0001 本发明涉及移动终端, 语音识别等技术领域, 特别是指一种基于语音识别的阅读 辅助系统。 背景技术 0002 随着终端技术、 软件技术的发展, 特别是智能终端、 语音识别技术和云计算技术的 发展, 为一种基于语音识别的阅读辅助系统提供了可行性。 0003 用户在各种环境下阅读。
7、时, 可能对阅读过程中的内容需要进一步的了解, 传统方 式是在电脑上手工输入对应的文字获取搜索结果, 对阅读流程产生了干扰, 用户需离开当 前的阅读过程进行搜索等操作, 而通过终端识别用户朗读的语音并识别用户阅读对象上的 内容, 并进行内容的识别后以识别结果发起搜索, 搜索系统内的定制内容和互联网上的各 种内容, 并以搜索结果相关性进行处理和排序, 并将获取的结果叠加在用户终端界面上显 示或播放, 用户随即可以查看或听到用户关心的内容的各种有关信息, 达到了辅助用户进 行阅读的作用。 0004 有鉴于此, 本发明的目的在于提出一种简单易行, 通过终端扫描和识别的一种基 于语音识别的阅读辅助系统。
8、。 发明内容 0005 从上面所述可以看出, 本发明提供的一种基于语音识别的阅读辅助系统, 通过用 户朗读感兴趣的内容部分并获取用户语音后识别其包含的文字内容, 基于这些内容进行相 关性搜索并在终端界面上提供搜索结果, 实现了一种使用简单的基于终端阅读辅助系统。 0006 进一步的, 通过所提供的一种基于语音识别的阅读辅助系统为一种用户阅读辅助 业务的发展提供有力保障, 满足用户各方要求, 提升用户友好体验。 0007 为实现上述目的, 本发明的一个方面提供了一种基于语音识别的阅读辅助系统, 该方法包括 : 用户朗读感兴趣的内容部分, 终端获取用户的语音并将语音记录转换为压缩的音频数 据文件作。
9、为识别数据源, 进行语音内的文字识别, 获取其包含的文本。 0008 终端获取用户阅读的内容的语音, 在终端或系统进行内容的识别后进行内容的搜 索和处理, 按照内容相关性进行排序, 并将搜索和处理的结果返回给终端, 终端对系统传递 的数据进行解析和处理并叠加显示在用户的终端显示界面。 0009 本发明提供的一种基于语音识别的阅读辅助系统的一个实施例中, 该方法还包 括 : 终端获取用户感兴趣并朗读的内容部分的语音后, 通过终端本地语音识别方式或基于 系统开放的语音识别服务方式识别获取语音对应的文本内容, 并获得返回的识别结果。 0010 系统通过服务方式开发语音识别服务接口, 终端侧通过系统端。
10、提供的语音识别服 务访问接口发起语音识别服务的请求, 系统端获取对应的识别请求以及原始语音数据后即 说 明 书 CN 103176998 A 3 2/5 页 4 可执行对应的识别服务。 0011 本发明提供的一种基于语音识别的阅读辅助系统的一个实施例中, 该方法还包 括 : 终端获取识别语音包含的文本, 并以此文本作为关键词发起对搜索引擎的搜索, 获取 搜索引擎的搜索结果并进一步获取其包含的内容, 在终端应用界面上进行显示或播放对应 的内容。 0012 本发明提供的一种基于语音识别的阅读辅助系统的一个实施例中, 该方法还包 括 : 终端获取到搜索引擎返回的搜索结果, 以窗口叠加方式显示在用户的。
11、阅读界面上, 用 户随即可以查阅或点击播放到对应内容的各种有关信息。 0013 搜索引擎包含了系统内外部的搜索引擎, 系统内部的搜索引擎搜索系统内的各种 数据, 包含文件, 数据库, 系统外部的搜索引擎为开放在互联网上的各种搜索引擎, 终端按 照对应引擎的语法发起关键词的搜索获取对应的内容, 并按照匹配度进行排序处理, 获取 最大精确匹配的各种搜索结果。 0014 具体来说具有以下优点 : 使用方便 : 用户通过朗读报纸等包含网址信息的对象, 即可完成对应语音内容的识别并基于这些 内容的相关信息, 使用简单快捷。 0015 实时阅读辅助信息 : 用户朗读感兴趣的内容部分, 对应内容部分的相关内。
12、容即可即时叠加在用户终端界面 上显示或播放, 实现实时的阅读辅助的显示效果。 0016 附图说明 0017 此处所说明的附图用来提供对本发明的进一步理解, 构成本申请的一部分, 本发 明的示意性实施例及其说明用于解释本发明, 并不构成对本发明的不当限定。在附图中 : 图 1 为本发明系统模块结构的示意图。 0018 图 2 为本发明语音识别流程示意图。 0019 图 3 为本发明业务流程示意图。 0020 具体实施方式 0021 下面参照附图对本发明进行更全面的描述, 其中说明本发明的示例性实施例。 0022 为实现上述目的, 提出了一种基于语音识别的阅读辅助系统。 0023 以下通过结合附图。
13、, 对本发明的实施方式进行描述。 0024 实现一种基于语音识别的阅读辅助系统的关键点如下 : 语音识别 : 终端获取用户朗读的语音后, 通过终端自身的语音识别能力模块或系统以服务形式开 说 明 书 CN 103176998 A 4 3/5 页 5 放的语音识别服务进行识别, 获取语音中包含的文字内容。 0025 内容搜索 : 在获取用户语音包含的内容的文本后, 终端发起对各个搜索引擎的搜索, 包含系统内 容数据库以及各个互联网开放搜索引擎的搜索, 获取各个搜索引擎的搜索结果, 并按照相 关性进行结果的处理, 获取相关性最高的搜索结果集合。 0026 叠加更新 : 终端获取搜索结果后, 将搜索。
14、结果以层叠方式在用户的应用界面显示或播放, 用户随 即可以查看或听到结果信息, 实现即读即得的业务效果。 0027 主要功能模块 如图 1 所示, 一种基于语音识别的阅读辅助系统的结构主要包括 : 终端侧和系统侧 : 终端侧可独立完成全部的功能, 根据终端的能力, 可选后台系统提供 服务, 为不具备语音识别能力的终端进行服务, 包含语音识别服务以及内容处理等功能。 0028 模块组成 : 终端硬件 100 : 终端侧语音硬件部分, 承载各种语音功能, 包含语音的播放, 语音的获取等功能。 0029 日志模块 101 : 记录用户在终端侧的业务操作等活动数据并以日志方式保存在终端。 0030 逻。
15、辑模块 102 : 终端侧的业务逻辑流程的控制和执行, 调用其他逻辑功能模块并与其进行交互完成各 种业务逻辑功能。 0031 语音获取模块 103 : 负责调用终端硬件如麦克风获取用户语音数据流, 获取原始的用户语音数据并压缩成 系统的语音格式提供给其他功能逻辑模块, 如识别模块。 0032 识别模块 104 : 终端侧的语音识别模块, 根据终端软件和硬件能力在终端可选安装的识别功能模块, 负责识别语音数据的内容并提供识别结果到其他功能模块。 0033 服务请求模块 105 : 终端侧在需要系统功能支持的情况下, 如本地不支持语音识别, 通过系统开放的服务, 服务请求模块发起对系统服务的请求,。
16、 完成各种功能。 0034 内容处理及显示模块 106 : 终端对获取的识别内容进行解析和处理, 包含对语音识别的内容和搜索的内容结果的 处理和显示, 对语音识别结果, 内容处理模块完成挑选和截取语音范围内的所包含的完整 的语句等功能, 对搜索结果, 内容处理模块完成对搜索结果的相关性排序以及内容显示的 格式处理, 并在处理完毕后, 叠加在用户的应用界面上显示或进行语音播放。 0035 管理配置模块 107 : 终端用户进行业务配置和数据管理, 用户通过管理模块对业务的数据和业务的配置进 行设置。 0036 接口模块 108 : 终端侧与系统进行交互的模块, 通过接口与系统进行各种交互和消息的。
17、传递和接收, 说 明 书 CN 103176998 A 5 4/5 页 6 按照接口参数发起请求和接收系统的各种消息。 0037 传输通道 109 : 提供数据传输的实际的物理通道, 可以是无线宽带网和移动数据网络, 包含各个移动 通信的数据信道, WIFI, 固定宽带等。 0038 系统接口模块 110 : 系统侧与终端进行交互的模块, 与终端进行通信, 提供各种接口供终端进行系统的访 问, 按照协商的协议进行数据传输, 将数据发送给终端和接收终端的请求数据。 0039 日志模块 111 : 将系统的各种操作的信息记录到系统日志, 并提供给用户进行查询。 0040 数据库 112 : 系统端。
18、提供数据存储以及各种基于数据库的各种功能, 如数据触发器、 函数等逻辑功 能的数据系统。 0041 业务逻辑模块 113 : 负责系统端的对应各个业务逻辑的执行和逻辑设置、 保存等功能, 调用各个功能模块 完成业务流程和处理各种业务请求逻辑。 0042 消息模块 114 : 系统与终端进行消息的交互, 处理终端的请求消息, 构造系统端与终端交互的各种消 息, 根据交互的协议和接口协议方式构造各种消息数据并提供给接口进行消息的传递。 0043 安全模块 115 : 负责用户身份验证和安全设置相关的各种功能, 包含验证终端用户身份和属性, 加密 和解密各种消息数据等功能。 0044 语音识别服务模。
19、块 116 : 系统端提供的语音识别服务的功能模块, 为不具备语音识别能力的终端提供语音识别 功能, 通过接口服务开放给终端。 0045 系统文字处理模块 117 : 系统端对获取的识别内容进行解析和处理, 挑选其中包含的完全识别的语句片段, 去 除识别结果中可能包含的错误解码的字符。 0046 管理模块 118 : 系统的管理功能部分, 对系统进行综合管理, 包含用户管理, 逻辑流程管理, 业务参数, 系统参数配置等各种管理功能。 0047 系统门户 119 : 系统用户登入门户的系统的门户, 提供用户使用系统的界面和各种业务流程的承载。 0048 搜索引擎 120 : 搜索引擎搜索系统内以。
20、及互联网上的各种内容, 并提供搜索结果, 包含系统内部的搜索引擎以及外部互联网搜索引擎, 并提供搜索接入接 口, 应用通过开放的搜索接入接口调用搜索引擎的各种功能获取搜索结 果。 0049 图 2 示为本发明语音识别流程示意图。 说 明 书 CN 103176998 A 6 5/5 页 7 0050 如图所示, 该流程包含了以下步骤 : 1) 用户朗读感兴趣的内容部分 ; 2) 终端判断识别方式, 包含终端本地识别或系统识别 ; 3) 识别对应的语音后, 对识别的语音文本进行处理和解析, 获取对应的语音范围内包 含的关键词和语句片段 ; 下面举一个例子来说明本发明用户通过终端阅读辅助系统使用业。
21、务的流程, 如图 3 所 示, 该实施例中, 业务包括以下步骤 : 步骤 1 : 终端用户朗读感兴趣的内容 ; 步骤 2 : 终端获取原始音频数据, 在终端或请求系统语音服务进行识别 ; 步骤 3 : 终端获取识别后的字符信息进行处理和过滤, 获取其中包含的完整语句片段 或关键词 ; 步骤 5. 以获取的识别结果为关键词发起搜索引擎的搜索请求 ; 步骤 6. 终端获取搜索结果, 对搜索结果进行处理获取相关性最高的结果集 ; 步骤 7. 终端将获取的结果集叠加在用户的应用界面显示, 用户随即可以翻看或听到 对应的内容。 0051 本发明的描述是为了示例和说明起见而给出的, 而并不是无遗漏的或者将本发明 限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描 述实施例是为了更好说明本发明的原理和实际应用, 并且使本领域的普通技术人员能够理 解本发明从而设计适于特定用途的带有各种修改的各种实施例。 说 明 书 CN 103176998 A 7 1/3 页 8 图 1 说 明 书 附 图 CN 103176998 A 8 2/3 页 9 图 2 说 明 书 附 图 CN 103176998 A 9 3/3 页 10 图 3 说 明 书 附 图 CN 103176998 A 10 。