获取新词语的方法及装置.pdf
《获取新词语的方法及装置.pdf》由会员分享,可在线阅读,更多相关《获取新词语的方法及装置.pdf(17页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201911162192.5 (22)申请日 2019.11.25 (71)申请人 北京明略软件系统有限公司 地址 100000 北京市海淀区东北旺西路8号 院4号楼310号 (72)发明人 崔小波陈奇宁 (74)专利代理机构 北京超成律师事务所 11646 代理人 许书音 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/36(2019.01) G06F 16/953(2019.01) (54)发明名称 一种获取新词语的方法及装置 (57)摘要 。
2、本发明提供了一种获取新词语的方法及装 置, 其中, 该获取新词语的方法包括: 通过预设的 第一词语长度对所述目标语料进行切分, 再根据 凝固度算法和左右熵算法对切分出来的词语进 行筛选, 选出所述目标语料中符合新词语要求的 词语组成语料词语库; 再获取网络上的词语, 将 网络词语进行筛选后得出网络新词语, 再用该网 络新词语提取所述目标语料中的新词语, 以找出 被凝固度算法和左右熵算法筛去的新词, 最大化 的找出所述目标语料包含的新词语; 本发明提供 的获取新词语的方法准确度高, 且不易漏掉新词 语。 权利要求书2页 说明书10页 附图4页 CN 110929009 A 2020.03.27 。
3、CN 110929009 A 1.一种获取新词语的方法, 其特征在于, 包括以下步骤: 依据预设的第一词语长度对目标语料进行切分, 得到第一切分词语库; 基于凝固度算法以及左右熵算法, 对所述第一切分词语库进行筛选, 得到语料词语库; 依据当前抓取的网络词语库、 上一次抓取的网络词语库以及预先存储的本地词语库, 获取所述网络词语库包含的网络新词语库; 从所述目标语料中, 提取出与所述网络新词语库相匹配的词语, 得到语料新词语库; 合并所述语料新词语库和所述语料词语库, 从合并的词语库中, 删除包含在所述语料 新词语库中的子串词语, 所述子串词语未包含在所述语料词语库中但该子串词语对应的字 符串。
4、包含在所述语料词语库中, 得到所述目标语料包含的新词语。 2.根据权利要求1所述的方法, 其特征在于, 采用逆向最大匹配分词算法从所述目标语 料中提取出与所述网络新词语库相匹配的词语。 3.根据权利要求1所述的方法, 其特征在于, 所述依据当前抓取的网络词语库、 上一次 抓取的网络词语库以及预先存储的本地词语库, 获取所述网络词语库包含的网络新词语 库, 包括: 获取当前抓取的网络词语库中的网络词语, 筛选出频率处于预设网络词语阈值内的网 络词语; 从筛选出的网络词语中, 删除与所述本地词语库相匹配的网络词语, 得到过滤网络词 语; 从所述过滤网络词语中, 删除与上一次抓取的网络词语库相匹配的。
5、过滤网络词语, 得 到所述网络新词语库。 4.根据权利要求1所述的方法, 其特征在于, 所述第一词语长度包括: 词语最小长度以 及词语最大长度; 所述依据预设的第一词语长度对目标语料进行切分, 得到第一切分词语 库, 包括: 对所述目标语料进行切分, 从切分得到的切分词语中, 获取词语长度在所述词语最小 长度至所述词语最大长度之间的切分词语; 统计切分词语在所述目标语料中的频次; 基于切分词语以及该切分词语在所述目标语料中的频次, 构建所述第一切分词语库。 5.根据权利要求1至4任一项所述的方法, 其特征在于, 所述基于凝固度算法以及左右 熵算法, 对所述第一切分词语库进行筛选, 得到语料词语。
6、库, 包括: 针对所述第一切分词语库中的每一切分词语, 基于该切分词语在所述目标语料中的频 次, 计算该切分词语的凝固度; 依据切分词语对应的词语长度, 从具有该词语长度的各切分词语中, 提取凝固度在该 词语长度对应的凝固度阈值内的切分词语, 得到初筛切分词语库; 计算所述初筛切分词语库中各初筛切分词语在所述目标语料中的左右熵, 提取左右熵 在预设左右熵阈值内的初筛切分词语, 得到再筛切分词语库; 依据预设的第二词语长度对所述目标语料依次进行切分, 得到第二切分词语库; 从所述第二切分词语库中提取与所述再筛切分词语库相匹配的第二切分词语, 从提取 出的所述第二切分词语中, 获取在所述目标语料中。
7、相邻、 且前一第二切分词语词尾的字符 串与后一第二切分词语词首的字符串相同的第二切分词语; 权利要求书 1/2 页 2 CN 110929009 A 2 合并获取的前后第二切分词语, 得到第二切分组合词语; 依据所述第二词语长度对各第二切分组合词语进行切分, 得到每一第二切分组合词语 对应的第三切分词语库; 将各个所述第三切分词语库分别与所述再筛切分词语库进行对比, 若一第三切分词语 库中的每一第三切分词语均包含在所述再筛切分词语库内, 将该第三切分词语库对应的第 二切分组合词语置于潜在词语库; 合并所述潜在词语库与所述再筛切分词语库, 得到所述语料词语库。 6.根据权利要求5所述的方法, 其。
8、特征在于, 在所述得到第一切分词语库之后, 所述方 法还包括: 用预先设置的停用词库与所述第一切分词语库进行比较, 从所述第一切分词语库中, 去掉与所述停用词库相匹配的词语, 以对所述第一切分词语库进行更新; 在所述得到所述语料词语库之后, 还包括: 将所述语料词语库与预先存储的常用词库进行比较, 去掉与所述常用词库相匹配的词 语, 以对所述语料词语库进行更新。 7.一种获取新词语的装置, 其特征在于, 包括: 语料长度分词模块, 用于依据预设的第一词语长度对目标语料进行切分, 得到第一切 分词语库; 词语运算筛选模块, 用于基于凝固度算法以及左右熵算法, 对所述第一切分词语库进 行筛选, 得。
9、到语料词语库; 网络新词获取模块, 用于依据当前抓取的网络词语库、 上一次抓取的网络词语库以及 预先存储的本地词语库, 获取所述网络词语库包含的网络新词语库; 网络新词分词模块, 用于从所述目标语料中, 提取出与所述网络新词语库相匹配的词 语, 得到语料新词语库; 合并统计模块, 用于合并所述语料新词语库和所述语料词语库, 从合并的词语库中, 删 除包含在所述语料新词语库中的子串词语, 所述子串词语未包含在所述语料词语库中但该 子串词语对应的字符串包含在所述语料词语库中, 得到所述目标语料包含的新词语。 8.根据权利要求7所述的装置, 其特征在于, 所述网络新词获取模块包括: 网络词语抓取单元。
10、, 用于获取当前抓取的网络词语库中的网络词语, 筛选出频率处于 预设网络词语阈值内的网络词语; 本地词筛选单元, 用于从筛选出的网络词语中, 删除与所述本地词语库相匹配的网络 词语, 得到过滤网络词语; 历史新词筛选单元, 用于从所述过滤网络词语中, 删除与上一次抓取的网络词语库相 匹配的过滤网络词语, 得到所述网络新词语库。 9.一种电子设备, 其特征在于, 包括: 处理器、 存储器和总线, 所述存储器存储有所述处 理器可执行的机器可读指令, 当电子设备运行时, 所述处理器与所述存储器之间通过总线 通信, 所述机器可读指令被所述处理器执行时执行如权利要求1至6任一所述获取新词语的 方法的步骤。
11、。 10.一种计算机可读存储介质, 其特征在于, 该计算机可读存储介质上存储有计算机程 序, 该计算机程序被处理器运行时执行如权利要求1至6任一所述获取新词语的方法的步骤。 权利要求书 2/2 页 3 CN 110929009 A 3 一种获取新词语的方法及装置 技术领域 0001 本发明涉及新词扩充技术领域, 具体而言, 涉及一种获取新词语的方法及装置。 背景技术 0002 随着社会的不断发展, 新词语不断在日常生活中涌现。 语言学家曾经做过一个统 计, 改革开放以来, 每年平均要产生800多个新词。 这些新词主要是以外来词为主, 通过报 纸、 电视等媒体进行传播。 随着互联网的兴起, 个人。
12、的创造力有了许多展示的平台, 因此更 多的新词被创造出来, 并借助互联网这个平台迅速流传开来。 新词的出现, 使得分词结果中 出现过多的散串, 造成分词结果错误。 最近研究显示, 60的分词错误是由新词导致的。 而 现有的新词语获取方法通常是根据词语长度对目标语料进行切分, 再根据切分词语的频次 计算词语的外部凝固度, 筛选出外部凝固度较高的词作为新词, 这种方法筛选的 “新词” 中 通常包含一些经常使用的常用词, 也会漏掉一些在文中出现次数较少的新词, 致使最终判 断出的新词不准确。 发明内容 0003 有鉴于此, 本发明的目的在于提供一种获取新词语的方法及装置, 以提高获取的 目标语料中包。
13、含新词的准确性和减少漏词。 0004 第一方面, 本发明实施例提供了一种获取新词语的方法, 以下步骤: 0005 依据预设的第一词语长度对目标语料进行切分, 得到第一切分词语库; 0006 基于凝固度算法以及左右熵算法, 对所述第一切分词语库进行筛选, 得到语料词 语库; 0007 依据当前抓取的网络词语库、 上一次抓取的网络词语库以及预先存储的本地词语 库, 获取所述网络词语库包含的网络新词语库; 0008 从所述目标语料中, 提取出与所述网络新词语库相匹配的词语, 得到语料新词语 库; 0009 合并所述语料新词语库和所述语料词语库, 从合并的词语库中, 删除包含在所述 语料新词语库中的子。
14、串词语, 所述子串词语未包含在所述语料词语库中但该子串词语对应 的字符串包含在所述语料词语库中, 得到所述目标语料包含的新词语。 0010 结合第一方面, 本发明实施例提供了第一方面的第一种可能的实施方式, 其中, 采 用逆向最大匹配分词算法从所述目标语料中提取出与所述网络新词语库相匹配的词语。 0011 结合第一方面, 本发明实施例提供了第一方面的第二种可能的实施方式, 其中, 所 述依据当前抓取的网络词语库、 上一次抓取的网络词语库以及预先存储的本地词语库, 获 取所述网络词语库包含的网络新词语库, 包括: 0012 获取当前抓取的网络词语库中的网络词语, 筛选出频率处于预设网络词语阈值内。
15、 的网络词语; 0013 从筛选出的网络词语中, 删除与所述本地词语库相匹配的网络词语, 得到过滤网 说明书 1/10 页 4 CN 110929009 A 4 络词语; 0014 从所述过滤网络词语中, 删除与上一次抓取的网络词语库相匹配的过滤网络词 语, 得到所述网络新词语库。 0015 结合第一方面, 本发明实施例提供了第一方面的第三种可能的实施方式, 其中, 所 述第一词语长度包括: 词语最小长度以及词语最大长度; 所述依据预设的第一词语长度对 目标语料进行切分, 得到第一切分词语库, 包括: 0016 对所述目标语料进行切分, 从切分得到的切分词语中, 获取词语长度在所述词语 最小长。
16、度至所述词语最大长度之间的切分词语; 0017 统计切分词语在所述目标语料中的频次; 0018 基于切分词语以及该切分词语在所述目标语料中的频次, 构建所述第一切分词语 库。 0019 结合第一方面、 第一方面的第一种至第三种可能的实施方式中的任一种可能的实 施方式, 本发明实施例提供了第一方面的第四种可能的实施方式, 其中, 所述基于凝固度算 法以及左右熵算法, 对所述第一切分词语库进行筛选, 得到语料词语库, 包括: 0020 针对所述第一切分词语库中的每一切分词语, 基于该切分词语在所述目标语料中 的频次, 计算该切分词语的凝固度; 0021 依据切分词语对应的词语长度, 从具有该词语长。
17、度的各切分词语中, 提取凝固度 在该词语长度对应的凝固度阈值内的切分词语, 得到初筛切分词语库; 0022 计算所述初筛切分词语库中各初筛切分词语在所述目标语料中的左右熵, 提取左 右熵在预设左右熵阈值内的初筛切分词语, 得到再筛切分词语库; 0023 依据预设的第二词语长度对所述目标语料依次进行切分, 得到第二切分词语库; 0024 从所述第二切分词语库中提取与所述再筛切分词语库相匹配的第二切分词语, 从 提取出的所述第二切分词语中, 获取在所述目标语料中相邻、 且前一第二切分词语词尾的 字符串与后一第二切分词语词首的字符串相同的第二切分词语; 0025 合并获取的前后第二切分词语, 得到第。
18、二切分组合词语; 0026 依据所述第二词语长度对各第二切分组合词语进行切分, 得到每一第二切分组合 词语对应的第三切分词语库; 0027 将各个所述第三切分词语库分别与所述再筛切分词语库进行对比, 若一第三切分 词语库中的每一第三切分词语均包含在所述再筛切分词语库内, 将该第三切分词语库对应 的第二切分组合词语置于潜在词语库; 0028 合并所述潜在词语库与所述再筛切分词语库, 得到所述语料词语库。 0029 结合第一方面的第四种可能的实施方式, 本发明实施例提供了第一方面的第五种 可能的实施方式, 其中, 在所述得到第一切分词语库之后, 所述方法还包括: 0030 用预先设置的停用词库与所。
19、述第一切分词语库进行比较, 从所述第一切分词语库 中, 去掉与所述停用词库相匹配的词语, 以对所述第一切分词语库进行更新; 0031 在所述得到所述语料词语库之后, 还包括: 0032 将所述语料词语库与预先存储的常用词库进行比较, 去掉与所述常用词库相匹配 的词语, 以对所述语料词语库进行更新。 0033 第二方面, 本发明实施例还提供了一种获取新词语的装置, 包括: 说明书 2/10 页 5 CN 110929009 A 5 0034 语料长度分词模块, 用于依据预设的第一词语长度对目标语料进行切分, 得到第 一切分词语库; 0035 词语运算筛选模块, 用于基于凝固度算法以及左右熵算法,。
20、 对所述第一切分词语 库进行筛选, 得到语料词语库; 0036 网络新词获取模块, 用于依据当前抓取的网络词语库、 上一次抓取的网络词语库 以及预先存储的本地词语库, 获取所述网络词语库包含的网络新词语库; 0037 网络新词分词模块, 用于从所述目标语料中, 提取出与所述网络新词语库相匹配 的词语, 得到语料新词语库; 0038 合并统计模块, 用于合并所述语料新词语库和所述语料词语库, 从合并的词语库 中, 删除包含在所述语料新词语库中的子串词语, 所述子串词语未包含在所述语料词语库 中但该子串词语对应的字符串包含在所述语料词语库中, 得到所述目标语料包含的新词 语。 0039 结合第二方。
21、面, 本发明实施例提供了第二方面的第一种可能的实施方式, 其中, 所 述网络新词获取模块包括: 0040 网络词语抓取单元, 用于获取当前抓取的网络词语库中的网络词语, 筛选出频率 处于预设网络词语阈值内的网络词语; 0041 本地词筛选单元, 用于从筛选出的网络词语中, 删除与所述本地词语库相匹配的 网络词语, 得到过滤网络词语; 0042 历史新词筛选单元, 用于从所述过滤网络词语中, 删除与上一次抓取的网络词语 库相匹配的过滤网络词语, 得到所述网络新词语库。 0043 第三方面, 本申请实施例提供了一种计算机设备, 包括存储器、 处理器及存储在所 述存储器上并可在所述处理器上运行的计算。
22、机程序, 所述处理器执行所述计算机程序时实 现上述方法的步骤。 0044 第四方面, 本申请实施例提供了一种计算机可读存储介质, 所述计算机可读存储 介质上存储有计算机程序, 所述计算机程序被处理器运行时执行上述的方法的步骤。 0045 本发明实施例提供的获取新词语的方法及装置, 通过预设的第一词语长度对所述 目标语料进行切分, 再根据凝固度算法和左右熵算法对切分出来的词语进行筛选, 选出所 述目标语料中符合新词语要求的词语组成语料词语库; 再获取网络上的词语, 将网络词语 进行筛选后得出网络新词语, 再用该网络新词语提取所述目标语料中的新词语, 以找出被 凝固度算法和左右熵算法筛去的新词, 。
23、以最大化的找出所述目标语料包含的新词语; 本发 明提供的获取新词语的方法准确度高, 且不易漏掉新词语。 0046 为使本发明的上述目的、 特征和优点能更明显易懂, 下文特举较佳实施例, 并配合 所附附图, 作详细说明如下。 附图说明 0047 为了更清楚地说明本发明实施例的技术方案, 下面将对实施例中所需要使用的附 图作简单地介绍, 应当理解, 以下附图仅示出了本发明的某些实施例, 因此不应被看作是对 范围的限定, 对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下, 还可以根据这 些附图获得其他相关的附图。 说明书 3/10 页 6 CN 110929009 A 6 0048 图1示出。
24、了本发明实施例所提供的获取新词语的方法流程示意图; 0049 图2示出了本发明实施例所提供方法中对目标语料进行切分得到第一切分词语库 的流程示意图; 0050 图3示出了本发明实施例所提供方法中对所述第一切分词语库进行筛选得到语料 词语库的流程示意图; 0051 图4示出了本发明实施例所提供方法中提取所述网络新词语库的流程示意图; 0052 图5示出了本发明实施例所提供的获取新词语的装置结构示意图; 0053 图6为本申请实施例提供的一种计算机设备的结构示意图。 具体实施方式 0054 为使本发明实施例的目的、 技术方案和优点更加清楚, 下面将结合本发明实施例 中附图, 对本发明实施例中的技术。
25、方案进行清楚、 完整地描述, 显然, 所描述的实施例仅仅 是本发明一部分实施例, 而不是全部的实施例。 通常在此处附图中描述和示出的本发明实 施例的组件可以以各种不同的配置来布置和设计。 因此, 以下对在附图中提供的本发明的 实施例的详细描述并非旨在限制要求保护的本发明的范围, 而是仅仅表示本发明的选定实 施例。 基于本发明的实施例, 本领域技术人员在没有做出创造性劳动的前提下所获得的所 有其他实施例, 都属于本发明保护的范围。 0055 本发明实施例提供了一种获取新词语方法和装置, 下面通过实施例进行描述。 0056 如见图1所示, 本实施例提供的一种获取新词语方法, 包括以下步骤: 005。
26、7 S100: 依据预设的第一词语长度对目标语料进行切分, 得到第一切分词语库; 0058 S200: 基于凝固度算法以及左右熵算法, 对所述第一切分词语库进行筛选, 得到语 料词语库; 0059 S300: 依据当前抓取的网络词语库、 上一次抓取的网络词语库以及预先存储的本 地词语库, 获取所述网络词语库包含的网络新词语库; 0060 S400: 从所述目标语料中, 提取出与所述网络新词语库相匹配的词语, 得到语料新 词语库; 0061 S500: 合并所述语料新词语库和所述语料词语库, 从合并的词语库中, 删除包含在 所述语料新词语库中的子串词语, 所述子串词语未包含在所述语料词语库中但该。
27、子串词语 对应的字符串包含在所述语料词语库中, 得到所述目标语料包含的新词语。 0062 其中S400: 从所述目标语料中, 提取出与所述网络新词语库相匹配的词语, 为采用 逆向最大匹配分词算法从所述目标语料中提取出与所述网络新词语库相匹配的词语。 采用 逆向最大匹配分词算法可以快速的从所述目标语料中筛选书与所述网络新词语库相匹配 的词语, 以节省运算速率。 0063 如见图2所述, 本实施例中所述第一词语长度包括: 词语最小长度以及词语最大长 度; 所述S100: 依据预设的第一词语长度对目标语料进行切分, 得到第一切分词语库, 包括 以下步骤: 0064 S101: 对所述目标语料进行切分。
28、, 从切分得到的切分词语中, 获取词语长度在所述 词语最小长度至所述词语最大长度之间的切分词语; 0065 S102: 统计切分词语在所述目标语料中的频次; 说明书 4/10 页 7 CN 110929009 A 7 0066 S103: 基于切分词语以及该切分词语在所述目标语料中的频次, 构建所述第一切 分词语库。 0067 此处所述S100: 依据预设的第一词语长度对目标语料进行切分, 得到第一切分词 语库为采用Nagao算法对所述目标语料进行切分。 0068 如见图3所示, 本实施例中S200: 所述基于凝固度算法以及左右熵算法, 对所述第 一切分词语库进行筛选, 得到语料词语库, 具体。
29、包括: 0069 S201: 针对所述第一切分词语库中的每一切分词语, 基于该切分词语在所述目标 语料中的频次, 计算该切分词语的凝固度; 0070 S202: 依据切分词语对应的词语长度, 从具有该词语长度的各切分词语中, 提取凝 固度在该词语长度对应的凝固度阈值内的切分词语, 得到初筛切分词语库; 0071 S203: 计算所述初筛切分词语库中各初筛切分词语在所述目标语料中的左右熵, 提取左右熵在预设左右熵阈值内的初筛切分词语, 得到再筛切分词语库; 0072 S204: 依据预设的第二词语长度对所述目标语料依次进行切分, 得到第二切分词 语库; 0073 S205: 从所述第二切分词语库。
30、中提取与所述再筛切分词语库相匹配的第二切分词 语, 从提取出的所述第二切分词语中, 获取在所述目标语料中相邻、 且前一第二切分词语词 尾的字符串与后一第二切分词语词首的字符串相同的第二切分词语; 合并获取的前后第二 切分词语, 得到第二切分组合词语; 0074 S206: 依据所述第二词语长度对各第二切分组合词语进行切分, 得到每一第二切 分组合词语对应的第三切分词语库; 0075 S207: 将各个所述第三切分词语库分别与所述再筛切分词语库进行对比, 若一第 三切分词语库中的每一第三切分词语均包含在所述再筛切分词语库内, 将该第三切分词语 库对应的第二切分组合词语置于潜在词语库; 0076 。
31、S208: 合并所述潜在词语库与所述再筛切分词语库, 得到所述语料词语库。 0077 本实施例中, 所述得到每一第二切分组合词语对应的第三切分词语库为各个所述 第二切分组合词语均得到一个对应的第三切分词语库。 所述依据切分词语对应的词语长 度, 从具有该词语长度的各切分词语中, 提取凝固度在该词语长度对应的凝固度阈值内的 切分词语, 具体为, 词语长度不同的切分词语对应的凝固度阈值不同; 即, 提取时, 根据该凝 固度阈值对应的词语长度, 提取该词语长度的切分词语中处于该凝固度阈值内的切分词 语。 0078 本实施例中, 所述基于该切分词语在所述目标语料中的频次, 计算该切分词语的 凝固度; 。
32、为计算该切分词语的内部的凝固度, 下面以三个字的词为例, 该切分词语的内部的 凝固度计算公式为: 0079 D(abc)minP(abc)/P(ab)P(c), P(abc)/P(a)P(bc); 0080 公式中P(abc)表示三个字一起出现的概率, P(ab)、 P(bc)表示两个字一起出现个 概率, P(a)、 P(c)表示一个字单独出现的概率。 0081 本实施例中, 所述计算所述初筛切分词语库中各所述初筛切分词语在所述目标语 料中的左右熵, 左熵记为E(Wl)和右熵记为E(Wr), 左熵即左词(左边邻接的词)的信息熵, 右 熵即右词(右边邻接的词)的信息熵。 信息熵的计算公式如下: 。
33、说明书 5/10 页 8 CN 110929009 A 8 0082 0083 公式中, w表示左词或右词, A是所有左词(右词)去重后的集合, P(w)是该左词(右 词)的概率。 w在计算左熵时为左词, 在计算右熵时为右词。 例如: 计算 “国家电网” 的左熵, “国家电网” 的左词列表T如下: 恭祝、 宣布、 在、 与、 举行、 在、 恭祝、 以、 颁发; T为所有 出现的左词列表, 即将所有出现过的左词不去重地加入到列表T中。 计算左词概率分布 其中, C(w)为T中当前词的频数, S为T中词的总个数。 这样, 计算 “国家电网” 的 左熵时, 就分别计算A中的每一个词的p(w), 代入。
34、上述信息熵计算公式即可。 右熵的计算方 法与左熵一样, 只是要统计出所有的右词, 得到右词列表, 即可以计算出该字符串的右熵。 0084 如见图4所示, 本实施例中S300: 依据当前抓取的网络词语库、 上一次抓取的网络 词语库以及预先存储的本地词语库, 获取所述网络词语库包含的网络新词语库, 包括以下 步骤: 0085 S301: 获取当前抓取的网络词语库中的网络词语, 筛选出频率处于预设网络词语 阈值内的网络词语; 0086 S302: 从筛选出的网络词语中, 删除与所述本地词语库相匹配的网络词语, 得到过 滤网络词语; 0087 S303: 从所述过滤网络词语中, 删除与上一次抓取的网络。
35、词语库相匹配的过滤网 络词语, 得到所述网络新词语库。 0088 本实施例中所述网络词语库为公开的网络词语库, 对网络词库的选取可以由本领 域技术人员根据实际需要选择, 此处不再过多赘述。 0089 本实施例抓取网络词语, 再将本地词库和上一次抓取的网络词语分别与本次抓取 的网络词语进行比较, 以选出网络词语中的新词语, 组成网络新词语库, 经过两次比较以确 保筛选出的网络新词语库中词语均为网络新词。 此处本次抓取与上一次抓取的间隔时间由 本领域技术人员根据实际需要进行设置, 一般为一个月, 当然也可以是一星期、 两星期、 两 个月或一年等任意时间间隔, 本领域技术人员根据实际需要进行选择, 。
36、此处不再过多赘述。 0090 本实施例中, 在所述得到第一切分词语库之后, 所述方法还包括: 用预先设置的停 用词库与所述第一切分词语库进行比较, 从所述第一切分词语库中, 去掉与所述停用词库 相匹配的词语, 以对所述第一切分词语库进行更新; 用所述停用词库对所述第一切分词语 库进行更新, 去除所述第一切分词语库中的常用词, 减小了凝固度算法和左右熵算法的计 算量, 有助于提高获取新词的速率。 0091 本实施例中, 在所述得到所述语料词语库之后, 还包括: 将所述语料词语库与预先 存储的常用词库进行比较, 去掉与所述常用词库相匹配的词语, 以对所述语料词语库进行 更新。 对所述目标语料中常用。
37、词的筛选选择在得到所述语料词语库后进行, 而不是直接对 所述第一切分词语库进行筛选, 可以去掉所述第二切分组合词语中的常用词, 确保最后得 到的新词的准确性。 0092 本实施例中所述停用词库: 为在信息检索和中文文本处理中, 一些字经常是独立 出现的, 而不是作为词的一部分出现的, 这些字或词被称为停用词, 由这些词组成的词库则 为停用词库。 用所述停用词库对词语进行过滤, 可以过滤掉其中的噪声词(例如: 的、 是、 从 说明书 6/10 页 9 CN 110929009 A 9 而、 反过来、 就是说、 啊等)。 0093 本实施例中所述第一词语长度和所述第二词语长度的词语最小长度和词语最。
38、大 长度相同, 所述词语最小长度通常为2, 所述词语最大长度可以根据实际需要设置为任一大 于2的数, 当所述词语最大长度为5时, 所述第一词语长度和所述第二词语长度均为2、 3、 4、 5; 本领域技术人员可以根据实际需要任意设置所述词语最小长度和所述词语最大长度的 值, 当然所述词语最大长度不能小于所述词语最小长度, 所述第一词语长度和所述第二词 语长度可由本领域技术人员根据实际需要进行设置, 此处不再过多赘述。 0094 本发明经过内部凝固度算法和左右熵算法的筛选、 再经过停用词库和预先存储的 常用词库进行筛选, 确保了选出词语的准确性; 多方位的多次筛选确保了筛选出的词语均 为新词语, 。
39、同时, 对所述目标词库进行再次切分后再用凝固度算法和左右熵算法筛选出的 新词对切分后的词语进行筛选和合并处理, 防止经过凝固度和左右熵的高要求筛选而错漏 新词; 合并出的新词再进行倒推检测, 防止合成错误的新词; 对所述目标语料进行 “频率” 筛 选的同时, 再用网络新词对目标语料进行分词, 经过所述网络新词语库筛选出的语料新词 语库再与所述语料词语库进行合并, 合并的同时去掉所述子串词语, 所述子串词语不是所 述语料词语库中的词语, 但是组成该子串词语的字符串是所述语料词语库中某个词语字符 串的一部分, 进一步提高了从所述目标语料中获取新词的准确性。 0095 如图5所示, 本申请一实施例还。
40、提供了一种获取新词语的装置, 包括: 0096 语料长度分词模块601, 用于依据预设的第一词语长度对目标语料进行切分, 得到 第一切分词语库; 0097 第一切分词语库更新模块611, 用于用预先设置的停用词库与所述第一切分词语 库进行比较, 从所述第一切分词语库中, 去掉与所述停用词库相匹配的词语, 以对所述第一 切分词语库进行更新; 0098 词语运算筛选模块621, 用于基于凝固度算法以及左右熵算法, 对所述第一切分词 语库进行筛选, 得到语料词语库; 0099 语料词语库更新模块631, 用于将所述语料词语库与预先存储的常用词库进行比 较, 去掉与所述常用词库相匹配的词语, 以对所述。
41、语料词语库进行更新; 0100 网络新词获取模块641, 用于依据当前抓取的网络词语库、 上一次抓取的网络词语 库以及预先存储的本地词语库, 获取所述网络词语库包含的网络新词语库; 0101 网络新词分词模块651, 用于从所述目标语料中, 提取出与所述网络新词语库相匹 配的词语, 得到语料新词语库; 0102 合并统计模块661, 用于合并所述语料新词语库和所述语料词语库, 从合并的词语 库中, 删除包含在所述语料新词语库中的子串词语, 所述子串词语未包含在所述语料词语 库中但该子串词语对应的字符串包含在所述语料词语库中, 得到所述目标语料包含的新词 语。 0103 如图5所示, 本实施例中。
42、所述网络新词获取模块641包括: 0104 网络词语抓取单元, 用于获取当前抓取的网络词语库中的网络词语, 筛选出频率 处于预设网络词语阈值内的网络词语; 0105 本地词筛选单元, 用于从筛选出的网络词语中, 删除与所述本地词语库相匹配的 网络词语, 得到过滤网络词语; 说明书 7/10 页 10 CN 110929009 A 10 0106 历史新词筛选单元, 用于从所述过滤网络词语中, 删除与上一次抓取的网络词语 库相匹配的过滤网络词语, 得到所述网络新词语库。 0107 如图5所示, 本实施例中所述语料长度分词模块601包括: 0108 第一分词单元, 用于对所述目标语料进行切分, 从。
43、切分得到的切分词语中, 获取词 语长度在所述词语最小长度至所述词语最大长度之间的切分词语; 0109 频率计算单元, 用于统计切分词语在所述目标语料中的频次; 并基于切分词语以 及该切分词语在所述目标语料中的频次, 构建所述第一切分词语库。 0110 如图5所示, 本实施例中所述词语运算筛选模块621包括: 0111 凝固度计算单元, 用于针对所述第一切分词语库中的每一切分词语, 基于该切分 词语在所述目标语料中的频次, 计算该切分词语的凝固度; 0112 凝固度筛选单元, 用于依据切分词语对应的词语长度, 从具有该词语长度的各切 分词语中, 提取凝固度在该词语长度对应的凝固度阈值内的切分词语。
44、, 得到初筛切分词语 库; 0113 左右熵计算单元, 用于计算所述初筛切分词语库中各所述初筛切分词语在所述目 标语料中的左右熵; 0114 左右熵筛选单元, 用于提取左右熵在预设左右熵阈值内的所述初筛切分词语, 得 到再筛切分词语库; 0115 第二分词单元, 用于依据预设的第二词语长度对所述目标语料依次进行切分, 得 到第二切分词语库; 从所述第二切分词语库中提取与所述再筛切分词语库相匹配的第二切 分词语, 从提取出的所述第二切分词语中, 获取在所述目标语料中相邻、 且前一第二切分词 语词尾的字符串与后一第二切分词语词首的字符串相同的第二切分词语; 合并获取的前后 第二切分词语, 得到第二。
45、切分组合词语; 0116 倒推检测单元, 用于依据所述第二词语长度对各第二切分组合词语进行切分, 得 到每一第二切分组合词语对应的第三切分词语库; 将各个所述第三切分词语库分别与所述 再筛切分词语库进行对比, 若一第三切分词语库中的每一第三切分词语均包含在所述再筛 切分词语库内, 将该第三切分词语库对应的第二切分组合词语置于潜在词语库; 0117 语料词语合并单元, 用于合并所述潜在词语库与所述再筛切分词语库, 得到所述 语料词语库。 0118 如图5所示, 本实施例中所述语料长度分词模块中所述第一分词单元与所述频率 计算单元电连接; 所述词语运算筛选单元中所述凝固度计算单元与所述凝固度筛选单。
46、元电 连接, 所述左右熵计算单元与所述左右熵筛选单元电连接, 所述第二分词单元和所述语料 词语合并单元分别与所述倒推检测单元电连接, 且所述凝固度筛选单元还与所述左右熵计 算单元电连接, 所述左右熵筛选单元还与所述第二分词单元电连接; 所述网络新词获取模 块中所述网络词语抓取单元和所述历史新词筛选单元分别与所述本地词语筛选单元电连 接。 所述语料长度分词模块的频率计算单元和所述词语运算筛选模块的凝固度计算单元分 别与所述第一切分词语库更新模块电连接; 所述网络新词获取模块的历史新词筛选单元与 所述网络新词分词模块电连接; 所述词语运算筛选模块的语料词语合并单元与所述语料词 语库更新模块电连接;。
47、 所述网络新词分词模块和所述语料词语库更新模块分别与所述合并 统计模块电连接。 说明书 8/10 页 11 CN 110929009 A 11 0119 如图6所示, 本申请一实施例提供了一种计算机设备700, 用于执行图1中的获取新 词语的方法, 该设备包括存储器701、 处理器702及存储在该存储器701上并可在该处理器 702上运行的计算机程序, 其中, 上述处理器702执行上述计算机程序时实现上述获取新词 语方法的步骤。 0120 具体地, 上述存储器701和处理器702能够为通用的存储器和处理器, 这里不做具 体限定, 当处理器702运行存储器701存储的计算机程序时, 能够执行上述。
48、获取新词语的方 法。 0121 对应于图1中的获取新词语方法, 本申请实施例还提供了一种计算机可读存储介 质, 该计算机可读存储介质上存储有计算机程序, 该计算机程序被处理器运行时执行上述 获取新词语方法的步骤。 0122 具体地, 该存储介质能够为通用的存储介质, 如移动磁盘、 硬盘等, 该存储介质上 的计算机程序被运行时, 能够执行上述获取新词语的方法。 0123 在本申请所提供的实施例中, 应该理解到, 所揭露系统和方法, 可以通过其它的方 式实现。 以上所描述的系统实施例仅仅是示意性的, 例如, 所述单元的划分, 仅仅为一种逻 辑功能划分, 实际实现时可以有另外的划分方式, 又例如, 。
49、多个单元或组件可以结合或者可 以集成到另一个系统, 或一些特征可以忽略, 或不执行。 另一点, 所显示或讨论的相互之间 的耦合或直接耦合或通信连接可以是通过一些通信接口, 系统或单元的间接耦合或通信连 接, 可以是电性, 机械或其它的形式。 0124 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的, 作为单元显 示的部件可以是或者也可以不是物理单元, 即可以位于一个地方, 或者也可以分布到多个 网络单元上。 可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目 的。 0125 另外, 在本申请提供的实施例中的各功能单元可以集成在一个处理单元中, 也可 以是各个单元单独。
50、物理存在, 也可以两个或两个以上单元集成在一个单元中。 0126 所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时, 可以 存储在一个计算机可读取存储介质中。 基于这样的理解, 本申请的技术方案本质上或者说 对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来, 该计 算机软件产品存储在一个存储介质中, 包括若干指令用以使得一台计算机设备(可以是个 人计算机, 服务器, 或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。 而前述的存储介质包括: U盘、 移动硬盘、 只读存储器(Read-Only Memory, ROM)、 随机存取存 储器(Ra。
- 内容关键字: 获取 新词语 方法 装置
显示装置.pdf
电子机芯生产用配件装配设备.pdf
玻璃制品生产原料除铁设备.pdf
电路板点焊设备.pdf
茶叶分选用过滤装置.pdf
用于茶叶的储存罐结构.pdf
基于压感自调张力的化纤面料圆筒针织机牵拉结构.pdf
多功能小车移动防护结构.pdf
可拆卸式的灌装装置.pdf
输配电线路无线通信型激光雷达.pdf
炼厂货用升降机轿厢制停测距装置.pdf
文档扫描仪的纸张对齐机构.pdf
测量斜绕螺线管磁场强度的实验装置.pdf
通电检测夹具.pdf
用于丁基胶灌装机的压盘结构.pdf
真空绝热外墙复合一体板.pdf
提高丰年虫孵化率的孵化装置.pdf
陶瓷加工用球磨机.pdf
快速调节间隙的悬挂端梁.pdf
洁净室恒温恒湿空气处理组合风柜.pdf
汽车管柱筒生产用下料设备.pdf
裤耳机的裤耳定位装置.pdf
建筑设施抗震性能的评估方法、装置、设备及存储介质.pdf
基于牵引振动落饵料的导料槽结构及灭蚁毒饵撒料机.pdf
高通量高分辨率静态傅里叶变换光谱测量方法.pdf
智能计量包装方法及装置.pdf
RNA疫苗递送制剂及其制备方法.pdf
基于点云与有限元分析的飞机蒙皮修配方法.pdf
检测番鸭查帕马病毒的引物和探针、病毒分离培养方法.pdf
长效保湿乳液及其制备方法.pdf
水泥碎渣废料清理装置.pdf
基于病患信息的全病程管理平台的应用方法及系统.pdf
多功能健美操训练辅助踏板.pdf
双主动全桥变换电路的保护方法及保护电路.pdf
内窥镜弯曲角度控制结构.pdf
自动清洁拖把.pdf
参数可视化破碎机开口调节装置及破碎机.pdf
具有独立缓冲结构的商用车动力总成后悬置软垫.pdf
按摩椅用下座架.pdf
核磁加速器线圈测量装置.pdf
数据聚类方法、装置、计算机设备和存储介质.pdf
适用于橡胶磨耗试验机的新型砂轮加压系统.pdf
基于机器视觉的调音台调节系统、方法及其旋钮调节机构.pdf
调用方法、装置和计算机可读存储介质.pdf
微水传感器温度老化及补偿装置及其测试方法.pdf
特戈拉赞(Tegoprazan)类似物及其合成方法.pdf
照片预览方法及其系统、存储介质及终端设备.pdf
二硼化钛/碳化硅复合防弹材料及其制备方法、应用.pdf
集沉淀过滤一体化的水净化处理装置.pdf
家电行业大规模定制生产的开放资源管理系统.pdf
基于图像识别的排土场分层重构土壤的湿润锋确定方法.pdf