用于生成关键词库的方法、装置和电子设备.pdf
《用于生成关键词库的方法、装置和电子设备.pdf》由会员分享,可在线阅读,更多相关《用于生成关键词库的方法、装置和电子设备.pdf(18页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010272926.1 (22)申请日 2020.04.08 (71)申请人 北京字节跳动网络技术有限公司 地址 100041 北京市石景山区实兴大街30 号院3号楼2层B-0035房间 (72)发明人 罗强 (74)专利代理机构 泰和泰律师事务所 51219 代理人 祝海燕 (51)Int.Cl. G06F 16/335(2019.01) G06F 40/205(2020.01) G06F 40/284(2020.01) G06F 40/289(2020.01) (54)。
2、发明名称 一种用于生成关键词库的方法、 装置和电子 设备 (57)摘要 本公开实施例公开了一种用于生成关键词 库的方法、 装置和电子设备。 该方法包括: 基于预 设第一关键词确定关键词匹配模板; 将所述关键 词匹配模板应用到获取到的语料中, 确定第二关 键词; 基于所述第一关键词和所述第二关键词生 成关键词库。 可以利用少量的预设第一关键词通 过对应的关键词匹配模板确定海量语料中的第 二关键词, 不需要人工编写大量的关键词匹配模 板, 提升了关键词库的构建效率。 权利要求书2页 说明书11页 附图4页 CN 111488450 A 2020.08.04 CN 111488450 A 1.一种用。
3、于生成关键词库的方法, 其特征在于, 包括: 基于预设第一关键词确定关键词匹配模板; 将所述关键词匹配模板应用到获取到的语料中, 确定第二关键词; 基于所述第一关键词和所述第二关键词生成关键词库。 2.根据权利要求1所述的方法, 其特征在于, 所述基于预设第一关键词确定关键词匹配 模板, 包括: 在获取到的语料中查找包含所述第一关键词的目标语料; 以及 从所述目标语料中提取第一预设数量的所述第一关键词的相邻字符, 并基于所述相邻 字符生成对应的关键词匹配模板。 3.根据权利要求2所述的方法, 其特征在于, 所述方法还包括: 分别存储所述目标语料与其他非目标语料; 以及 所述将所述关键词匹配模板。
4、应用到获取到的语料中, 确定第二关键词, 包括: 将所述关键词匹配模板与所述非目标语料进行匹配, 得到至少一个匹配结果; 从所述至少一个所述匹配结果中确定出所述第二关键词。 4.根据权利要求3所述的方法, 其特征在于, 所述从所述至少一个所述匹配结果中确定 出所述第二关键词, 包括: 从所述至少一个匹配结果中确定出至少一个候选第二关键词; 对所述至少一个候选第二关键词去重, 得到所述第二关键词。 5.根据权利要求1所述的方法, 其特征在于, 所述基于预设第一关键词确定关键词匹配 模板, 包括: 在获取到的语料中查找包含所述第一关键词的目标语料; 以及 将所述目标语料进行语义分析, 并基于语义分。
5、析结果确定关键词匹配模板。 6.根据权利要求1所述的方法, 其特征在于, 所述基于预设第一关键词确定关键词匹配 模板, 包括: 根据所述第一关键词确定至少一个候选关键词匹配模板; 根据将所述至少一个候选关键词匹配模板应用到检测语料中得到的检测匹配结果, 确 定各所述候选关键词匹配模板的可信度; 将所对应的可信度数值大于预设可信度阈值的候选关键词匹配模板确定为所述关键 词匹配模板。 7.根据权利要求1所述的方法, 其特征在于, 所述方法还包括: 响应于确定至少以下之一的事件发生, 停止继续执行所述用于生成关键词库的方法: 由所述关键词匹配模板连续确定得到的第二预设数量的第二关键词与所述关键词库 。
6、中的关键词重合; 关键词匹配模板的使用次数达到预设次数阈值。 8.一种用于生成关键词库的装置, 其特征在于, 包括: 第一确定模块, 用于基于预设第一关键词确定关键词匹配模板; 第二确定模块, 用于将所述关键词匹配模板应用到获取到的语料中, 确定第二关键词; 生成模块, 用于基于所述第一关键词和所述第二关键词生成关键词库。 9.根据权利要求8所述的装置, 其特征在于, 所述第一确定模块进一步用于: 权利要求书 1/2 页 2 CN 111488450 A 2 在获取到的语料中查找包含所述第一关键词的目标语料; 以及 从所述目标语料中提取第一预设数量的所述第一关键词的相邻字符, 并基于所述相邻 。
7、字符生成对应的关键词匹配模板。 10.根据权利要求9所述的装置, 其特征在于, 所述装置还包括: 分类模块, 用于分别存储所述目标语料与其他非目标语料; 以及 所述第二确定模块进一步用于: 将所述关键词匹配模板与所述非目标语料进行匹配, 得到至少一个匹配结果; 从所述至少一个所述匹配结果中确定出所述第二关键词。 11.根据权利要求10所述的装置, 其特征在于, 所述第二确定模块进一步用于: 从所述至少一个匹配结果中确定出至少一个候选第二关键词; 对所述至少一个候选第二关键词去重, 得到所述第二关键词。 12.根据权利要求8所述的装置, 其特征在于, 所述第一确定模块进一步用于: 在获取到的语料。
8、中查找包含所述第一关键词的目标语料; 以及 将所述目标语料进行语义分析, 并基于语义分析结果确定关键词匹配模板。 13.根据权利要求8所述的装置, 其特征在于, 所述第一确定模块进一步用于: 根据所述第一关键词确定至少一个候选关键词匹配模板; 根据将所述至少一个候选关键词匹配模板应用到检测语料中得到的检测匹配结果, 确 定各所述候选关键词匹配模板的可信度; 将所对应的可信度数值大于预设可信度阈值的候选关键词匹配模板确定为所述关键 词匹配模板。 14.根据权利要求8所述的装置, 其特征在于, 所述装置还包括: 终止模块, 用于响应于确定至少以下之一的事件发生, 停止继续执行所述用于生成关 键词库。
9、的方法: 由所述关键词匹配模板连续确定得到的第二预设数量的第二关键词与所述关键词库 中的关键词重合; 关键词匹配模板的使用次数达到预设次数阈值。 15.一种电子设备, 其特征在于, 包括: 一个或多个处理器; 存储装置, 其上存储有一个或多个程序, 当所述一个或多个程序被所述一个或多个处 理器执行, 使得所述一个或多个处理器实现权利要求1-7中任一所述的方法。 16.一种计算机可读介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器执行 时实现如权利要求1-7中任一所述的方法。 权利要求书 2/2 页 3 CN 111488450 A 3 一种用于生成关键词库的方法、 装置和电子设备 。
10、技术领域 0001 本公开涉及互联网技术领域, 尤其涉及一种用于生成关键词库的方法、 装置和电 子设备。 背景技术 0002 数据挖掘可以从大量数据中揭示出隐含的、 先前未知的并有潜在价值的信息。 在 进行数据挖掘时, 可以先准备需要的关键词。 即, 需要从相关的数据源中选取所需的关键词 并整合成用于挖掘新关键词的关键词库。 发明内容 0003 提供该公开内容部分以便以简要的形式介绍构思, 这些构思将在后面的具体实施 方式部分被详细描述。 该公开内容部分并不旨在标识要求保护的技术方案的关键特征或必 要特征, 也不旨在用于限制所要求的保护的技术方案的范围。 0004 本公开实施例提供了一种用于生。
11、成关键词库的方法、 装置和电子设备。 可以利用 少量的预设第一关键词通过对应的关键词匹配模板确定海量语料中的第二关键词, 不需要 人工编写大量的关键词匹配模板, 提升了关键词库的构建效率。 0005 第一方面, 本公开实施例提供了一种用于生成关键词库的方法, 该方法包括: 基于 预设第一关键词确定关键词匹配模板; 将所述关键词匹配模板应用到获取到的语料中, 确 定第二关键词; 基于所述第一关键词和所述第二关键词生成关键词库。 0006 第二方面, 本公开实施例提供了一种用于生成关键词库的装置, 该装置包括: 第一 确定模块, 用于基于预设第一关键词确定关键词匹配模板; 第二确定模块, 用于将所。
12、述关键 词匹配模板应用到获取到的语料中, 确定第二关键词; 生成模块, 用于基于所述第一关键词 和所述第二关键词生成关键词库。 0007 第三方面, 本公开实施例提供了一种电子设备, 包括: 一个或多个处理器; 存储装 置, 其上存储有一个或多个程序, 当所述一个或多个程序被所述一个或多个处理器执行, 使 得所述一个或多个处理器实现第一方面所述的用于生成关键词库的方法。 0008 第四方面, 本公开实施例提供了一种计算机可读介质, 其上存储有计算机程序, 该 程序被处理器执行时实现上述第一方面所述的用于生成关键词库的方法的步骤。 0009 本公开实施例提供的用于生成关键词库的方法、 装置和电子。
13、设备, 通过首先基于 预设第一关键词确定关键词匹配模板, 然后将所述关键词匹配模板应用到获取到的语料 中, 确定第二关键词, 最后基于所述第一关键词和所述第二关键词生成关键词库。 可以利用 少量的预设第一关键词通过对应的关键词匹配模板确定海量语料中的第二关键词, 不需要 人工编写大量的关键词匹配模板, 提升了关键词库的构建效率。 附图说明 0010 结合附图并参考以下具体实施方式, 本公开各实施例的上述和其他特征、 优点及 说明书 1/11 页 4 CN 111488450 A 4 方面将变得更加明显。 贯穿附图中, 相同或相似的附图标记表示相同或相似的元素。 应当理 解附图是示意性的, 原件。
14、和元素不一定按照比例绘制。 0011 图1为根据本公开的用于生成关键词库的方法的一个实施例的流程图; 0012 图2为根据本公开的用于生成关键词库的方法的另一个实施例的流程示意图; 0013 图3为根据本公开的用于生成关键词库的装置的一个实施例的结构示意图; 0014 图4为本公开的一个实施例的用于生成关键词库的方法可以应用于其中的示例性 系统架构; 0015 图5为根据本公开实施例提供的电子设备的基本结构的示意图。 具体实施方式 0016 下面将参照附图更详细地描述本公开的实施例。 虽然附图中显示了本公开的某些 实施例, 然而应当理解的是, 本公开可以通过各种形式来实现, 而且不应该被解释为。
15、限于这 里阐述的实施例, 相反提供这些实施例是为了更加透彻和完整地理解本公开。 应当理解的 是, 本公开的附图及实施例仅用于示例性作用, 并非用于限制本公开的保护范围。 0017 应当理解, 本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行, 和/或并行执行。 此外, 方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。 本公 开的范围在此方面不受限制。 0018 本文使用的术语 “包括” 及其变形是开放性包括, 即 “包括但不限于” 。 术语 “基于” 是 “至少部分地基于” 。 术语 “一个实施例” 表示 “至少一个实施例” ; 术语 “另一实施例” 表示 “至少一个另外的实。
16、施例” ; 术语 “一些实施例” 表示 “至少一些实施例” 。 其他术语的相关定 义将在下文描述中给出。 0019 需要注意, 本公开中提及的 “第一” 、“第二” 等概念仅用于对不同的装置、 模块或单 元进行区分, 并非用于限定这些装置、 模块或单元所执行的功能的顺序或者相互依存关系。 0020 需要注意, 本公开中提及的 “一个” 、“多个” 的修饰是示意性而非限制性的, 本领域 技术人员应当理解, 除非在上下文另有明确指出, 否则应该理解为 “一个或多个” 。 0021 本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性 的目的, 而并不是用于对这些消息或信息的范围进行。
17、限制。 0022 需要说明的是, 在不冲突的情况下, 本公开中的实施例及实施例中的特征可以相 互组合。 0023 请参考图1, 其示出了根据本公开的用于生成关键词库的方法的一个实施例的流 程图, 如图1所示, 该用于生成关键词库的方法包括以下步骤101至步骤103。 0024 步骤101, 基于预设第一关键词确定关键词匹配模板。 0025 上述预设第一关键词可以是预先设定的具有同一种共同属性的词语。 例如可以表 征技能的技能词, 这些技能词可以是针对办公软件领域的诸如制作演示文稿、 处理图像等。 在一些应用场景中, 可以使用该技能处理的对象作为上述的技能词。 例如, 上述的制作演示 文稿可以 。
18、“演示文稿” 作为上述的技能词, 上述的处理图像可以 “图像” 作为上述的技能词。 0026 上述预设第一关键词可以由执行上述用于生成关键词库的方法的设备从服务端 获取。 该设备从服务端获取到一定数量的预设第一关键词之后, 可以将这些预设第一关键 词统一存储在初始词库中。 这里的一定数量的预设第一关键词例如可以是10个、 20个等, 具 说明书 2/11 页 5 CN 111488450 A 5 体数量可以根据实际情况而定, 此处不作任何限制。 这里的初始词库存储的是当前时刻的 所有预设第一关键词。 当需要使用预设第一关键词时, 可以直接从上述初始词库中提取。 0027 可以根据预设规则处理上。
19、述预设第一关键词得到上述关键词匹配模板。 这里的预 设规则例如可以是在预先设置的多个语料中查找包含任意一个预设第一关键词的语料, 并 根据查找到的语料确定对应的关键词匹配模板。 例如, 上述预先设置的语料可以是 “熟练运 用各类办公软件” 、“掌握图像处理技术” 、“具有数据开发经验” 等等。 如果在这些语料中查 找到了包含预设第一关键词 “图像处理技术” 的语料 “掌握图像处理技术” , 可以生成对应的 关键词匹配模板 “掌握*” 。 应当说明的是, 本公开中的 “*” 可以表示对应的字符, 当其与 任意具体文字字符搭配时, 可以生成对应的关键词匹配模板。 另外,“*” 可以不仅代表3个 字。
20、符, 而应理解为实质上代表此处包含的所有关键字符, 即可以是4个关键字符、 5个关键字 符等, 连续的关键字符可以组成第一关键词。 0028 根据预设第一关键词生成了对应的关键词匹配模板之后, 可以应用生成的关键词 匹配模板。 0029 步骤102, 将关键词匹配模板应用到获取到的语料中, 确定第二关键词。 0030 上述获取到的语料可以是预先获取到的存储在语料库中的语料。 语料库中的语料 可以是包含上述关键词的句子。 例如求职类文档中的职位描述文档、 简历文档等文档, 可以 将这些文档中的文本以分号、 句号等分隔符切割为句子, 然后可以保存这些句子形成上述 的语料库。 应当说明的是, 上述语。
21、料库中的句子可以包含上述关键词, 也可以不包含上述关 键词, 具体以预先获取到的语料为准。 上述获取到的语料也可以是当前时刻获取到的语料。 也就是说, 可以将关键词匹配模板应用到提前设置好的语料库中(即提前获取到的语料 中), 在该语料库中确定第二关键词; 也可以将关键词匹配模板应用到当前时刻获取到的语 料中, 确定当前时刻获取到的语料中包含的第二关键词。 0031 上述第二关键词可以是与预设第一关键词属性相同的词语。 这里的属性例如可以 是同为上述的技能词的词语; 或者, 例如可以是都属于水果类的词语等。 0032 将关键词匹配模板应用到获取到的语料中时, 可以在获取到的语料中查找与关键 词。
22、匹配模板匹配成功的语料, 并将这些匹配成功的语料中与预设第一关键词属性相同的词 语确定为第二关键词。 例如, 根据任一上述技能词确定的关键词匹配模板为 “具有*开发 经验” , 当有语料为 “具有软件开发经验” 时, 可以认为该语料与该关键词匹配模板匹配成 功, 继而可以将 “具有软件开发经验” 中的 “软件” 确定为第二关键词。 0033 步骤103, 基于第一关键词和第二关键词生成关键词库。 0034 确定了第二关键词之后, 可以存储第二关键词和第一关键词, 生成关键词库。 这 里, 由于上述的初始词库中已经存储了第一关键词, 因而可以将确定的第二关键词存储进 上述初始词库中。 此时, 上。
23、述初始词库即可以视为生成的关键词库。 例如, 当前的第一关键 词包括 “火车” 、“小轿车” 、“大巴车” 等上述技能词; 当前确定的第二关键词为 “公交车” , 则 可以存储第一关键词 “火车” 、“小轿车” 、“大巴车” 和第二关键词 “公交车” , 生成包括 “火 车” 、“小轿车” 、“大巴车” 、“公交车” 的关键词库。 0035 基于第一关键词和第二关键词生成关键词库之后, 相对于下一次确定的第二关键 词, 当前关键词库中的第二关键词可以被视为预设第一关键词。 继而可以根据当前关键词 库中的第一关键词和第二关键词继续确定对应的关键词匹配模板, 并确定对应的第二关键 说明书 3/11。
24、 页 6 CN 111488450 A 6 词。 例如上述关键词库中包括的 “火车” 、“小轿车” 、“大巴车” 、“公交车” 的关键词可以为当 前时刻的第一关键词。 可以根据这些第一关键词生成的关键词匹配模板, 可以确定属性相 同的第二关键词 “高铁” 。 0036 这样周而复始, 可以使关键词库越来越丰富, 继而在应用关键词库时, 可以匹配到 更多关键信息。 0037 在任一文档中判断是否存在需要的关键信息时, 可以提前构建关键词库。 然后可 以使用该关键词库中的关键词对文档进行匹配操作, 若匹配到该文档中存在关键词库中的 关键词时, 即可确定该文档中包含的关键信息。 例如, 在智能招聘领。
25、域, 可以通过大量的上 述技能词对求职者的求职文档进行匹配。 即, 可以通过匹配该求职文档中包含的技能词的 多少判断该求职者是否可以被录用。 作为示意性说明, 该求职文档中能匹配的技能词越多, 说明该求职者掌握的技能就越多, 被录用的几率也就越大。 0038 现有技术中, 一般从结构化数据或者半结构化数据中抽取关键词构成关键词库。 这样, 对自然语言语料的应用较少, 且结构化数据或者半结构化数据较少, 并不能将包含海 量关键词的语料都涵盖在内, 造成资源浪费, 且构建关键词库时, 费时费力。 0039 本实施例, 通过首先基于预设第一关键词确定关键词匹配模板, 然后将关键词匹 配模板应用到获取。
26、到的语料中, 确定第二关键词, 最后基于第一关键词和第二关键词生成 关键词库。 可以利用少量的预设第一关键词通过对应的关键词匹配模板确定海量语料中的 第二关键词, 不需要人工编写大量的关键词匹配模板, 提升了关键词库的构建效率。 0040 请参考图2, 其示出了根据本公开的用于生成关键词库的方法的另一个实施例的 流程示意图, 如图2所示, 该用于生成关键词库的方法可以包括以下步骤201至步骤206。 0041 步骤201, 在获取到的语料中查找包含第一关键词的目标语料。 0042 上述目标语料可以是包含任意一个第一关键词的句子。 例如, 包含上述技能词 “演 示文稿” 的句子 “我会制作演示文。
27、稿” , 包含上述技能词 “图像” 的句子 “我会处理图像” 等。 0043 针对任意一个第一关键词, 可以在获取到的语料中查找包含该第一关键词的句 子, 并将查找到的句子确定为与该第一关键词对应的目标语料。 0044 在一些应用场景中, 想要获取到的语料中一定存在与预设第一关键词对应的目标 语料, 预设第一关键词可以从获取到的语料中提取。 至于提取的多少可以根据获取到的语 料的数量确定。 因此, 可以先统计获取到的语料的数量, 然后提取预设份额的预设第一关键 词。 这里的预设份额例如可以但不仅限于是5、 7等。 例如, 统计到获取到的语料有1千 条, 可以提取这些语料中的满足预设第一关键词属。
28、性的50个预设第一关键词组成初始词 库。 0045 步骤202, 从目标语料中提取第一预设数量的第一关键词的相邻字符, 并基于相邻 字符生成对应的关键词匹配模板。 0046 在获取到的语料中查找目标语料时, 根据一个第一关键词可能查找不到与该第一 关键词对应的目标语料, 可能仅查找到一个对应的目标语料, 也可能查找到多个与该关键 词对应的目标语料。 当查找到对应的目标语料后, 可以提取每一个目标语料中第一预设数 量的对应的第一关键词的相邻字符。 0047 上述第一预设数量例如可以但不仅限于2个、 3个等。 即, 可以从每一个目标语料中 提取该目标语料对应的第一关键词的前面2个字符和后面2个字符。
29、生成对应的关键词匹配 说明书 4/11 页 7 CN 111488450 A 7 模板。 在一些应用场景中, 提取的第一关键词前面的第一预设数量可以和后面的第一预设 数量不同。 例如, 预设第一关键词中包括 “数据库” , 可以在获取到的语料中查找所有包含 “数据库” 的语料, 并将这些语料确定为与 “数据库” 对应的目标语料。 如果查找到的目标语 料为 “具有数据库开发经验” , 可以提取该目标语料中的 “数据库” 这个第一关键词的前面2 个字符 “具有” 和后面2个字符 “开发” , 得到 “具有*开发” 的关键词匹配模板; 也可以提取 该目标语料中的 “数据库” 这个第一关键词的前面2个。
30、字符 “具有” 和后面4个字符 “开发” , 得 到 “具有*开发经验” 的关键词匹配模板。 应当说明的是, 一个目标语料可以生成一个对应 的关键词匹配模板。 针对多个目标语料, 可以生成多个关键词匹配模板。 0048 步骤203, 分别存储目标语料与其他非目标语料。 0049 当查找到目标语料之后, 可以将查找到的目标语料与剩下的语料(即非目标语料) 分别存储。 这样, 在使用关键词匹配模板去匹配获取到的语料时, 可以直接匹配上述非目标 语料, 而不需要将所有语料都进行匹配, 在一定程度上可以减少操作工序。 例如, 关键词匹 配模板是基于目标语料 “具有数据库开发经验” 得到的 “具有*开发。
31、经验” 。 将目标语料与 非目标语料分别存储之后, 可以排除 “具有数据库开发经验” 这一目标语料, 而仅对其他的 诸如 “具有前端开发经验” 、“具有软件开发经验” 、“具有三年开发经验” 等非目标语料进行 匹配操作。 0050 步骤204, 将关键词匹配模板与非目标语料进行匹配, 得到至少一个匹配结果。 0051 上述匹配结果可以是每一个匹配成功的非目标语料对应的信息内容。 例如, 在上 述的 “具有*开发经验” 的关键词匹配模板中, 如果获取到的非目标语料中存在 “具有丰富 的开发经验” , 此时该句子与该关键词匹配模板匹配成功, 虽然 “丰富的” 这三个字符并不是 任何一个上述的技能词。
32、。 但可以将 “具有丰富的开发经验” 确定为根据该关键词匹配模板得 到的匹配结果。 0052 步骤205, 从至少一个匹配结果中确定出第二关键词。 0053 针对每一个关键词匹配模板, 将该关键词匹配模板与非目标语料进行匹配时, 可 以得到多个匹配结果。 从任意一个匹配结果中可以确定出与之对应的第二关键词。 例如, 在 非目标语料中匹配到了与上述的 “具有*开发经验” 的匹配模板对应的语料 “具有嵌入式 开发经验” , 可以将该语料中的关键字符 “嵌入式” 确定为第二关键词。 0054 在一些应用场景中, 可以根据非目标语料中是否存在关键字符确定第二关键词。 这里的关键字符可以理解为实质上是可。
33、以组成第二关键词的字符。 也就是说, 在确定关键 词匹配模板中 “*” 代表的字符是否为关键字符时, 可以根据预先设置的能够被确定为第 一关键词的属性进行判断。 例如, 可以确定上述的 “丰富的” 是否为上述的技能词, 如果是, 可以将该字符确定为对应的关键字符, 对应的 “具有丰富的开发经验” 确定为对应的匹配结 果。 而此处, 显然不是, 也就不能将 “丰富的” 确定为对应的第二关键词。 0055 在一些可选的实现方式中, 上述步骤205具体可以包括以下步骤: 0056 步骤2051, 从至少一个匹配结果中确定出至少一个候选第二关键词。 0057 也就是说, 在多个匹配结果中可以确定出多个。
34、候选第二关键词, 这些候选第二关 键词中可以包括与第一关键词相同的词语, 也可以包括与第一关键词不同的词语。 0058 步骤2052, 对至少一个候选第二关键词去重, 得到第二关键词。 0059 也就是说, 可以检测上述候选第二关键词中是否存在与第一关键词相同的词语。 说明书 5/11 页 8 CN 111488450 A 8 除去这些与第一关键词相同的候选第二关键词, 可以得到第二关键词。 例如, 从匹配结果中 确定的候选第二关键词包括 “苹果” 、“香蕉” 、“草莓” , 当前时刻的第一关键词包括 “菠萝” 、 “香蕉” 。 可以将候选第二关键词中的 “香蕉” 去重, 得到当前时刻的第二关。
35、键词 “苹果” 、“草 莓” 。 0060 得到第二关键词之后, 可以将第一关键词和得到的第二关键词进行存储, 生成当 前时刻的关键词库。 即步骤206, 根据第一关键词和第二关键词生成关键词库。 0061 本实施例通过提取目标语料中第一预设数量的第一关键词的前后字符确定出对 应的关键词匹配模板, 并根据去重操作确定出第二关键词, 最后将第二关键词和第一关键 词进行存储, 生成关键词库。 操作简单, 方便快捷。 0062 在另外一些实施例中, 上述步骤101可以包括以下步骤: 0063 在获取到的语料中查找包含第一关键词的目标语料; 以及, 将目标语料进行语义 分析, 并基于语义分析结果确定关。
36、键词匹配模板。 0064 可以通过对每一个目标语料进行语义分析, 得出该目标语料对应的语义分析结 果。 在进行语义分析时, 可以通过对目标语料中的字符进行分词处理, 然后针对分得的每一 个词语进行判断, 判断该词语是否可以与第一关键词组成搭配关系, 继而根据该搭配关系 确定出对应的关键词匹配模板。 这里的分词处理即可以是将句子转为词的表示。 搭配关系 例如可以是分词与第一关键词是否可以组成通用且通顺的语料。 例如, 针对第一关键词为 “数据库” 查找到的目标语料 “具有丰富的数据库开发经验” , 可以对该目标语料进行语义分 析, 即可以将 “具有丰富的数据库开发经验” 进行分词处理, 得到 “。
37、具有” 、“丰富的” 、“数据 库” 、“开发” 、“经验” 这几个分词, 然后进行分析, 确定其中的第一关键词 “数据库” , 并确定 “具有” 、“开发” 为可以与 “数据库” 组成搭配关系的词语, 继而可以确定对应的关键词匹配 模板为 “具有*开发” 。 0065 在另外一些实施例中, 上述步骤101可以包括以下步骤: 0066 步骤一, 根据第一关键词确定至少一个候选关键词匹配模板。 0067 根据预设第一关键词生成的关键词匹配模板中, 可能存在该关键词匹配模板仅能 够匹配该目标语料的情况, 或者仅能够匹配数量极少(例如3条)的语料的情况。 例如, 根据 第一关键词为 “数据库” 查找。
38、到的目标语料为 “具有数据库和嵌入式开发经验” , 如果提取2 个该目标语料中的第一关键词的相邻字符生成的关键词匹配模板可以为 “具有*和嵌” 。 此 时, 如果使用该关键词匹配模板去确定第二关键词, 可能仅能匹配到该目标语料。 故而, 可 以过滤掉这类能够与语料匹配成功但数量较少的关键词匹配模板, 确定出候选关键词匹配 模板。 0068 步骤二, 根据将至少一个候选关键词匹配模板应用到检测语料中得到的检测匹配 结果, 确定各候选关键词匹配模板的可信度。 0069 上述检测语料可以为获取到的全部语料中的部分语料。 0070 确定出候选关键词匹配模板之后, 可以计算每个候选关键词匹配模板的可信度。
39、。 在一些可选的实现方式中, 具体可以通过以下步骤1至步骤4计算某个候选关键词匹配模板 的可信度。 0071 步骤1, 从至少一个候选关键词匹配模板中提取任一候选关键词匹配模板, 并将提 取的候选关键词匹配模板确定为当前时刻待计算可信度的目标候选关键词匹配模板。 说明书 6/11 页 9 CN 111488450 A 9 0072 也就是说, 可以将任意一个候选关键词匹配模板确定为目标候选关键词匹配模 板, 然后计算该确定的目标候选关键词匹配模板的可信度。 0073 步骤2, 统计与目标候选关键词匹配模板匹配成功的检测语料的总个数, 记为第一 数量。 例如, 目标候选关键词匹配模板为上述的 “。
40、具有*开发经验” 时, 在获取到的语料中 能够与 “具有*开发经验” 匹配成功的语料的个数。 0074 步骤3, 统计与目标候选关键词匹配模板匹配成功的检测语料中包含的第一关键 词的总个数, 记为第二数量。 例如, 目标候选关键词匹配模板为上述的 “具有*开发经验” 时, 能够与 “具有*开发经验” 匹配成功的语料中,“*” 所代表的信息内容为第一关键词 的个数。 也即, 在匹配成功的语料中包含的目标语料的个数。 0075 步骤4, 根据第一数量和第二数量, 确定提取的候选关键词匹配模板的可信度。 0076 得到上述第一数量和第二数量之后, 可以计算第二数量与第一数量的比值, 确定 出该目标候。
41、选关键词的可信度。 即可信度(第二数量/第一数量)。 例如, 目标候选关键词 匹配模板为上述的 “具有*开发经验” 时, 在获取到的语料中能够与 “具有*开发经验” 匹 配成功的语料的个数为100个, 这100个语料中包含的第一关键词的个数为70个, 则该候选 关键词匹配模板的可信度为(70/100)70。 0077 步骤三, 将所对应的可信度数值大于预设可信度阈值的候选关键词匹配模板确定 为关键词匹配模板。 0078 得到每个候选关键词匹配模板的可信度之后, 可以根据设置的预设可信度阈值过 滤掉可信度较低的候选关键词匹配模板。 这里的预设可信度阈值例如可以但不限于80、 95等。 0079 。
42、经过两次过滤之后, 当前留下的可以是可信度较高的关键词匹配模板。 通过计算 关键词匹配模板的可信度, 可以提前淘汰掉一些并不能真正投入使用的候选关键词匹配模 板, 例如上述的 “具有*和嵌” 。 继而可以提高确定的第二关键词的准确度。 0080 在一些可选的实现方式中, 上述用于生成关键词库的方法还可以包括响应于确定 至少以下之一的事件发生, 停止继续执行用于生成关键词库的方法: 0081 事件1, 由关键词匹配模板连续确定得到的第二预设数量的第二关键词与关键词 库中的关键词重合。 0082 在满足事件1的情况下可以停止继续执行上述用于生成关键词库的方法。 即, 与关 键词匹配模板匹配成功的语。
43、料中, 如果连续确定的多个第二关键词均可以在关键词库中找 到与之相同的关键词, 可以视为当前获取到的语料没有继续挖掘第二关键词的价值, 继而 可以停止执行上述用于生成关键词库的方法。 这里的第二预设数量例如可以但不限于30 个、 40个等。 0083 事件2, 关键词匹配模板的使用次数达到预设次数阈值。 0084 在满足事件2的情况下可以停止继续执行上述用于生成关键词库的方法。 即, 如果 确定了关键词匹配模板的使用次数达到了预设次数阈值, 亦可以停止执行上述用于生成关 键词库的方法。 这里的预设次数阈值例如可以但不仅限于10次、 20次等。 这里, 每使用一次 关键词匹配模板, 使用次数即可。
44、以增加1次。 当增加的次数达到上述预设次数阈值时, 可以 视为获取到的语料没有继续挖掘第二关键词的价值, 继而可以停止执行上述用于生成关键 词库的方法。 说明书 7/11 页 10 CN 111488450 A 10 0085 请参考图3, 其示出了根据本公开的用于生成关键词库的装置的一个实施例的结 构示意图, 如图3所示, 用于生成关键词库的装置包括第一确定模块301、 第二确定模块302 和生成模块303。 其中, 第一确定模块301, 用于基于预设第一关键词确定关键词匹配模板; 第二确定模块302, 用于将关键词匹配模板应用到获取到的语料中, 确定第二关键词; 生成 模块303, 用于基。
45、于第一关键词和第二关键词生成关键词库 0086 需要说明的是, 该用于生成关键词库的装置的第一确定模块301、 第二确定模块 302和生成模块303的具体处理及其所带来的技术效果可分别参考图1对应实施例中步骤 101至步骤103的相关说明, 在此不再赘述。 0087 在本实施例的一些可选的实现方式中, 第一确定模块301进一步用于: 在获取到的 语料中查找包含第一关键词的目标语料; 以及, 从目标语料中提取预设数量的第一关键词 的相邻字符, 并基于相邻字符生成对应的关键词匹配模板。 0088 在本实施例的一些可选的实现方式中, 用于生成关键词库的装置还包括: 分类模 块, 用于分别存储目标语料。
46、与其他非目标语料; 以及, 第二确定模块302进一步用于: 将关键 词匹配模板与非目标语料进行匹配, 得到至少一个匹配结果; 从至少一个匹配结果中确定 出第二关键词。 0089 在本实施例的一些可选的实现方式中, 第二确定模块302进一步用于: 从至少一个 匹配结果中确定出至少一个候选第二关键词; 对至少一个候选第二关键词去重, 得到第二 关键词。 0090 在本实施例的一些可选的实现方式中, 第一确定模块301进一步用于: 在获取到的 语料中查找包含第一关键词的目标语料; 以及, 将目标语料进行语义分析, 并基于语义分析 结果确定关键词匹配模板。 0091 在本实施例的一些可选的实现方式中,。
47、 第一确定模块301进一步用于: 根据第一关 键词确定至少一个候选关键词匹配模板; 根据将至少一个候选关键词匹配模板应用到检测 语料中得到的检测匹配结果, 确定各候选关键词匹配模板的可信度; 将所对应的可信度数 值大于预设可信度阈值的候选关键词匹配模板确定为关键词匹配模板。 0092 在本实施例的一些可选的实现方式中, 用于生成关键词库的装置还包括: 终止模 块, 用于响应于确定至少以下之一的事件发生, 停止继续执行用于生成关键词库的方法: 由 关键词匹配模板连续确定得到的预设数量的第二关键词与关键词库中的关键词重合; 关键 词匹配模板的使用次数达到预设次数阈值。 0093 请参考图4, 其示。
48、出了本公开的一个实施例的用于生成关键词库的方法可以应用 于其中的示例性系统架构。 0094 如图4所示, 系统架构可以包括终端设备401、 402、 403, 网络404, 服务器405。 网络 404用以在终端设备401、 402、 403和服务器405之间提供通信链路的介质。 网络404可以包括 各种连接类型, 例如有线、 无线通信链路或者光纤电缆等等。 上述终端设备和服务器可以利 用诸如HTTP(HyperText Transfer Protocol, 超文本传输协议)之类的任何当前已知或未 来研发的网络协议进行通信, 并且可以与任意形式或介质的数字数据通信(例如, 通信网 络)互连。 。
49、通信网络的示例包括局域网( “LAN” ), 广域网( “WAN” ), 网际网(例如, 互联网)以及 端对端网络(例如, Ad hoc端对端网络), 以及任何当前已知或未来研发的网络。 0095 终端设备401、 402、 403可以通过网络404与服务器405交互, 以接收或发送消息等。 说明书 8/11 页 11 CN 111488450 A 11 终端设备401、 402、 403上可以安装有各种客户端应用, 例如视频发布应用、 搜索类应用、 新 闻资讯类应用。 0096 终端设备401、 402、 403可以是硬件, 也可以是软件。 当终端设备401、 402、 403为硬 件时, 。
50、可以是具有显示屏并且支持网页浏览的各种电子设备, 包括但不限于智能手机、 平板 电脑、 电子书阅读器、 MP3播放器(Moving Picture Experts Group Audio Layer III, 动态 影像专家压缩标准音频层面3)、 MP4(Moving Picture Experts Group Audio Layer IV, 动 态影像专家压缩标准音频层面4)播放器、 膝上型便携计算机和台式计算机等等。 当终端设 备401、 402、 403为软件时, 可以安装在上述所列举的电子设备中。 其可以实现成多个软件或 软件模块(例如用来提供分布式服务的软件或软件模块), 也可以实现。
- 内容关键字: 用于 生成 关键 词库 方法 装置 电子设备
农机动力飞轮喷涂用漆雾废气处理装置.pdf
旁路引流线绝缘防护夹持支架结构.pdf
建筑施工围挡.pdf
推进剂气体浓度监测传感器.pdf
防刺伤采血针.pdf
铸造件快速冷却装置.pdf
工业硅粉制备用研磨装置.pdf
电池盖帽包边用防偏移模具.pdf
拉杆式储能电源箱.pdf
多穴五轴自动光学检测装置.pdf
活塞钻铣床.pdf
混凝土结构表面裂缝检测装置.pdf
羊粪粉碎机的清扫装置.pdf
铁碳微电解填料球.pdf
电感电流过零检测方法及电路.pdf
陶瓷加工的练泥机.pdf
建筑工程用支护装置.pdf
压滤机拉板装置及压滤机.pdf
含油污泥处理水洗装置.pdf
半导体结构及其制备方法.pdf
双环高密度标测消融导管.pdf
洁净手术室用的排风系统.pdf
用于预测转动设备的故障概率的方法、设备和存储介质.pdf
视觉辅助的三极管封装质量检测方法.pdf
可调式肢体活动康复训练装置.pdf
基于分布式光纤声波传感的异常事件识别方法及相关装置.pdf
服装布料用卷绕装置.pdf
鸽子脂肪前体细胞的分离并体外培养方法及培养物和应用.pdf
配置肘式黏滞阻尼器的自复位摇摆结构.pdf
采硐充填方法.pdf
积分球数字仿体系统及成像测评方法.pdf
氯代碳酸乙烯酯的制备方法.pdf
化合物.pdf
作为5HTSUB2A/SUB血清素受体调节剂用于治疗与其相关病症的吡唑衍生物.pdf
5,6环化的吲哚衍生物及其使用方法.pdf
升压系统的故障诊断装置、升压电路的控制装置以及车辆.pdf
有机废气净化回收方法.pdf
挤出压延法内衬层薄胶片生产机组.pdf
多工位罐口成形机.pdf
两种CSUB9/SUB,CSUB12/SUB不同长度碳链的对称尾式巯基卟啉.pdf
带有电连通装置的电气设备.pdf
治疗装置和使用它的方法.pdf
多室袋.pdf
用2羟基苯基三嗪稳定的着色透明涂层UV.pdf
一种照相纸切纸机.pdf
带盖包装用软管.pdf
天丝纱线的制造方法及其在家纺面料中的应用.pdf
竹纤维、棉纤维混纺毛巾的制备方法.pdf
聚合物水泥防水涂料丙烯酸乳液.pdf
具有座椅卡合机构的儿童座椅.pdf
多缸发动机.pdf