《问答页面核心词提取方法和装置.pdf》由会员分享,可在线阅读,更多相关《问答页面核心词提取方法和装置.pdf(15页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 (43)申请公布日 (21)申请号 201410827521.4 (22)申请日 2014.12.25 G06F 17/30(2006.01) (71)申请人 北京奇虎科技有限公司 地址 100088 北京市西城区新街口外大街 28 号 D 座 112 室 (德胜园区) 申请人 奇智软件 (北京) 有限公司 (72)发明人 沈亮 周伟 梁任鹏 项碧波 (74)专利代理机构 北京智汇东方知识产权代理 事务所 ( 普通合伙 ) 11391 代理人 康正德 孙晓芳 (54) 发明名称 问答页面核心词提取方法和装置 (57) 摘要 本发明提供了一种问答页面核心词提取方法 和装置。其。
2、中, 问答页面核心词提取方法, 包括 : 从问答页面中提取核心词候选串 ; 对所述核心词 候选串进行分词, 提取各个候选串分词的分类特 征 ; 根据所述分类特征筛选各个候选串分词是否 是核心词。采用本发明能够提高问答页面检索的 准确性。 (51)Int.Cl. (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书8页 附图4页 (10)申请公布号 CN 104462552 A (43)申请公布日 2015.03.25 CN 104462552 A 1/2 页 2 1. 一种问答页面核心词提取方法, 包括 : 从问答页面中提取核心词候选串 ; 对所述核心词候选串进行。
3、分词, 提取各个候选串分词的分类特征 ; 根据所述分类特征筛选各个候选串分词是否是核心词。 2. 根据权利要求 1 所述的方法, 其中, 从问答页面中提取核心词候选串, 包括 : 获取与用户输入的搜索词对应的问答页面 ; 从所述问答页面的标题中提取核心词候选串 ; 和 / 或从所述问答页面的页面内容中, 提取与所述搜索词相关的字符串, 作为核心词候选串。 3. 根据权利要求 1-2 任一项所述的方法, 其中, 提取与所述搜索词相关的字符串, 包 括 : 对所述搜索词进行分词 ; 从所述问答页面的页面内容中提取包括至少一个搜索词分词的字符串。 4. 根据权利要求 1-3 任一项所述的方法, 其中。
4、, 根据所述分类特征筛选各个候选串分 词是否是核心词, 包括 : 根据所述分类特征对候选串分词进行分类, 根据分类结果确定各个候选串分词是否是 核心词 ; 所述分类特征包括下列特征中的至少一种 : 名词、 热度词表、 超链接、 相关问题共现率、 文档词频。 5. 根据权利要求 1-4 任一项所述的方法, 其中, 根据分类结果确定各个候选串分词是 否是核心词, 具体包括 : 针对每个分类, 将该分类中各个候选串分词与用户输入的搜索词进行匹配, 筛选出匹 配度最高的设定数量的候选串分词, 作为所述核心词 ; 针对每个分类, 根据该分类中各个候选串分词的使用频率统计值, 筛选出所述使用频 率统计值最。
5、高的设定数量的候选串分词, 作为所述核心词 ; 其中, 候选串分词的使用频率统 计值包括下列参数之一 : 被搜索次数、 被点击次数、 曾作为核心词的次数、 曾作为搜索词的 次数。 6. 一种问答页面核心词提取装置, 包括 : 候选串提取模块, 用于从问答页面中提取核心词候选串 ; 特征提取模块, 用于对核心词候选串进行分词, 提取各个候选串分词的分类特征 ; 核心词确定模块, 用于根据所述分类特征筛选各个候选串分词是否是核心词。 7. 根据权利要求 6 所述的装置, 其中, 所述候选串提取模块, 具体用于 : 获取与用户输入的搜索词对应的问答页面 ; 从所述问答页面的标题中提取核心词候选串 ;。
6、 和 / 或从所述问答页面的页面内容中, 提取与所述搜索词相关的字符串, 作为核心词候选串。 8. 根据权利要求 6-7 任一项所述的装置, 其中, 所述候选串提取模块, 具体用于 : 对所述搜索词进行分词 ; 从所述问答页面的页面内容中提取包括至少一个搜索词分词的字符串。 9. 根据权利要求 6-8 任一项所述的装置, 其中, 所述核心词确定模块, 具体用于 : 根据所述分类特征对候选串分词进行分类, 根据分类结果确定各个候选串分词是否是 权 利 要 求 书 CN 104462552 A 2 2/2 页 3 核心词 ; 所述分类特征包括下列特征中的至少一种 : 名词、 热度词表、 超链接、 。
7、相关问题共现率、 文档词频。 10. 根据权利要求 6-9 任一项所述的装置, 其中, 所述核心词确定模块, 具体用于 : 针对每个分类, 将该分类中各个候选串分词与用户输入的搜索词进行匹配, 筛选出匹 配度最高的设定数量的候选串分词, 作为所述核心词 ; 或 针对每个分类, 根据该分类中各个候选串分词的使用频率统计值, 筛选出所述使用频 率统计值最高的设定数量的候选串分词, 作为所述核心词 ; 其中, 候选串分词的使用频率统 计值包括下列参数之一 : 被搜索次数、 被点击次数、 曾作为核心词的次数、 曾作为搜索词的 次数。 权 利 要 求 书 CN 104462552 A 3 1/8 页 4。
8、 问答页面核心词提取方法和装置 技术领域 0001 本发明涉及搜索技术领域, 特别是涉及搜索过程中获取相关问题时的问答页面核 心词提取方法和装置。 背景技术 0002 随着互联网技术的发展, 互联网数据早已呈现爆炸性增长的趋势, 人们对知识的 需求越来越渴望, 越来越多的人们开始使用搜索引擎搜索来满足对未知知识的查询与搜 索。大型搜索引擎 ( 比如谷歌 google、 360、 百度等 ) 可以很方便快捷的提供相关问答的搜 索。其中相关问答搜索是指用户输入一个问题, 搜索引擎检索与该问题相对应的答案。在 不同的问答知识页面, 不仅提供了针对用户输入的问题进行回答的相关答复内容, 还提供 了与当。
9、前问答页面的用户输入问题相关的问题链接, 供用户参考使用, 方便用户在进行问 答搜索时从不同角度综合得到该问题的解决答案。 0003 例如 : 当前问答页面的搜索问题为 :“感冒咳嗽怎么办? ” 在当前问答页面为用户 推荐的相关问题可以包括 :“感冒怎么办? ” ,“感冒咳嗽流鼻涕怎么办? ” ,“小孩感冒咳嗽怎 么办? ” , 等等。 0004 现有技术中获取相关问题时, 一般是根据用户输入的搜索词作为核心词来进行获 取的, 这种方式比较简单直接, 但获取到的相关问题与用户输入的问题的相关度并不是很 好, 往往不能很好地满足用户的需求, 也就是说, 其所获取的相关问题与用户真正想要获得 的问。
10、题答案之间的匹配度比较差, 导致问答页面问题检索的准确性比较差, 与用户需求的 贴合性比较差, 不能解决用户想在当前问答页面查看与所检索的问题更贴近的、 更吻合的 问题答案的检索匹配需求。 0005 因此, 确定合适的核心词, 以便通过获取的核心词获取更合适的相关问题, 是问答 页面相关问题获取过程中亟待解决的技术问题。 发明内容 0006 鉴于上述问题, 提出了本发明以便提供一种克服上述问题或者至少部分地解决上 述问题的问答页面核心词提取方法和相应的问答页面核心词提取装置。 0007 本发明实施例提供了一种问答页面核心词提取方法, 包括 : 0008 从问答页面中提取核心词候选串 ; 000。
11、9 对所述核心词候选串进行分词, 提取各个候选串分词的分类特征 ; 0010 根据所述分类特征筛选各个候选串分词是否是核心词。 0011 在一些可选的实施例中, 从问答页面中提取核心词候选串, 包括 : 0012 获取与用户输入的搜索词对应的问答页面 ; 0013 从所述问答页面的标题中提取核心词候选串 ; 和 / 或从所述问答页面的页面内容 中, 提取与所述搜索词相关的字符串, 作为核心词候选串。 0014 在一些可选的实施例中, 提取与所述搜索词相关的字符串, 包括 : 说 明 书 CN 104462552 A 4 2/8 页 5 0015 对所述搜索词进行分词 ; 0016 从所述问答页。
12、面的页面内容中提取包括至少一个搜索词分词的字符串。 0017 在一些可选的实施例中, 根据所述分类特征筛选各个候选串分词是否是核心词, 包括 : 0018 根据所述分类特征对候选串分词进行分类, 根据分类结果确定各个候选串分词是 否是核心词 ; 0019 所述分类特征包括下列特征中的至少一种 : 名词、 热度词表、 超链接、 相关问题共 现率、 文档词频。 0020 在一些可选的实施例中, 根据分类结果确定各个候选串分词是否是核心词, 具体 包括 : 0021 针对每个分类, 将该分类中各个候选串分词与用户输入的搜索词进行匹配, 筛选 出匹配度最高的设定数量的候选串分词, 作为所述核心词 ; 。
13、或 0022 针对每个分类, 根据该分类中各个候选串分词的使用频率统计值, 筛选出所述使 用频率统计值最高的设定数量的候选串分词, 作为所述核心词 ; 其中, 候选串分词的使用频 率统计值包括下列参数之一 : 被搜索次数、 被点击次数、 曾作为核心词的次数、 曾作为搜索 词的次数。 0023 本发明实施例还提供一种问答页面核心词提取装置, 包括 : 0024 候选串提取模块, 用于从问答页面中提取核心词候选串 ; 0025 特征提取模块, 用于对核心词候选串进行分词, 提取各个候选串分词的分类特 征 ; 0026 核心词确定模块, 用于根据所述分类特征筛选各个候选串分词是否是核心词。 0027。
14、 在一些可选的实施例中, 所述候选串提取模块, 具体用于 : 0028 获取与用户输入的搜索词对应的问答页面 ; 0029 从所述问答页面的标题中提取核心词候选串 ; 和 / 或从所述问答页面的页面内容 中, 提取与所述搜索词相关的字符串, 作为核心词候选串。 0030 在一些可选的实施例中, 所述候选串提取模块, 具体用于 : 0031 对所述搜索词进行分词 ; 0032 从所述问答页面的页面内容中提取包括至少一个搜索词分词的字符串。 0033 在一些可选的实施例中, 所述核心词确定模块, 具体用于 : 0034 根据所述分类特征对候选串分词进行分类, 根据分类结果确定各个候选串分词是 否是。
15、核心词 ; 0035 所述分类特征包括下列特征中的至少一种 : 名词、 热度词表、 超链接、 相关问题共 现率、 文档词频。 0036 在一些可选的实施例中, 所述核心词确定模块, 具体用于 : 0037 针对每个分类, 将该分类中各个候选串分词与用户输入的搜索词进行匹配, 筛选 出匹配度最高的设定数量的候选串分词, 作为所述核心词 ; 0038 针对每个分类, 根据该分类中各个候选串分词的使用频率统计值, 筛选出所述使 用频率统计值最高的设定数量的候选串分词, 作为所述核心词 ; 其中, 候选串分词的使用频 率统计值包括下列参数之一 : 被搜索次数、 被点击次数、 曾作为核心词的次数、 曾作。
16、为搜索 说 明 书 CN 104462552 A 5 3/8 页 6 词的次数。 0039 本发明实施例提供的问答页面核心词提取方法和装置, 从问答页面中提取核心词 候选串, 对提取的核心词候选串进行分词, 提取各个候选串分词的分类特征, 根据分类特征 筛选各个候选串分词是否是核心词, 该方案从对问答页面的分析中实现核心词的提取, 使 所确定的核心词能够更好地反映用户输入的问题, 与用户输入的问题相关性更高, 从而能 够根据提取的核心词获得更贴和用户需求、 更符合用户需要的问答问题, 获得用户真正想 要获得的问题答案, 提高了问答页面检索的准确性。 0040 进一步地, 本发明的, 能够根据用。
17、户输入的搜索词所对应的问答页面的标题或页 面内容中提取核心词, 从而使核心词的提取能够更准确、 更贴合用户需要。 且能够综合考虑 各个候选串分类特征, 根据不同类别的综合考量确定核心词, 从而能够更客观、 合理的确定 出合适的核心词。 0041 上述说明仅是本发明技术方案的概述, 为了能够更清楚了解本发明的技术手段, 而可依照说明书的内容予以实施, 并且为了让本发明的上述和其它目的、 特征和优点能够 更明显易懂, 以下特举本发明的具体实施方式。 0042 根据下文结合附图对本发明具体实施例的详细描述, 本领域技术人员将会更加明 了本发明的上述以及其他目的、 优点和特征。 附图说明 0043 通。
18、过阅读下文优选实施方式的详细描述, 各种其他的优点和益处对于本领域普通 技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的, 而并不认为是对本发明 的限制。而且在整个附图中, 用相同的参考符号表示相同的部件。在附图中 : 0044 图 1 是本发明实施例一的问答页面核心词提取方法的流程图 ; 0045 图 2 是本发明实施例二的问答页面核心词提取方法的流程图 ; 0046 图 3 是本发明实施例三的问答页面核心词提取方法的流程图 ; 以及 0047 图 4 是本发明实施例中问答页面核心词提取装置的结构示意图。 具体实施方式 0048 下面将参照附图更详细地描述本公开的示例性实施例。 虽然。
19、附图中显示了本公开 的示例性实施例, 然而应当理解, 可以以各种形式实现本公开而不应被这里阐述的实施例 所限制。 相反, 提供这些实施例是为了能够更透彻地理解本公开, 并且能够将本公开的范围 完整的传达给本领域的技术人员。 0049 为了解决现有技术中存在的检索过程中, 由于核心词确定的不是很合适, 而导致 不能获取到匹配度较高的、 更贴合用户需求的问答问题答案的问题, 为用户提供更贴合用 户需求的检索结果, 本发明实施例提供一种问答页面核心词提取方法。 0050 实施例一 0051 本发明实施例一提供的问答页面核心词提取方法, 其流程如图 1 所示, 包括如下 步骤 : 0052 步骤 S1。
20、01 : 从问答页面中提取核心词候选串。 0053 提取核心词时, 从问答页面中提取用于确定核心词的核心词候选串, 从候选串中 说 明 书 CN 104462552 A 6 4/8 页 7 筛选出符合条件的核心词。 0054 从问答页面中提取核心词候选串, 可以从问答页面的标题中提取核心词候选串, 也可以从问答页面的页面内容中提取, 或者从问答页面的标题和问答页面的页面内容中提 取。 0055 从问答页面中提取核心词候选串, 包括 : 获取与用户输入的搜索词对应的问答页 面 ; 从获取的问答页面的标题中提取核心词候选串。和 / 或从获取的问答页面的页面内容 中, 提取与用户输入的搜索词相关的字。
21、符串, 作为核心词候选串。 0056 步骤 S102 : 对提取的核心词候选串进行分词, 提取各个候选串分词的分类特征。 0057 提取到问答页面的核心词候选串后, 进行分词处理, 将每一个候选串分词划分为 若干候选串分词, 并提取出这些候选串分词的分类特征。 其中, 候选串分词的分类特征包括 下列特征中的至少一种 : 名词、 热度词表、 超链接、 相关问题共现率、 文档词频等等。 0058 步骤 S103 : 根据提取出的分类特征筛选各个候选串分词是否是核心词。 0059 提取出候选串分词的分类特征后, 根据分类特征对候选串分词进行分类, 并根据 分类结果确定各个候选串分词是否是核心词。 0。
22、060 如上所述, 候选串分词的分类特征包括名词、 热度词表、 超链接、 相关问题共现率、 文档词频等特征中的至少一种, 则可以候选串分词中所有的名词归为一类, 将候选串分词 中在热度词表中的分词归为一类, 将候选串分词汇中是超级链接的分词归为一类, 或者也 可以将候选串分词中在热度词表中的所有名词归为一类, 等等。 0061 对候选串分词进行分类后, 可以根据分类结果, 进行核心词的筛选, 比如, 根据各 个分类中各个候选串分词与用户输入的搜索词的匹配程度进行筛选, 或者根据各个分类 中各个候选串分词的使用频率统计值等因素进行筛选, 或者综合考虑上述各种因素进行筛 选。 0062 其中, 候。
23、选串分词的使用频率统计值包括下列参数之一 : 被搜索次数、 被点击次 数、 曾作为核心词的次数、 曾作为搜索词的次数。可以建立数据库, 统计候选串分词被用户 搜索的次数, 被用户点击的次数曾经被确定为核心词的次数、 曾经被用户用作搜索词的次 数等。 0063 实施例二 0064 本发明实施例二提供的问答页面核心词提取方法, 描述核心词提取的一种具体实 现方式, 其流程如图 2 所示, 包括如下步骤 : 0065 步骤 S201 : 获取与用户输入的搜索词对应的问答页面。 0066 例如 : 用户输入搜索词 “孩子感冒咳嗽怎么办? ” , 根据该搜索词获取到对应的问 答页面, 获取到的问答页面上。
24、有问答页面的标题, 至少一个问题答案, 至少一个相关问题。 比如相关问题可以是 “小儿感冒咳嗽怎么办? ” ,“小儿感冒咳嗽用什么药比较好呢? ” 。 0067 步骤 S202 : 从获取的问答页面的标题中提取核心词候选串。 0068 本实施例中以从问答页面的标题中提取核心词候选串为例, 比如, 提取到的核心 词候选串可以是 “孩子感冒咳嗽怎么办” 。 0069 实际操作中还可以从问答页面的问答内容、 相关问题等页面内容中提取核心词候 选串。 0070 步骤 S203 : 对提取的核心词候选串进行分词, 提取各个候选串分词的分类特征。 说 明 书 CN 104462552 A 7 5/8 页 。
25、8 0071 对提取的核心词候选串 “孩子感冒咳嗽怎么办” 进行分词, 例如, 可以分词为 :“孩 子” 、“感冒” 、“咳嗽” 、“怎么办” 等候选串分词。 0072 对分词出的候选串分词进行分类特征提取, 例如 “孩子” 这个候选串分词的分类特 征包括 : 是名词等 ;“感冒” 、“咳嗽” 这两个候选串分词的分类特征包括 : 是名词、 是热度词 表中的词、 是超链接等 ;“怎么办” 这个候选串分词的分类特征包括是超链接等。 0073 步骤 S204 : 根据提取的分类特征对候选串分词进行分类。 0074 根据提取的分类特征对上述分词出的 “孩子” 、“感冒” 、“咳嗽” 、“怎么办” 等候。
26、选串 分词进行分类, 例如 :“孩子” 、“感冒” 、“咳嗽” 都是名词, 归为一类 ; 将 “感冒” 、“咳嗽” 都是 热度词表中的词, 归为一类 ;“感冒” 、“咳嗽” 、“怎么办” 都是超链接, 归为一类。 0075 步骤 S205 : 针对每个分类, 将该分类中各个候选串分词与用户输入的搜索词进行 匹配。 0076 对候选串分词进行分类后, 分别针对每个分类, 与用户输入的搜索词进行匹配。 0077 沿用上边的例子, 根据上边的分类, 将名词分类、 热度词表分类和超链接分类中的 各个候选串分词分别与用户输入的搜索词进行匹配。 0078 步骤 S206 : 筛选出匹配度最高的设定数量的候。
27、选串分词, 作为核心词。 0079 沿用上边的例子, 筛选出匹配度较高的 2 个候选串分词为 :“感冒” 、“咳嗽” , 则确 定 “感冒” 、“咳嗽” 为核心词 ; 或筛选出匹配度较高的 3 个候选串分词为 :“感冒” 、“咳嗽” 、 “孩子” , 则确定 “感冒” 、“咳嗽” 、“孩子” 为核心词。 0080 上述实施例中所列举的搜索词、 问答页面标题等都属于简单的举例, 实际应用中 用户输入的检索词可能会更简单, 而根据问答页面获取到的候选串分词的数量可能会更 多, 匹配过程可能会更复杂, 从而能够更好地发挥本发明方法的作用, 在此不再一一列举。 0081 上述步骤S205和步骤S206。
28、实现了根据分类结果确定各个候选串分词是否是核心 词。 0082 上述实施例二中的步骤 S205 和步骤 S206 可替换为下面步骤 S305 和步骤 S306 所 公开的筛选方式。 0083 实施例三 0084 本发明实施例三提供的问答页面核心词提取方法, 描述核心词提取的另一种具体 实现方式, 其流程如图 3 所示, 包括如下步骤 : 0085 步骤 S301 : 获取与用户输入的搜索词对应的问答页面。 0086 例如 : 用户输入搜索词 “孩子感冒咳嗽怎么办? ” , 根据该搜索词获取到对应的问 答页面, 获取到的问答页面上有问答页面的标题, 至少一个问题答案, 至少一个相关问题。 比如,。
29、 问答答案中可能包括 “选择正确的感冒 ( 咳嗽 ) 药” 、“感冒止咳的中药” 等描述, 相关 问题可以是 “小儿感冒咳嗽怎么办? ” 、“小儿感冒咳嗽用什么药比较好呢? ” 等问题。 0087 步骤 S302 : 从获取的问答页面的页面内容中, 提取与用户输入的搜索词相关的字 符串, 作为核心词候选串。 0088 对用户输入的搜索词进行分词, 从获取的问答页面的页面内容中提取包括至少一 个搜索词分词的字符串。 0089 沿用上边的例子, 对用户输入的搜索词 “孩子感冒咳嗽怎么办? ” 进行分词, 例如 可以分词为 “孩子” 、“感冒” 、“咳嗽” 、“怎么办” 等搜索词分词。 说 明 书 。
30、CN 104462552 A 8 6/8 页 9 0090 本实施例中以从问答页面的页面内容中提取核心词候选串为例, 可以从问答页面 的问答内容、 相关问题等页面内容中提取包括 “孩子” 、“感冒” 、“咳嗽” 、“怎么办” 中至少一个 搜索词分词的字符串作为核心词候选串。例如, 提取到的核心词候选串可以有 :“孩子感冒 咳嗽怎么办” 、“选择正确的感冒(咳嗽)药” 、“感冒止咳的中药” 、“小儿感冒咳嗽怎么办? ” 、 “小儿感冒咳嗽用什么药比较好呢? ” 等等。 0091 步骤 S303 : 对提取的核心词候选串进行分词, 提取各个候选串分词的分类特征。 0092 沿用上边的例子, 对提取。
31、的核心词候选串 “孩子感冒咳嗽怎么办” 进行分词, 例如, 可以分词为 :“孩子” 、“感冒” 、“咳嗽” 、“怎么办” 等候选串分词。对提取的核心词候选串 “选 择正确的感冒 ( 咳嗽 ) 药” 进行分词, 例如, 可以分词为 :“选择” 、“正确的” 、“感冒” 、“咳嗽” 、 “药” 等候选串分词。对提取的核心词候选串 “感冒止咳的中药” 进行分词, 例如, 可以分词 为 :“感冒” 、“止咳” 、“中药” 等候选串分词。依次对提取的核心词候选串进行分词, 此处不 再一一列举。 0093 对分词出的候选串分词进行分类特征提取, 例如 “孩子” 这个候选串分词的分类 特征包括 : 是名词等。
32、 ;“感冒” 、“咳嗽” 这两个候选串分词的分类特征包括 : 是名词、 是热度 词表中的词、 是超链接等 ;“中药” 、“药” 这两个候选串分词的分类特征包括 : 是名词等 ;“止 咳” 这个候选串分词的分类特征包括 : 是热度词表中的词等 ;“怎么办” 这个候选串分词的分 类特征包括 : 是超链接等。总之, 对分词出的所有候选串分词都进行分类特征提取, 此处不 再对上边举例中的各候选串一一列举其分类特征。 0094 步骤 S304 : 根据提取的分类特征对候选串分词进行分类。 0095 根据提取的分类特征对上述分词出的 “孩子” 、“感冒” 、“咳嗽” 、“怎么办” 、“选择” 、 “正确的。
33、” 、“药” 、“止咳” 、“中药” 等候选串分词进行分类, 例如 :“孩子” 、“感冒” 、“咳嗽” 、“中 药” 、“药” 都是名词, 归为一类 ; 将 “感冒” 、“咳嗽” 、“止咳” 都是热度词表中的词, 归为一类 ; “感冒” 、“咳嗽” 、“怎么办” 都是超链接, 归为一类。总之, 对分词出的所有候选串分词都根据 分类特征进行分类, 此处不再对上边举例中的各候选串一一列举其分类。 0096 步骤 S305 : 针对每个分类, 确定该分类中各个候选串分词的使用频率统计值。 0097 沿用上边的例子, 在名词分类中、 热度词表中的词分类、 超链接分类中, 分别确定 各候选串分词的使用频。
34、率统计值。 0098 其中, 候选串分词的使用频率统计值可以根据各候选串分词被用户搜索的次数、 被用户点击的次数、 曾经被确定为核心词的次数、 曾经被作为搜索词的次数等因素中的至 少一种因素进行统计。 0099 步骤 S306 : 根据各个候选串分词的使用频率统计值, 筛选出使用频率统计值最高 的设定数量的候选串分词, 作为核心词。 0100 沿用上边的例子, 筛选出使用频率统计值最高的 3 个候选串分词为 :“感冒” 、“咳 嗽” 、“止咳” , 则确定 “感冒” 、“咳嗽” 、“止咳” 为核心词 ; 或筛选出使用频率统计值最高的 3 个候选串分词为 :“感冒” 、“咳嗽” 、“孩子” , 。
35、则确定 “感冒” 、“咳嗽” 、“孩子” 为核心词。 0101 上述步骤S305和步骤S306实现了根据分类结果确定各个候选串分词是否是核心 词。 0102 上述实施例三中的步骤 S305 和步骤 S306 可替换为下面步骤 S205 和步骤 S206 所 公开的筛选方式。 说 明 书 CN 104462552 A 9 7/8 页 10 0103 基于同一发明构思, 本发明实施例还提供一种问答页面核心词提取装置, 该装置 的结构如图 4 所示, 包括 : 候选串提取模块 401、 特征提取模块 402 和核心词确定模块 403。 0104 候选串提取模块 401, 用于从问答页面中提取核心词候。
36、选串。 0105 特征提取模块 402, 用于对核心词候选串进行分词, 提取各个候选串分词的分类特 征。 0106 核心词确定模块 403, 用于根据提取的分类特征筛选各个候选串分词是否是核心 词。 0107 优选的, 上述候选串提取模块 401, 具体用于获取与用户输入的搜索词对应的问答 页面, 从获取的问答页面的标题中提取核心词候选串 ; 和 / 或从获取的问答页面的页面内 容中, 提取与用户输入的搜索词相关的字符串, 作为核心词候选串。 0108 优选的, 上述候选串提取模块 401, 具体用于对所述搜索词进行分词, 从获取的问 答页面的页面内容中提取包括至少一个搜索词分词的字符串。 0。
37、109 优选的, 上述核心词确定模块 403, 具体用于根据提取的分类特征对候选串分词进 行分类, 根据分类结果确定各个候选串分词是否是核心词 ; 其中, 分类特征包括下列特征中 的至少一种 : 名词、 热度词表、 超链接、 相关问题共现率、 文档词频。 0110 优选的, 上述核心词确定模块 403, 具体用于针对每个分类, 将该分类中各个候选 串分词与用户输入的搜索词进行匹配, 筛选出匹配度最高的设定数量的候选串分词, 作为 核心词 ; 或针对每个分类, 根据该分类中各个候选串分词的使用频率统计值, 筛选出使用频 率统计值最高的设定数量的候选串分词, 作为核心词 ; 其中, 候选串分词的使。
38、用频率统计值 包括下列参数之一 : 被搜索次数、 被点击次数、 曾作为核心词的次数、 曾作为搜索词的次数。 0111 本发明实施例提供的上述问答页面核心词提取方法和装置, 能够根据用户输入的 搜索词对应的问答页面提取更符合用户搜索需求的核心词, 从而能够根据核心词获取到与 用户输入的搜索词相关度更高的相关问题, 在当前问答页面为用户提供与用户需求的贴合 性更好、 更符合用户需求的相关问题, 提高问答页面问题检索的准确性。 0112 在此处所提供的说明书中, 说明了大量具体细节。然而, 能够理解, 本发明的实施 例可以在没有这些具体细节的情况下实践。 在一些实例中, 并未详细示出公知的方法、 结。
39、构 和技术, 以便不模糊对本说明书的理解。 0113 类似地, 应当理解, 为了精简本公开并帮助理解各个发明方面中的一个或多个, 在 上面对本发明的示例性实施例的描述中, 本发明的各个特征有时被一起分组到单个实施 例、 图、 或者对其的描述中。 然而, 并不应将该公开的方法解释成反映如下意图 : 即所要求保 护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说, 如下面 的权利要求书所反映的那样, 发明方面在于少于前面公开的单个实施例的所有特征。 因此, 遵循具体实施方式的权利要求书由此明确地并入该具体实施方式, 其中每个权利要求本身 都作为本发明的单独实施例。 0114 本。
40、领域那些技术人员可以理解, 可以对实施例中的设备中的模块进行自适应性地 改变并且把它们设置在与该实施例不同的一个或多个设备中。 可以把实施例中的模块或单 元或组件组合成一个模块或单元或组件, 以及此外可以把它们分成多个子模块或子单元或 子组件。除了这样的特征和 / 或过程或者单元中的至少一些是相互排斥之外, 可以采用任 何组合对本说明书 ( 包括伴随的权利要求、 摘要和附图 ) 中公开的所有特征以及如此公开 说 明 书 CN 104462552 A 10 8/8 页 11 的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述, 本说明书 ( 包括伴 随的权利要求、 摘要和附图 ) 中公。
41、开的每个特征可以由提供相同、 等同或相似目的的替代 特征来代替。 0115 此外, 本领域的技术人员能够理解, 尽管在此所述的一些实施例包括其它实施例 中所包括的某些特征而不是其它特征, 但是不同实施例的特征的组合意味着处于本发明的 范围之内并且形成不同的实施例。 例如, 在权利要求书中, 所要求保护的实施例的任意之一 都可以以任意的组合方式来使用。 0116 本发明的各个部件实施例可以以硬件实现, 或者以在一个或者多个处理器上运行 的软件模块实现, 或者以它们的组合实现。 本领域的技术人员应当理解, 可以在实践中使用 微处理器或者数字信号处理器 (DSP) 来实现根据本发明实施例的问答页面核。
42、心词提取装 置中的一些或者全部部件的一些或者全部功能。 本发明还可以实现为用于执行这里所描述 的方法的一部分或者全部的设备或者装置程序(例如, 计算机程序和计算机程序产品)。 这 样的实现本发明的程序可以存储在计算机可读介质上, 或者可以具有一个或者多个信号的 形式。 这样的信号可以从因特网网站上下载得到, 或者在载体信号上提供, 或者以任何其他 形式提供。 0117 应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制, 并且本领 域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中, 不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词 “包含” 不。
43、排除存在 未列在权利要求中的元件或步骤。位于元件之前的单词 “一” 或 “一个” 不排除存在多个这 样的元件。 本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来 实现。在列举了若干装置的单元权利要求中, 这些装置中的若干个可以是通过同一个硬件 项来具体体现。单词第一、 第二、 以及第三等的使用不表示任何顺序。可将这些单词解释为 名称。 0118 至此, 本领域技术人员应认识到, 虽然本文已详尽示出和描述了本发明的多个示 例性实施例, 但是, 在不脱离本发明精神和范围的情况下, 仍可根据本发明公开的内容直接 确定或推导出符合本发明原理的许多其他变型或修改。因此, 本发明的范围应被理解和认 定为覆盖了所有这些其他变型或修改。 说 明 书 CN 104462552 A 11 1/4 页 12 图 1 说 明 书 附 图 CN 104462552 A 12 2/4 页 13 图 2 说 明 书 附 图 CN 104462552 A 13 3/4 页 14 图 3 说 明 书 附 图 CN 104462552 A 14 4/4 页 15 图 4 说 明 书 附 图 CN 104462552 A 15 。