书签 分享 收藏 举报 版权申诉 / 21

一种兴趣点搜索方法和装置.pdf

  • 上传人:zhu****_FC
  • 文档编号:1748950
  • 上传时间:2018-07-09
  • 格式:PDF
  • 页数:21
  • 大小:1.39MB
  • 摘要
    申请专利号:

    CN201310651478.6

    申请日:

    2013.12.03

    公开号:

    CN104679801A

    公开日:

    2015.06.03

    当前法律状态:

    实审

    有效性:

    审中

    法律详情:

    实质审查的生效IPC(主分类):G06F 17/30申请日:20131203|||公开

    IPC分类号:

    G06F17/30

    主分类号:

    G06F17/30

    申请人:

    高德软件有限公司

    发明人:

    郭涛

    地址:

    102200北京市昌平区科技园区昌盛路8号B1座1-5层

    优先权:

    专利代理机构:

    代理人:

    PDF完整版下载: PDF下载
    内容摘要

    本发明公开一种兴趣点搜索方法和装置,对用户输入的查询词进行语义解析得到用户查询意图,以提高POI搜索准确性。方法包括:对用户输入的查询词进行地址级别标注得到地址级别片段;按照地址级别片段的行政区划级别由高到低的顺序进行排序,并将排序后的地址级别片段组合得到修正后的查询词;根据排序后的地址级别片段的行政区划级别和预设城市代码对应的城市的行政区划级别,对预设城市代码进行修正;根据修正后的查询词和修正后的城市代码进行地理编码,得到包括行政地址级别信息和地理范围的地理编码信息;比较行政地址级别信息与排序后的地址级别片段,对地理范围进行修正;根据修正后的查询词,在修正后的地理范围内进行兴趣点搜索。

    权利要求书

    权利要求书
    1.  一种兴趣点搜索方法,其特征在于,包括:
    接收用户输入的查询词;
    对所述查询词进行地址级别标注,得到组成所述查询词的地址级别片段;
    按照地址级别片段的行政区划级别由高到低的顺序,对组成所述查询词 的地址级别片段进行排序,将地址级别片段按排序后的顺序进行组合,得到 修正后的查询词;
    确定用户的预设城市代码,并根据排序后的地址级别片段的行政区划级 别和预设城市代码所对应的城市的行政区划级别,对所述预设的城市代码进 行修正,得到修正后的城市代码;
    根据修正后的查询词和修正后的城市代码进行地理编码,得到对应的地 理编码信息,所述地理编码信息包括行政地址级别信息和地理范围;
    将所述行政地址级别信息与所述排序后的地址级别片段进行比较,根据 比较结果对所述地理范围进行修正,得到修正后的地理范围;
    根据修正后的查询词,在修正后的地理范围内进行兴趣点搜索,得到搜 索结果。

    2.  根据权利要求1所述的方法,其特征在于,按照地址级别片段的行政 区划级别由高到低的顺序,对组成所述查询词的地址级别片段进行排序,具 体包括:
    组成所述查询词的地址级别片段中,如果第N个地址级别片段的行政区划 级别比第N-1个地址级别片段的行政区划级别高,且,所述第N个地址级别片 段带有行政区划后缀,则交换第N-1个和第N个地址级别片段的位置;
    和/或,
    组成所述查询词的地址级别片段中,如果第N个地址级别片段的行政区划 级别比第N-1个地址级别片段的行政区划级别高,且所述第N个地址级别片段 不带行政区划后缀但其是组成所述查询词的最后一个地址级别片段,则交换 第N-1个和第N个地址级别片段的位置,并在第N个地址级别片段中添加与该 第N个地址级别片段的行政区划级别相对应的行政区划后缀。

    3.  根据权利要求1所述的方法,其特征在于,所述根据排序后的地址级 别片段的行政区划的级别和预设的城市代码所对应的城市的行政区划级别, 对所述预设的城市代码进行修正,具体包括:
    如果排序后的地址级别片段中行政区划级别最大的地址级别片段存在多 个,则确定出该多个地址级别片段中带有行政区划后缀的地址级别片段,并 将排在最前面的带有行政区划后缀的地址级别片段所对应的城市代码替换预 设的城市代码;
    和/或,
    如果排序后的地址级别片段中存在行政区划级别比预设的城市代码所对 应的城市的行政区划级别高的地址级别片段时,或者,修正后的地址级别片 段中存在与所述预设的城市代码所对应的城市的行政区划级别相同的地址级 别片段时,则:若该地址级别片段带有行政区划后缀,或者该地址级别片段 不带行政区划后缀但其是组成所述查询词的最后一个地址级别片段,则将该 地址级别片段对应的行政区划的城市代码替换所述预设的城市代码。

    4.  如权利要求1-3任一项所述的方法,其特征在于,将所述行政地址级别 信息与所述排序后的地址级别片段进行比较,根据比较结果对所述地理范围 进行修正,具体包括:
    确定出排序后的地址级别片段中与地理编码信息中行政地址级别片段信 息内容一致的地址级别片段,并将内容一致的地址级别片段中行政区划级别 最低的地址级别片段的行政区划级别作为临界级别;
    将排序后的地址级别片段中行政区划级别低于所述临界级别的地址级别 片段合并为一个非地址串;
    当所述非地址串不为门牌号,且为可修饰词时,则:若所述非地址串的 前一个地址级别片段不带行政区划后缀,将所述非地址串与其前一个地址级 别片段进行合并,得到新的非地址串;
    对排序后的地址级别片段中除所述新的非地址串的其他地址级别片段进 行地理编码,得到新的地理编码信息,根据新的地理编码信息中的地理范围 修正所述对修正后的查询词进行地理编码得到的地理编码信息中的地理范 围。

    5.  如权利要求1-3任一项所述的方法,其特征在于,根据修正后的查询词, 在修正后的地理编码信息中的地理范围内进行兴趣点搜索,具体包括:
    将所述修正后的查询词作为关键词,在修正后的地理范围内进行兴趣点 搜索;
    若有结果,则将该结果确定为搜索结果;
    若无结果,则对所述修正后的查询词进行切分,得到组成所述查询词的 分词,并根据组成所述查询词的分词在所述修正后的地理范围内进行兴趣点 搜索。

    6.  一种兴趣点搜索装置,其特征在于,包括:
    查询词接收单元,用于接收用户输入的查询词;
    标注单元,用于对所述查询词进行地址级别标注,得到组成所述查询词 的地址级别片段;
    排序单元,用于按照地址级别片段的行政区划级别由高到低的顺序,对 组成所述查询词的地址级别片段进行排序,将地址级别片段按排序后的顺序 进行组合,得到修正后的查询词;
    城市代码修正单元,用于确定用户的预设城市代码,并根据排序后的地 址级别片段的行政区划级别和预设的城市代码所对应的城市的行政区划级 别,对所述预设的城市代码进行修正,得到修正后的城市代码;
    地理编码单元,用于根据修正后的查询词和修正后的城市代码进行地理 编码,得到对应的地理编码信息,所述地理编码信息包括行政地址级别信息 和地理范围;
    地理范围修正单元,用于将所述行政地址级别信息与所述排序后的地址 级别片段进行比较,根据比较结果对所述地理范围进行修正,得到修正后的 地理范围;
    搜索单元,用于根据修正后的查询词,在修正后的地理范围内进行兴趣 点搜索,得到搜索结果。

    7.  根据权利要求6所述的装置,其特征在于,所述排序单元,具体用于:
    组成所述查询词的地址级别片段中,如果第N个地址级别片段的行政区划 级别比第N-1个地址级别片段的行政区划级别高,且,所述第N个地址级别片 段带有行政区划后缀,则交换第N-1个和第N个地址级别片段的位置;和/或,
    组成所述查询词的地址级别片段中,如果第N个地址级别片段的行政区划 级别比第N-1个地址级别片段的行政区划级别高,且所述第N个地址级别片段 不带行政区划后缀但其是组成所述查询词的最后一个地址级别片段,则交换 第N-1个和第N个地址级别片段的位置,并在第N个地址级别片段中添加与该 第N个地址级别片段的行政区划级别相对应的行政区划后缀。

    8.  根据权利要求6所述的装置,其特征在于,所述城市代码修正单元, 具体用于:
    如果排序后的地址级别片段中行政区划级别最大的地址级别片段存在多 个,则确定出该多个地址级别片段中带有行政区划后缀的地址级别片段,并 将排在最前面的带有行政区划后缀的地址级别片段所对应的城市代码替换预 设的城市代码;
    和/或,
    如果排序后的地址级别片段中存在行政区划级别比预设的城市代码所对 应的城市的行政区划级别高的地址级别片段时,或者,修正后的地址级别片 段中存在与所述预设的城市代码所对应的城市的行政区划级别相同的地址级 别片段时,则:若该地址级别片段带有行政区划后缀,或者该地址级别片段 不带行政区划后缀但其是组成所述查询词的最后一个地址级别片段,则将该 地址级别片段对应的行政区划的城市代码替换所述预设的城市代码。

    9.  根据权利要求6~8任一项所述的装置,其特征在于,所述地理范围修 正单元,具体用于:
    确定出排序后的地址级别片段中与地理编码信息中行政地址级别片段信 息内容一致的地址级别片段,并将内容一致的地址级别片段中行政区划级别 最低的地址级别片段的行政区划级别作为临界级别;
    将排序后的地址级别片段中行政区划级别低于所述临界级别的地址级别 片段合并为一个非地址串;
    当所述非地址串不为门牌号,且为可修饰词时,则:若所述非地址串的 前一个地址级别片段不带行政区划后缀,将所述非地址串与其前一个地址级 别片段进行合并,得到新的非地址串;
    对排序后的地址级别片段中除所述新的非地址串的其他地址级别片段进 行地理编码,得到新的地理编码信息,根据新的地理编码信息中的地理范围 修正所述对修正后的查询词进行地理编码得到的地理编码信息中的地理范 围。

    10.  根据权利要求6~8任一项所述的装置,其特征在于,所述搜索单元, 具体用于:
    将所述修正后的查询词作为关键词,在修正后的地理范围内进行兴趣点 搜索;
    若有结果,则将该结果确定为搜索结果;
    若无结果,则对所述修正后的查询词进行切分,得到组成所述查询词的 分词,并根据组成所述查询词的分词在所述修正后的地理范围内进行兴趣点 搜索。

    说明书

    说明书一种兴趣点搜索方法和装置
    技术领域
    本发明涉及地理信息技术领域,特别涉及兴趣点搜索方法和装置。
    背景技术
    目前,通过信息搜索引擎来进行POI(Point of Interest,兴趣点)搜索, 已经成为人们获取POI的主要手段之一。一般情况下,信息搜索引擎会根据用 户输入的查询词进行用户的查询意图分析,再根据分析得到的查询意图进行 POI搜索,将搜索得到的POI信息反馈给用户。
    目前,根据用户输入的查询词确定用户的查询意图比较宽泛,即识别出 用户大体想要关注的领域即可,并不会对用户输入的查询词进行语义解析来 得到用户的查询意图。比如用户输入的查询词为“足球”,则信息搜索引擎会 将足球领域的相关信息(如足球体育明星)作为搜索结果反馈给用户。但是 对于有些POI搜索,用户输入的查询词错误或者有歧义,信息搜索引擎并不能 准确的分析出用户的查询意图,如用户输入“上海华亭宾馆”,用户是想查询 上海市的“华亭宾馆”还是想查询上海市华亭镇的所有宾馆;又如用户输入 “天津河北大厦”,用户是想查询天津市的“河北大厦”,还是想查询河北省 的“天津大厦”,目前的信息搜索引擎并不能准确的分析出用户的查询意图, 因此导致POI搜索的准确性较低。
    发明内容
    本发明实施例提供兴趣点搜索方法和装置,能够对用户输入的查询词进 行语义解析,得到用户较为准确的查询意图,从而提高兴趣点搜索的准确性。
    本发明实施例提供一种兴趣点搜索方法,包括:
    接收用户输入的查询词;
    对所述查询词进行地址级别标注,得到组成所述查询词的地址级别片段;
    按照地址级别片段的行政区划级别由高到低的顺序,对组成所述查询词 的地址级别片段进行排序,将地址级别片段按排序后的顺序进行组合,得到 修正后的查询词;
    确定用户的预设城市代码,并根据排序后的地址级别片段的行政区划级 别和预设的城市代码所对应的城市的行政区划级别,对所述预设的城市代码 进行修正,得到修正后的城市代码;
    根据修正后的查询词和修正后的城市代码进行地理编码,得到对应的地 理编码信息,所述地理编码信息包括行政地址级别信息和地理范围;
    将所述行政地址级别信息与所述排序后的地址级别片段进行比较,根据 比较结果对所述地理范围进行修正,得到修正后的地理范围;
    根据修正后的查询词,在修正后的地理范围内进行兴趣点搜索,得到搜 索结果。
    优选地,所述按照地址级别片段的行政区划级别由高到低的顺序,对组 成所述查询词的地址级别片段进行排序,具体包括:组成所述查询词的地址 级别片段中,如果第N个地址级别片段的行政区划级别比第N-1个地址级别片 段的行政区划级别高,且,所述第N个地址级别片段带有行政区划后缀,则交 换第N-1个和第N个地址级别片段的位置;和/或,组成所述查询词的地址级别 片段中,如果第N个地址级别片段的行政区划级别比第N-1个地址级别片段的 行政区划级别高,且所述第N个地址级别片段不带行政区划后缀但其是组成所 述查询词的最后一个地址级别片段,则交换第N-1个和第N个地址级别片段的 位置,并在第N个地址级别片段中添加与该第N个地址级别片段的行政区划级 别相对应的行政区划后缀。
    优选地,所述根据排序后的地址级别片段的行政区划的级别和预设的城 市代码所对应的城市的行政区划级别,对所述预设的城市代码进行修正,具 体包括:
    如果排序后的地址级别片段中行政区划级别最大的地址级别片段存在多 个,则确定出该多个地址级别片段中带有行政区划后缀的地址级别片段,并 将排在最前面的带有行政区划后缀的地址级别片段所对应的城市代码替换预 设的城市代码;和/或,如果排序后的地址级别片段中存在行政区划级别比预 设的城市代码所对应的城市的行政区划级别高的地址级别片段时,或者,修 正后的地址级别片段中存在与所述预设的城市代码所对应的城市的行政区划 级别相同的地址级别片段时,则:若该地址级别片段带有行政区划后缀,或 者该地址级别片段不带行政区划后缀但其是组成所述查询词的最后一个地址 级别片段,则将该地址级别片段对应的行政区划的城市代码替换所述预设的 城市代码。
    优选地,将所述行政地址级别信息与所述排序后的地址级别片段进行比 较,根据比较结果对所述地理范围进行修正,具体包括:确定出排序后的地 址级别片段中与地理编码信息中行政地址级别片段信息内容一致的地址级别 片段,并将内容一致的地址级别片段中行政区划级别最低的地址级别片段的 行政区划级别作为临界级别;将排序后的地址级别片段中行政区划级别低于 所述临界级别的地址级别片段合并为一个非地址串;当所述非地址串不为门 牌号,且为可修饰词时,则:若所述非地址串的前一个地址级别片段不带行 政区划后缀,将所述非地址串与其前一个地址级别片段进行合并,得到新的 非地址串;对排序后的地址级别片段中除所述新的非地址串的其他地址级别 片段进行地理编码,得到新的地理编码信息,根据新的地理编码信息中的地 理范围修正所述对修正后的查询词进行地理编码得到的地理编码信息中的地 理范围。
    优选地,所述根据修正后的查询词,在修正后的地理编码信息中的地理 范围内进行兴趣点搜索,具体包括:
    将所述修正后的查询词作为关键词,在修正后的地理范围内进行兴趣点 搜索;若有结果,则将该结果确定为搜索结果;若无结果,则对所述修正后 的查询词进行切分,得到组成所述查询词的分词,并根据组成所述查询词的 分词在所述修正后的地理范围内进行兴趣点搜索。
    本发明实施例提供一种兴趣点搜索装置,包括:
    查询词接收单元,用于接收用户输入的查询词;
    标注单元,用于对所述查询词进行地址级别标注,得到组成所述查询词 的地址级别片段;
    排序单元,用于按照地址级别片段的行政区划级别由高到低的顺序,对 组成所述查询词的地址级别片段进行排序,将地址级别片段按排序后的顺序 进行组合,得到修正后的查询词;
    城市代码修正单元,用于确定用户的预设城市代码,并根据排序后的地 址级别片段的行政区划级别和预设的城市代码所对应的城市的行政区划级 别,对所述预设的城市代码进行修正,得到修正后的城市代码;
    地理编码单元,用于根据修正后的查询词和修正后的城市代码进行地理 编码,得到对应的地理编码信息,所述地理编码信息包括行政地址级别信息 和地理范围;
    地理范围修正单元,用于将所述行政地址级别信息与所述排序后的地址 级别片段进行比较,根据比较结果对所述地理范围进行修正,得到修正后的 地理范围;
    搜索单元,用于根据修正后的查询词,在修正后的地理范围内进行兴趣 点搜索,得到搜索结果。
    优选地,所述排序单元,具体用于:
    组成所述查询词的地址级别片段中,如果第N个地址级别片段的行政区划 级别比第N-1个地址级别片段的行政区划级别高,且,所述第N个地址级别片 段带有行政区划后缀,则交换第N-1个和第N个地址级别片段的位置;和/或,
    组成所述查询词的地址级别片段中,如果第N个地址级别片段的行政区划 级别比第N-1个地址级别片段的行政区划级别高,且所述第N个地址级别片段 不带行政区划后缀但其是组成所述查询词的最后一个地址级别片段,则交换 第N-1个和第N个地址级别片段的位置,并在第N个地址级别片段中添加与该 第N个地址级别片段的行政区划级别相对应的行政区划后缀。
    优选地,所述城市代码修正单元,具体用于:
    如果排序后的地址级别片段中行政区划级别最大的地址级别片段存在多 个,则确定出该多个地址级别片段中带有行政区划后缀的地址级别片段,并 将排在最前面的带有行政区划后缀的地址级别片段所对应的城市代码替换预 设的城市代码;和/或,如果排序后的地址级别片段中存在行政区划级别比预 设的城市代码所对应的城市的行政区划级别高的地址级别片段时,或者,修 正后的地址级别片段中存在与所述预设的城市代码所对应的城市的行政区划 级别相同的地址级别片段时,则:若该地址级别片段带有行政区划后缀,或 者该地址级别片段不带行政区划后缀但其是组成所述查询词的最后一个地址 级别片段,则将该地址级别片段对应的行政区划的城市代码替换所述预设的 城市代码。
    优选地,所述地理范围修正单元,具体用于:
    确定出排序后的地址级别片段中与地理编码信息中行政地址级别片段信 息内容一致的地址级别片段,并将内容一致的地址级别片段中行政区划级别 最低的地址级别片段的行政区划级别作为临界级别;将排序后的地址级别片 段中行政区划级别低于所述临界级别的地址级别片段合并为一个非地址串; 当所述非地址串不为门牌号,且为可修饰词时,则:若所述非地址串的前一 个地址级别片段不带行政区划后缀,将所述非地址串与其前一个地址级别片 段进行合并,得到新的非地址串;对排序后的地址级别片段中除所述新的非 地址串的其他地址级别片段进行地理编码,得到新的地理编码信息,根据新 的地理编码信息中的地理范围修正所述对修正后的查询词进行地理编码得到 的地理编码信息中的地理范围。
    优选地,所述搜索单元,具体用于:
    将所述修正后的查询词作为关键词,在修正后的地理范围内进行兴趣点 搜索;若有结果,则将该结果确定为搜索结果;若无结果,则对所述修正后 的查询词进行切分,得到组成所述查询词的分词,并根据组成所述查询词的 分词在所述修正后的地理范围内进行兴趣点搜索。
    本发明实施例提供的兴趣点搜索方法中,一方面,在接收到查询词之后, 对查询词进行地址级别标注得到地址级别片段,按照地址级别片段的行政区 划级别由高到低的顺序对地址级别片段进行排序,得到修正后的查询词,由 于修正后的查询词中的地址级别片段按照行政区划级别从高到低的顺序依次 排序,使得修正后的查询词描述的更为准确、清楚,更符合用户的真实查询 意图,因此根据修正后的查询词进行地理编码所得到的地理范围更准确;另 一方面,由于对查询词进行地理编码时可能会存在对查询词做过度解析,因 此在根据修正后的查询词进行地理编码之后,将地理编码信息中的行政地址 级别信息与所述排序后的地址级别片段进行比较,根据比较结果对所述地理 编码信息中的地理范围进行修正,使得修正后的地理范围更符合用户实际所 要搜索的地理范围,因此,根据修正后的查询词在修正后的地理范围内进行 兴趣点搜索所得到结果更准确,提高了兴趣点搜索的准确性。
    附图说明
    为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面 描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲, 在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
    图1是本发明实施例提供的一种兴趣点搜索方法的流程图之一;
    图2是本发明实施例中对地理范围进行修正的方法流程图;
    图3是本发明实施例提供的一种兴趣点搜索方法的流程图之二的部分流 程图;
    图4是本发明实施例列举的具体实例的详细流程图;
    图5是本发明实施例提供的兴趣点搜索装置的结构示意图。
    具体实施方式
    下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而 不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作 出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
    本发明实施例提供一种兴趣点搜索方法,该方法包括:
    步骤101,接收用户输入的查询词。
    具体地,当用户通过客户端登录到信息搜索服务器时,在客户端上展示 搜索界面,用户可通过在搜索界面上相应的搜索框中输入想要查询的查询词。
    步骤102,对所述查询词进行地址级别标注,得到组成所述查询词的地址 级别片段。
    具体地,可通过信息搜索服务器中的地址级别标注系统对查询词进行地 址级别标识,以得到地址级别片段。其中,地址级别系统主要是通过对特殊 地理字词的识别和国家行政区划词表的匹配,对查询词进行解析并切分成地 址级别片段,并对该地址级别片段进行级别标注,使得每个地址级别片段为 一个最小的地址级别片段单元。地址级别标注系统对于不同的地址级别片段 分成18个类别,该18个类别不存在严格的从属关系,如河湖[oj]与大厦[od]属 于平等关系而没有从属关系,因此,18个类别之间仅存在6个类别之间存在 从属关系,该6个类别按照级别从高到低的顺序进行排序如下:国家级、省级、 市级、区县级、村镇级以及POI。例如:查询词为“广州荔湾区光复中路313 号国际眼镜贸易中心”,通过地址级别标注系统对该查询词进行标注的结果 为:广州[oc],荔湾区[oc],光复中路[ol],313号[oh],国际眼镜贸易中心[op]。
    步骤103,按照地址级别片段的行政区划级别由高到低的顺序,对组成所 述查询词的地址级别片段进行排序,将地址级别片段按排序后的顺序进行组 合,得到修正后的查询词。
    步骤104、确定用户的预设城市代码,并根据排序后的地址级别片段的行 政区划级别和预设的城市代码所对应的城市的行政区划级别,对所述预设的 城市代码进行修正,得到修正后的城市代码。
    本发明实施例中,对于PC用户,一打开电子地图会有默认的城市代码(如 北京的010),当用户选择城市之后会对这个默认的城市代码进行修改,修改 后的城市代码为预设城市代码,若用户没有选择城市则默认的城市代码即为 预设的城市代码。对于手机用户,一打开电子地图会对用户当前位置进行定 位,会将这个用户当前所在市的城市代码作为预设城市代码。
    步骤105、根据修正后的查询词和修正后的城市代码进行地理编码,得到 对应的地理编码信息,所述地理编码信息包括行政地址级别信息和地理范围。
    例如:修正后的查询词为“广州荔湾区光复中路313号国际眼镜贸易中 心”,则对该修正后的查询词进行地理编码,得到的地理编码信息,地理编码 信息中的“广东省”、“广州市”、“荔湾区”和“光复中路313号”为行政地址 级别信息,经度:113.251180、纬度:23.118909,范围:28m为地理范围,地 理编码信息为:
    省份:广东省;
    城市:广州市;
    区县:荔湾区;
    地址:光复中路313号;
    城市代码:440103;
    地址串前的非地址串:空;
    地址串后的非地址串:国际眼镜贸易中心;
    地址串识别出的最小级别:门牌号;
    经度:113.251180;
    纬度:23.118909;
    范围:28m;
    地理编码识别可靠度:0.705882。
    步骤106、将所述行政地址级别信息与所述排序后的地址级别片段进行比 较,根据比较结果对所述地理范围进行修正,得到修正后的地理范围。
    步骤107、根据修正后的查询词,在修正后的地理范围内进行兴趣点搜索, 得到搜索结果。
    前述步骤103中,可通过以下方式实现:
    当组成所述查询词的地址级别片段中,如果第N个地址级别片段的行政区 划级别比第N-1个地址级别片段的行政区划级别高,且,所述第N个地址级别 片段带有行政区划后缀,则交换第N-1个和第N个地址级别片段的位置;
    和/或,
    当组成所述查询词的地址级别片段中,如果第N个地址级别片段的行政区 划级别比第N-1个地址级别片段的行政区划级别高,且所述第N个地址级别片 段不带行政区划后缀但其是组成所述查询词的最后一个地址级别片段,则交 换第N-1个和第N个地址级别片段的位置,并在第N个地址级别片段中添加与 该第N个地址级别片段的行政区划级别相对应的行政区划后缀。
    例如:假设步骤102中得到的地址级别片段为“昌平;北京市;电影院”, 由于第2个地址级别片段“北京市”的行政区划级别为市级,第1个地址级别 片段“昌平”的行政区划级别为区县级,由于排在后面的地址级别片段“北 京市”比排在前面地址级别片段“昌平”的行政区划级别高,且“北京市” 带有行政区划后缀“市”,因此交换第1个地址级别片段与第2个地址级别片段 的位置之后,得到排序后的地址级别片段为“北京市;昌平区;电影院”。 还例如步骤102的地址级别片段为“北京市;电影院;昌平”,由于第2个地址 级别片段“电影院”的行政区划级别低于地址级别片段“昌平”,且“昌平” 不带行政区划后缀且其是组成所述查询词的最后一个地址级别片段,因此交 换第2个地址级别片段和第3个地址级别片段,并在排序后的第2个地址级别片 段后面添加相应的行政区划后缀“市”,则得到排序后的地址级别片段为“北 京市;昌平区;电影院”。
    前述步骤104中,根据排序后的地址级别片段的行政区划级别和预设城市 代码所对应的城市的行政区划级别,对所述预设的城市代码进行修正,得到 修正后的城市代码,可通过以下方式实现:
    如果排序后的地址级别片段中行政区划级别最大的地址级别片段存在多 个,则确定出该多个地址级别片段中带有行政区划后缀的地址级别片段,并 将排在最前面的带有行政区划后缀的地址级别片段所对应的城市代码替换预 设的城市代码;
    和/或,
    如果排序后的地址级别片段中存在行政区划级别比预设的城市代码所对 应的城市的行政区划级别高的地址级别片段时,或者,修正后的地址级别片 段中存在与所述预设的城市代码所对应的城市的行政区划级别相同的地址级 别片段时,则:若该地址级别片段带有行政区划后缀,或者该地址级别片段 不带行政区划后缀但其是组成所述查询词的最后一个地址级别片段,则将该 地址级别片段对应的行政区划的城市代码替换所述预设的城市代码。
    例如:步骤103中的地址级别片段为:“南京”;“北京市”;“大饭店”, 由于第1个地址级别片段“南京”的行政区划级别与第2个地址级别片段“北 京市”的行政区划级别相同均为市级,即行政级区划级别最高的地址级别片 段有两个,则将第一个带有行政区划后缀的“北京市”的城市代码010替换 预设的城市代码。还例如:步骤103中的地址级别片段为:“上海市”、“大厦”, 预设的城市代码为010,则由于地址级别片段“上海市”的行政区划级别与 该城市代码对应的城市的行政区划级别相同,且该地址级别片段带有行政区 划后缀,因此将该地址级别片段“上海市”对应的城市代码021替换所述预 设城市代码010。
    优选地,本发明实施例中,为避免由于过渡解析查询词导致搜索结果不 准确的问题,针对非地址串是一个可修饰类别词,则说明之前的地理编码进 行了过度解析,如将原本不应该当成行政区划的字段解析成了行政区划,比 如“上海华亭宾馆”中的“华亭”解析成了“华亭镇”;将“北京海淀医院” 中的“海淀”解析成了“海淀区”,而事实上“华亭”和“海淀”在文中均属 于修饰词,因此,针对该种情况,本发明实施例在所述非地址串的前一个地 址级别片段不带行政区划后缀,将所述非地址串与其前一个地址级别片段进 行合并,得到新的非地址串。如查询词为“上海华亭宾馆”,地址级别标注结 果为“上海;华亭;宾馆”,其中“宾馆”是非地址串,该非地址串的前一个 地址级别片段“华亭”不带行政区划后缀,因此将非地址串“宾馆”与其前 一个地址级别片段合并成新的非地址串为“华亭宾馆”,对排序后的地址级别 片段中除所述新的非地址串的其他地址级别片段“上海”进行地理编码,得 到新的地理编码信息,根据新的地理编码信息中的地理范围修正所述对修正 后的查询词进行地理编码得到的地理编码信息中的地理范围。因此,前述步 骤106中,将所述行政地址级别信息与所述排序后的地址级别片段进行比较, 根据比较结果对所述地理范围进行修正,其具体实现可参见图2所示的方法流 程,方法包括:
    步骤1061、确定出排序后的地址级别片段中与地理编码信息中行政地址 级别片段信息内容一致的地址级别片段,并将内容一致的地址级别片段中行 政区划级别最低的地址级别片段的行政区划级别作为临界级别;
    步骤1062、将排序后的地址级别片段中行政区划级别低于所述临界级别 的地址级别片段合并为一个非地址串;
    步骤1063、当所述非地址串不为门牌号,且为可修饰词时,则:若所述 非地址串的前一个地址级别片段不带行政区划后缀,将所述非地址串与其前 一个地址级别片段进行合并,得到新的非地址串;
    步骤1064、对排序后的地址级别片段中除所述新的非地址串的其他地址 级别片段进行地理编码,得到新的地理编码信息,根据新的地理编码信息中 的地理范围修正所述对修正后的查询词进行地理编码得到的地理编码信息中 的地理范围。
    例如:地理编码信息中的行政区划级别信息为“广东省”、“广州市”、“荔 湾区”、“解放7路广东国际眼镜贸易中心”,排序后的地址级别片段为“广东 省”、“广州市”、“荔湾区”、“解放”、“7路”、“广东国际眼镜贸易中心”,对 比两者内容一致地址级别片段为“广东省”“广州市”“荔湾区”,其中“荔湾 区”的行政区划级别最低,为临界级别。其他的地址级别片段的行政区划级 别低于临界级别,因此将其他的地址级别片段合并成“解放路7号广东国际 眼镜贸易中心”,该“解放路7号广东国际眼镜贸易中心”为非地址串。
    例如,修正后的查询词为“上海市华亭宾馆”,对该“上海市华亭宾馆” 进行地理编码,得到的地理编码信息为:
    a)省份:上海市
    b)城市:
    c)区县:嘉定区
    d)地址:华亭镇
    e)城市代码:310114
    f)地址串前的非地址串:
    g)地址串后的非地址串:宾馆
    h)地址串识别出的最小级别:城镇级
    i)经度:121.284212
    j)纬度:31.469376
    k)范围:2432m
    l)地理编码识别可靠度:0.827586
    将地理编码信息中的行政地址级别信息“上海市”、“嘉定区”、“华亭镇” 与排序后的地址级别片段“上海市”、“华亭宾馆”进行比较可知,两者的临 界级别为市级,“华亭宾馆”为非地址串,该非地址串的前一个地址级别片段 带有行政区划后缀,不需要对该非地址串进行处理,因此,对除非地址级别 片段的其他地址级别片段“上海市”进行地理编码,得到新的地理编码信息 如下:
    a)省份:上海市
    b)城市:
    c)区县:
    d)地址:
    e)城市代码:310000
    f)地址串前的非地址串:
    g)地址串后的非地址串:
    h)地址串识别出的最小级别:省级
    i)经度:121.472644
    j)纬度:31.231706
    k)范围:76471m
    l)地理编码识别可靠度:1.00000。
    再根据新的地理编码信息对原地理编码信息中的地理范围进行修正。
    优选地,当非地址串是一个数字+量词的门牌号字段时,本发明实施例 则可以直接删除该非地址串,并将删除后非地址串的查询词进行地理编码, 如“北京市海淀区北四环西路105号”,这里的非地址串为“105号”,可以 直接去除“105号”,对“北京市海淀区北四环西路”进行地理编码。
    优选地,本发明实施例中,前述步骤107中,根据修正后的查询词,在修 正后的地理编码信息中的地理范围内进行兴趣点搜索,具体包括:将所述修 正后的查询词作为关键词,在修正后的地理范围内进行兴趣点搜索;若有结 果,则将该结果确定为搜索结果;若无结果,则对所述修正后的查询词进行 切分,得到组成所述查询词的分词,并根据组成所述查询词的分词在所述修 正后的地理范围内进行兴趣点搜索。
    优选地,为快速、有效的完成兴趣点搜索,本发明实施例中,在对修正 后的查询词进行切分得到多个分词时,对该多个分词赋予相同的权重;再依 次判断各分词是否为地址名词,若是则降低该分词的权重,若不是则增加所 述分词的权重;最后再根据权重大于预设权重阈值的分词在所述修正后的地 理范围内进行兴趣点搜索。如:将切分后得到的分词的权重设置为100%; 如果地理编码结果中包含该分词则说明该分词为地址名词,则将其权重降为 50%,若地址编码结果中不包含该分词则说明该分词不是地址名词,则将该 分词的权重上升为150%;比如分词结果为“广东省”、“广州市”、“荔湾区”、 “光复中路”、“313号”、“广东”、“国际”、“眼镜”、“贸易”、“中心”,地理 编码结果中包括“广东省”、“广州市”、“荔湾区”,则该三个分词“广东省”、 “广州市”、“荔湾区”的权重降为50%,其余分词的权重设置为150%。
    优选地,为提高用于搜索的分词的准确性和提高搜索结果的全面性,本 发明实施例,在确定出权重值大于权重阈值的分词之后,从预设的同义词列 表中获取该分词的同义词,如权重值大于权重阈值的分词为“酒店”,则获取 其同义词为“酒楼”、“宾馆”等,并在以“酒店”为关键词进行搜索之后, 还以其同义词“酒楼”、“宾馆”进行搜索。
    优选地,为进一步确保查询词的准确性,本发明实施例,还可以在图1所 示的方法流程中的步骤101与步骤102之间还包括以下步骤101A~步骤101D, 如图3所示:
    步骤101A、判断所述查询词是否包含预置的特殊词,若包含则执行步骤 101B,若否则执行步骤101C。
    步骤101B、将该特殊词按照预置的转换规则,转换成与该特殊词对应的 常规词。
    如特殊词为“市区”,则预置的转换规则为将该“市区”替换为当前所在 城市的名称;还如:特殊词为POI的简称,则预置的转换规则为将该简称替 换成相应POI的全称,如特殊词为“北大”,则需要将该“北大”替换为北 京大学。
    步骤101C、判断所述查询词是否为预置的特定名词,若是则执行步骤 101D,若否则执行步骤102。
    步骤101D、以该特定名词为关键词进行兴趣点搜索。
    本发明实施例中,特定名词为与城市结合紧密的名词,其一般代表一个 实际存在的地址,如“天安门”、“南京火车站”等。
    为更清楚、详细的描述本发明技术方案,下面以一具体实例,对本发明 技术方案进行描述,该实例中,在预设城市代码为010(北京)查询“华亭 宾馆上海市”,采用本发明技术方案的方法流程如图4所示:
    步骤401、接收查询词“华亭宾馆上海市”;
    步骤402、判断该查询词不包含特殊词,且该查询词不包含特定名词。
    步骤403、对查询词进行地址级别标注,得到地址级别片段为“华亭”、 “宾馆”、“上海市”;
    步骤404、判断第3个地址级别片段的行政区划级别高于第2个地址级 别片段,调换第2个地址级别片段与第3个地址级别片段之间的位置;并判 断调换后的第2个地址级别片段的行政区划级别高于第1个地址级别片段, 因此调换第1个地址级别片段和第2个地址级别片段的位置,得到排序后的 地址级别片段为“上海市”、“华亭”、“宾馆”,以及得到修正后的查询词为“上 海市华亭宾馆”;
    步骤405、确定地址级别片段“上海市”的行政区划级别与预设城市代 码对应的城市的行政区划级别一致,且该地址级别片段带有行政区划后缀, 因此将上海市对应的城市代码021替换预设的城市代码;
    步骤406、根据修正后的城市代码021和修正后的查询词“上海市华亭 宾馆”进行地理编码,得到对应的地理编码信息为:
    a)省份:上海市
    b)城市:
    c)区县:嘉定区
    d)地址:华亭镇
    e)城市代码:310114
    f)地址串前的非地址串:
    g)地址串后的非地址串:宾馆
    h)地址串识别出的最小级别:城镇级
    i)经度:121.284212
    j)纬度:31.469376
    k)范围:2432m
    l)地理编码识别可靠度:0.827586。
    步骤407、将地理编码信息中的行政级别信息与所述排序后的地址级别 片段进行比较,得到两者相同的地址级别片段为“上海市”,将“上海市”的 行政区划级别市级作为临界级别;
    步骤408、将低于临界级别的其他地址级别片段进行合并,得到非地址 串“华亭宾馆”;
    步骤409、对“上海市”进行地理编码,得到地理编码信息为:
    a)省份:上海市
    b)城市:
    c)区县:
    d)地址:
    e)城市代码:310000
    f)地址串前的非地址串:
    g)地址串后的非地址串:
    h)地址串识别出的最小级别:省级
    i)经度:121.472644
    j)纬度:31.231706
    k)范围:76471m
    l)地理编码识别可靠度:1.00000。
    步骤410、根据步骤409的地理编码信息中的地理范围修正步骤408得 到的地理编码信息中的地理范围。
    步骤411、以“上海市华亭宾馆”为关键词,在在修正后的地理范围内 进行兴趣点搜索,并搜索无结果;
    步骤412、对“上海市华亭宾馆”进行切分,得到分词“上海市”、“华 亭”、“宾馆”,且为该三个分词赋予初始权重为100%;
    步骤413、判断分词“上海市”在地理编码信息中,将“上海市”的权 重调整为50%,将分词“华亭”、“宾馆”的权重均调整为150%;
    步骤414、根据权重值大于预设权重阈值100%的“华亭”、“宾馆”在修 正后的地理范围内进行兴趣点搜索,以得到搜索结果。
    本发明实施例还提供一种兴趣点搜索装置,该装置的结构如图5所示,包 括:
    查询词接收单元51,用于接收用户输入的查询词;
    标注单元52,用于对所述查询词进行地址级别标注,得到组成所述查询 词的地址级别片段;
    排序单元53,用于按照地址级别片段的行政区划级别由高到低的顺序, 对组成所述查询词的地址级别片段进行排序,将地址级别片段按排序后的顺 序进行组合,得到修正后的查询词;
    城市代码修正单元54,用于确定用户的预设城市代码,并根据排序后的 地址级别片段的行政区划级别和预设的城市代码所对应的城市的行政区划级 别,对所述预设的城市代码进行修正,得到修正后的城市代码;
    地理编码单元55,用于根据修正后的查询词和修正后的城市代码进行地 理编码,得到对应的地理编码信息,所述地理编码信息包括行政地址级别信 息和地理范围;
    地理范围修正单元56,用于将所述行政地址级别信息与所述排序后的地 址级别片段进行比较,根据比较结果对所述地理范围进行修正,得到修正后 的地理范围;
    搜索单元57,用于根据修正后的查询词,在修正后的地理范围内进行兴 趣点搜索,得到搜索结果。
    优选地,前述排序单元53,具体用于:组成所述查询词的地址级别片段 中,如果第N个地址级别片段的行政区划级别比第N-1个地址级别片段的行政 区划级别高,且,所述第N个地址级别片段带有行政区划后缀,则交换第N-1 个和第N个地址级别片段的位置;和/或,组成所述查询词的地址级别片段中, 如果第N个地址级别片段的行政区划级别比第N-1个地址级别片段的行政区划 级别高,且所述第N个地址级别片段不带行政区划后缀但其是组成所述查询词 的最后一个地址级别片段,则交换第N-1个和第N个地址级别片段的位置,并 在第N个地址级别片段中添加与该第N个地址级别片段的行政区划级别相对 应的行政区划后缀。
    优选地,前述城市代码修正单元54,具体用于:如果排序后的地址级别 片段中行政区划级别最大的地址级别片段存在多个,则确定出该多个地址级 别片段中带有行政区划后缀的地址级别片段,并将排在最前面的带有行政区 划后缀的地址级别片段所对应的城市代码替换预设的城市代码;和/或,如果 排序后的地址级别片段中存在行政区划级别比预设的城市代码所对应的城市 的行政区划级别高的地址级别片段时,或者,修正后的地址级别片段中存在 与所述预设的城市代码所对应的城市的行政区划级别相同的地址级别片段 时,则:若该地址级别片段带有行政区划后缀,或者该地址级别片段不带行 政区划后缀但其是组成所述查询词的最后一个地址级别片段,则将该地址级 别片段对应的行政区划的城市代码替换所述预设的城市代码。
    优选地,所述地理范围修正单元56,具体用于:确定出排序后的地址级 别片段中与地理编码信息中行政地址级别片段信息内容一致的地址级别片 段,并将内容一致的地址级别片段中行政区划级别最低的地址级别片段的行 政区划级别作为临界级别;将排序后的地址级别片段中行政区划级别低于所 述临界级别的地址级别片段合并为一个非地址串;当所述非地址串不为门牌 号,且为可修饰词时,则:若所述非地址串的前一个地址级别片段不带行政 区划后缀,将所述非地址串与其前一个地址级别片段进行合并,得到新的非 地址串;对排序后的地址级别片段中除所述新的非地址串的其他地址级别片 段进行地理编码,得到新的地理编码信息,根据新的地理编码信息中的地理 范围修正所述对修正后的查询词进行地理编码得到的地理编码信息中的地理 范围。
    优选地,所述搜索单元57,具体用于:将所述修正后的查询词作为关键 词,在修正后的地理范围内进行兴趣点搜索;若有结果,则将该结果确定为 搜索结果;若无结果,则对所述修正后的查询词进行切分,得到组成所述查 询词的分词,并根据组成所述查询词的分词在所述修正后的地理范围内进行 兴趣点搜索。
    本发明实施例提供的兴趣点搜索方法中,一方面,在接收到查询词之后, 对查询词进行地址级别标注得到地址级别片段,按照地址级别片段的行政区 划级别由高到低的顺序对地址级别片段进行排序,得到修正后的查询词,由 于修正后的查询词中的地址级别片段按照行政区划级别从高到低的顺序依次 排序,使得修正后的查询词描述的更为准确、清楚,更符合用户的真实查询 意图,因此根据修正后的查询词进行地理编码所得到的地理范围更准确;另 一方面,由于对查询词进行地理编码时可能会存在对查询词做过度解析,因 此在根据修正后的查询词进行地理编码之后,将地理编码信息中的行政地址 级别信息与所述排序后的地址级别片段进行比较,根据比较结果对所述地理 编码信息中的地理范围进行修正,使得修正后的地理范围更符合用户实际所 要搜索的地理范围,因此,根据修正后的查询词在修正后的地理范围内进行 兴趣点搜索所得到结果更准确,提高了兴趣点搜索的准确性。
    本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步 骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可 读存储介质中,存储介质可以包括:只读存储器(ROM)、随机存取存储器 (RAM)、磁盘或光盘等。
    以上对本发明实施例所提供的兴趣点搜索方法和设装置进行了详细介 绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实 施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领 域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会 有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

    关 键  词:
    一种 兴趣 搜索 方法 装置
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:一种兴趣点搜索方法和装置.pdf
    链接地址:https://www.zhuanlichaxun.net/p-1748950.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1