书签 分享 收藏 举报 版权申诉 / 21

识别统一资源定位符URL中无效参数的设备及方法.pdf

  • 上传人:t****
  • 文档编号:1311398
  • 上传时间:2018-04-14
  • 格式:PDF
  • 页数:21
  • 大小:1.38MB
  • 摘要
    申请专利号:

    CN201310462625.5

    申请日:

    2013.09.30

    公开号:

    CN103530337A

    公开日:

    2014.01.22

    当前法律状态:

    授权

    有效性:

    有权

    法律详情:

    授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20130930|||公开

    IPC分类号:

    G06F17/30

    主分类号:

    G06F17/30

    申请人:

    北京奇虎科技有限公司; 奇智软件(北京)有限公司

    发明人:

    魏少俊

    地址:

    100088 北京市西城区新街口外大街28号D座112室(德胜园区)

    优先权:

    专利代理机构:

    北京华沛德权律师事务所 11302

    代理人:

    刘杰

    PDF完整版下载: PDF下载
    内容摘要

    本发明涉及搜索引擎技术领域,其公开了识别统一资源定位符URL中无效参数的设备及方法,其中所述设备包括:待测URL提取单元,适于获取待测的网页链接对应的待测URL地址;URL片段组合提取单元,适于从所述待测URL地址中提取URL片段组合;URL参数检测单元,适于根据无效片段组合列表判断所述URL片段组合中URL参数的有效性。通过该设备,可以快速识别无效链接中的参数,提高识别重复链接的效率,进而提高了搜索引擎抓取信息的效率。

    权利要求书

    1.  一种识别统一资源定位符URL中无效参数的设备,包括:
    待测URL提取单元,适于获取待测的网页链接对应的待测URL地址;
    URL片段组合提取单元,适于从所述待测URL地址中提取URL片段组合;
    URL参数检测单元,适于根据无效片段组合列表判断所述URL片段组合中URL参数的有效性。

    2.
      如权利要求1所述的设备,所述URL片段组合提取单元,适于:
    从所述待测URL地址中提取所述待测URL地址中包括的动态文件的文件名以及对应的URL参数,将提取到的所述动态文件的文件名以及所述对应的URL参数进行组合,作为所述URL片段组合。

    3.
      如权利要求1或2所述的设备,所述无效片段组合列表中保存有无效片段组合及组合中各URL参数的有效性信息。

    4.
      如权利要求1至3任一项所述的设备,所述URL参数检测单元,适于:以所述URL片段组合查询所述无效片段组合列表,查询无效片段组合列表中是否存在相匹配的无效片段组合;
    如存在,则根据相匹配的无效片段组合及其中各URL参数的有效性信息,判断所述URL片段组合中URL参数的有效性。

    5.
      如权利要求1-4任一项所述的设备,所述无效片段组合列表通过如下单元建立:
    URL获取单元,适于多个网页链接的URL;
    所述URL片段组合提取单元,适于分别从获取到的多个网页链接的URL中提取出所述URL片段组合;
    统计单元,适于统计各URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;
    有效性判断单元,适于针对各个目标URL片段组合,基于包含有所述目 标URL片段组合的URL,对目标URL片段组中各URL参数的有效性进行判断。

    6.
      一种识别URL中无效参数的方法,包括:
    获取待测的网页链接对应的待测URL地址;
    从所述待测URL地址中提取URL片段组合;
    根据无效片段组合列表判断所述URL片段组合中URL参数的有效性。

    7.
      如权利要求6所述的方法,所述从所述待测URL地址中提取URL片段组合,包括:
    从所述待测URL地址中提取所述待测URL地址中包括的动态文件的文件名以及对应的URL参数,将提取到的所述动态文件的文件名以及所述对应的URL参数进行组合,作为所述URL片段组合;
    所述无效片段组合列表中保存有无效片段组合及组合中各参数的有效性信息。

    8.
      如权利要求6或7所述的方法,所述无效片段组合列表中保存有无效片段组合及组合中各URL参数的有效性信息。

    9.
      如权利要求6至8任一项所述的方法,所述根据无效片段组合列表判断所述URL片段组合中URL参数的有效性,包括:
    以所述URL片段组合查询所述无效片段组合列表,查询无效片段组合列表中是否存在相匹配的无效片段组合;
    如存在,则根据相匹配的无效片段组合及其中各URL参数的有效性信息,判断所述URL片段组合中URL参数的有效性。

    10.
      如权利要求6至9任一项所述的方法,所述无效片段组合列表通过如下方式建立:
    获取多个网页链接的URL;
    分别从获取到的多个网页链接的URL中提取出所述URL片段组合;
    统计各URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;
    针对各个目标URL片段组合,基于包含有所述目标URL片段组合的URL,对目标URL片段组中各URL参数的有效性进行判断。

    说明书

    识别统一资源定位符URL中无效参数的设备及方法
    技术领域
    本发明涉及搜索引擎技术领域,具体涉及识别统一资源定位符URL中无效参数的设备及方法。
    背景技术
    随着计算机网络技术的飞跃发展和计算机设备的迅速普及,越来越多的人们利用计算机和互联网来获取信息,互联网能够给人们带来的服务也越来越丰富和多样化,存在于互联网上的数据呈现出爆炸式的增长,以中文网页为例,互联网上的中文网页链接数量已经达到万亿规模。
    搜索引擎是伴随着互联网信息爆炸式增长过程出现的技术,旨在满足人们在互联网的海量信息中搜索自己所需信息的需求。一方面,搜索引擎使用一定的策略和特定的搜索程序,在互联网中搜集各种各样的信息,进而对信息进行加工和整理;另一方面,搜索引擎将加工整理后的信息以一定的次序展示给用户,来满足用户的检索需求。在搜索引擎搜集互联网信息时,一个重要的依据便是统一资源定位符URL(也可以理解为网页对应的网址),这是因为URL对于每一个网页都是唯一的,即在互联网上每一个网页对应于唯一的一个URL,搜索引擎可以依据URL来获取对应网页中的信息。但在当今互联网上数量庞大的URL中,存在着不同URL对应的不同页面,但页面本身的内容是相同的情况,尤其是在当今动态网页技术越来越多的被使用,导致URL不同但网页的主体内容相同的情况也在迅速的增加,这就给搜索引擎技术的应用提出了一个问题:如何在数量庞大的URL中识别重复的链接,以减少重复信息的收录,提高搜集信息的效率。
    发明内容
    鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分 地解决上述问题的识别统一资源定位符URL中无效参数的设备,和相应的识别统一资源定位符URL中无效参数的方法。
    依据本发明的一个方面,提供了一种识别统一资源定位符URL中无效参数的设备,包括:
    待测URL提取单元,适于获取待测的网页链接对应的待测URL地址;
    URL片段组合提取单元,适于从所述待测URL地址中提取URL片段组合;
    URL参数检测单元,适于根据无效片段组合列表判断所述URL片段组合中URL参数的有效性。
    可选地,所述URL片段组合提取单元,适于:
    从所述待测URL地址中提取所述待测URL地址中包括的动态文件的文件名以及对应的URL参数,将提取到的所述动态文件的文件名以及所述对应的URL参数进行组合,作为所述URL片段组合。
    可选地,所述无效片段组合列表中保存有无效片段组合及组合中各URL参数的有效性信息。
    可选地,所述URL参数检测单元,适于:以所述URL片段组合查询所述无效片段组合列表,查询无效片段组合列表中是否存在相匹配的无效片段组合;
    如存在,则根据相匹配的无效片段组合及其中各URL参数的有效性信息,判断所述URL片段组合中URL参数的有效性。
    可选地,所述无效片段组合列表通过如下单元建立:
    URL获取单元,适于多个网页链接的URL;
    所述URL片段组合提取单元,适于分别从获取到的多个网页链接的URL中提取出所述URL片段组合;
    统计单元,适于统计各URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;
    有效性判断单元,适于针对各个目标URL片段组合,基于包含有所述目 标URL片段组合的URL,对目标URL片段组中各URL参数的有效性进行判断。
    可选地,所述统计单元,包括:
    第一统计子单元,适于统计包含有同一URL片段组合的URL的数目,将该数目确定为所述URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;
    或,
    第二统计子单元,适于统计同一URL片段组合对应的不同互联网位置的数目,将该数目确定为所述URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;其中,所述互联网位置由URL中的网络路径确定。
    可选地,所述统计单元,包括:
    第三统计子单元,适于统计包含有同一URL片段组合的URL的数目,将该数目确定为所述URL片段组合的第一出现频次;
    第四统计子单元,适于统计同一URL片段组合对应的不同互联网位置的数目,将该数目确定为所述URL片段组合的第二出现频次;其中,所述互联网位置由URL中的网络路径确定;
    确定子单元,适于将所述第一出现频次以及第二出现频次符合预置条件的URL片段组合确定为目标URL片段组合。
    可选地,所述确定子单元,包括:
    联合频次计算子单元,适于根据第一出现频次、第二出现频次以及各自预置的权重,计算URL片段组合的联合频次;
    联合确定子单元,适于将联合频次符合预置条件的URL片段组合确定为目标URL片段组合。
    可选地,所述有效性判断单元,包括:
    抽样单元,适于在包含有所述目标URL片段组合的URL中抽取预置数量的URL;
    有效性判断子单元,适于基于所述抽样单元抽取的所述预置数量的URL,对目标URL片段组合中各参数的有效性进行判断。
    可选地,所述有效性判断单元,具体适于:
    针对各个目标URL片段组合,对包含有所述目标URL片段组合的URL,对比分别去掉所述URL的每个参数前后网页内容的变化情况,如果去掉某参数前后网页内容一致,则确定该参数对应于目标URL片段组中的参数的为无效参数。
    可选地,所述URL片段组合提取单元,具体适于:
    如果某URL中包含动态文件的文件名以及对应的至少两个参数,则将所述动态文件的文件名以及对应的各个参数作为该URL中的URL片段组合提取出来。
    可选地,所述有效性判断单元,适于:
    针对各个目标URL片段组合,从包含有所述目标URL片段组合的URL中,抽取分布在不同互联网位置的预置数目的URL,并基于抽取出的URL,对目标URL片段组中各参数的有效性进行判断。
    根据本发明的另一方面,提供了一种判断URL中无效参数的方法,包括:
    获取待测的网页链接对应的待测URL地址;
    从所述待测URL地址中提取URL片段组合;
    根据无效片段组合列表判断所述URL片段组合中URL参数的有效性。
    可选地,所述从所述待测URL地址中提取URL片段组合,包括:
    从所述待测URL地址中提取所述待测URL地址中包括的动态文件的文件名以及对应的URL参数,将提取到的所述动态文件的文件名以及所述对应的URL参数进行组合,作为所述URL片段组合
    所述无效片段组合列表中保存有无效片段组合及组合中各参数的有效性信息。
    可选地,所述无效片段组合列表中保存有无效片段组合及组合中各URL参数的有效性信息。
    可选地,所述根据无效片段组合列表判断所述URL片段组合中URL参数的有效性,包括:
    以所述URL片段组合查询所述无效片段组合列表,查询无效片段组合列表中是否存在相匹配的无效片段组合;
    如存在,则根据相匹配的无效片段组合及其中各URL参数的有效性信息,判断所述URL片段组合中URL参数的有效性。
    可选地,所述无效片段组合列表通过如下方式建立:
    获取多个网页链接的URL;
    分别从获取到的多个网页链接的URL中提取出所述URL片段组合;
    统计各URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;
    针对各个目标URL片段组合,基于包含有所述目标URL片段组合的URL,对目标URL片段组中各URL参数的有效性进行判断。
    可选地,所述统计各URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合,包括:
    统计包含有同一URL片段组合的URL的数目,将该数目确定为所述URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;
    或,
    统计同一URL片段组合对应的不同互联网位置的数目,将该数目确定为所述URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;其中,所述互联网位置由URL中的网络路径确定。
    可选地,所述统计各URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合,包括:
    统计包含有同一URL片段组合的URL的数目,将该数目确定为所述URL片段组合的第一出现频次;
    统计同一URL片段组合对应的不同互联网位置的数目,将该数目确定为所述URL片段组合的第二出现频次;其中,所述互联网位置由URL中的网络路径确定;
    将所述第一出现频次以及第二出现频次符合预置条件的URL片段组合确定为目标URL片段组合。
    可选地,所述将所述第一出现频次以及第二出现频次符合预置条件的URL片段组合确定为目标URL片段组合,包括:
    根据第一出现频次、第二出现频次以及各自预置的权重,计算URL片段组合的联合频次;
    将联合频次符合预置条件的URL片段组合确定为目标URL片段组合。
    可选地,所述针对各个目标URL片段组合,基于包含有所述目标URL片段组合的URL,对目标URL片段组中各参数的有效性进行判断,包括:
    在包含有所述目标URL片段组合的URL中抽取预置数量的URL;
    基于所述抽样单元抽取的所述预置数量的URL,对目标URL片段组合中各参数的有效性进行判断。
    可选地,所述针对各个目标URL片段组合,基于包含有所述目标URL片段组合的URL,对目标URL片段组中各参数的有效性进行判断,包括:
    针对各个目标URL片段组合,对包含有所述目标URL片段组合的URL,对比分别去掉所述URL的每个参数前后网页内容的变化情况,如果去掉某参数前后网页内容一致,则确定该参数对应于目标URL片段组中的参数的为无效参数。
    可选地,所述分别从各URL中提取URL片段组合,包括:
    如果某URL中包含动态文件的文件名以及对应的至少两个参数,则将所述动态文件的文件名以及对应的各个参数作为该URL中的URL片段组合提取出来。
    可选地,所述针对各个目标URL片段组合,基于包含有所述目标URL片段组合的URL,对目标URL片段组中各参数的有效性进行判断,包括:
    针对各个目标URL片段组合,从包含有所述目标URL片段组合的URL中,抽取分布在不同互联网位置的预置数目的URL,并基于抽取出的URL,对目标URL片段组中各参数的有效性进行判断。
    根据本发明的识别统一资源定位符URL中无效参数的设备,可以通过该设备,可以从待测的网页链接URL地址中提取URL片段组合,根据无效片段则和列表判断URL片段组合中URL参数的有效性,解决了搜索引擎传统的识别重复链接中的无效参数时,需要穷举各个链接的无效参数的所有可能性,并分别进行一一判断,识别效率低下的问题。达到了快速识别无效链接中的参数,提高识别重复链接的效率。
    上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式
    附图说明
    通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
    图1示出了根据本发明一个实施例的识别统一资源定位符URL中无效参数的方法的流程图;
    图2示出了根据本发明一个实施例的识别统一资源定位符URL中无效参数的设备示意图;
    图3示出了根据本发明一个实施例的另一识别统一资源定位符URL中无效参数的设备示意图;
    图4示出了根据本发明一个实施例的再一识别统一资源定位符URL中无效参数的设备示意图;
    图5示出了根据本发明一个实施例的又一识别统一资源定位符URL中无效参数的设备示意图;
    图6示出了根据本发明一个实施例的又另一识别统一资源定位符URL中无效参数的设备示意图;
    图7示出了根据本发明一个实施例的又再一识别统一资源定位符URL中无效参数的设备示意图;以及
    图8示出了根据本发明一个实施例的识别统一资源定位符URL中无效参数的方法的应用举例示意图。
    具体实施方式
    下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
    请参见图1,为本发明实施例提供的识别统一资源定位符URL中无效参数的方法流程图,如图所示,该方法可以包括以下步骤:
    S110:获取待测的网页链接对应的待测URL地址;
    首先可以获取待测的网页链接对应的待测URL地址,互联网中,每一个页面都有唯一的URL与之对应,在对URL地址进行无效参数的检测时,可以首先获取待测的URL地址,待测URL地址可以通过搜索引擎服务器抓取,或者也可以通过用户浏览器对所浏览的网页的URL地址进行提取,作为待测URL地址。或者也可以通过搜索引擎服务器抓取,与用户浏览器抓取相结合的方式,以更加全面的获取互联网上的待测URL。针对出现无效参数大多是在动态网页的网址中,在获取待测URL地址时,可以仅获取地址中包含有动态文件的文件名以及所使用的参数的地址,将这样的网址作为待测URL地址。
    S120:从所述待测URL地址中提取URL片段组合;
    在获取到待测URL地址后,接下来可以从待测URL地址中提取URL片段组合,URL片段组合中包括了待测URL地址中包括的动态文件名,以及所使用的对应参数名。即从待测URL地址中提取URL片段组合的过程,可以是从待测URL地址中提取动态文件名,以及所使用的各个参数,并将待测 URL中提取出来的动态文件名以及各个参数组合为URL片段组合的过程。
    在URL不同但网页的主体内容相同的页面中,大多是使用了动态网页技术的页面,在这种页面的URL中,常常会包含动态运行的程序文件的文件名,以及所程序所使用的参数。其中,一个页面的URL中可以只包含一个参数,也可以包括两个或两个以上参数。可以将使用动态网页技术的页面的URL作为待测URL,并将其中的动态文件名,以及一个或多个URL参数提取出来并组合在一起,作为该待测URL的URL片段组合。例如在步骤S110中,获取到带检测的URL为:
    http://bbs.xxxxx.com.cn/viewthread.php?page=1&sid=yyy&tid=zzzz
    其中viewthread.php为该待测URL中包含的动态文件名,且该待测URL中还包含了sid,tid两个参数。可以将该待测URL中包含的动态文件名以及各个参数提取出来,并组合作为该待测URL对应的URL片段组合。如待测URL中动态文件名以及各个参数所组成的URL片段组合可以是:
    viewthread.php+sid+tid
    实际的应用于计算机时,URL片段组合中的有效性与否可以以二进制数来标识,如可以以二进制数0代表有效,以二进制数1代表无效。
    S130:根据无效片段组合列表判断所述URL片段组合中URL参数的有效性。
    在实际应用中,无效片段组合列表可以是保存一定数量的无效片段组合的集合。无效片段组合,包括通过一定方式检测到URL片段组合中含有无效的URL参数,并将URL片段组合,以及对应参数有效性一并保存起来的组合,如通过一定手段检测到上述的URL片段组合中,参数sid为有效参数,tid为无效参数,以二进制数0代表有效,以二进制数1代表无效,则可以无效片段组合列表保存这样一条无效片段组合:
    viewthread.php+sid(0)+tid(1)
    即在无效片段组合列表中,保存有若干无效片段组合,以及组合中各参数的有效性信息。在待测URL地址中提取URL片段组合后,可以根据无效片段组合列表中保存的无效片段组合,来判断提取的URL片段组合中的各 URL参数是否有效。
    由于不同URL片段组合,可以通过其中的动态文件名或者URL参数来区分;不同的无效片段组合,也可以通过其中的动态文件名或者URL参数来区分。而如果URL片段组合,与无效片段组合列表中保存的某个无效片段组合,具有相同的动态文件名和参数名,则可以认为该URL片段组合与该无效片段组合具有匹配关系,即在互联网上代表同一动态文件。因此,在根据无效片段组合列表来判断待测的URL片段组合中参数是否有效时,可以以待测的URL片段组合查询无效片段组合列表,查询其中是否存在相匹配的无效片段组合;如存在,则根据相匹配的无效片段组合及其中各URL参数的有效性信息,确定URL片段组合中URL参数的有效性。
    其中无效片段组合列表可以通过如下方式建立。首先获取多个网页链接的URL,这些URL可以看作是一种样本URL,可以是由搜索引擎,或浏览器抓取的样本网页链接URL。从这些样本URL中,可以提取去URL片段组合,即分别从获取到的多个网页链接的URL中提取出URL片段组合,从样本URL中提取出的URL片段组合,可以理解为一种样本性质的URL判断组合;接下来,还可以根据样本URL判断组合的影响面或普遍性进行过滤,选取其中影响面大,使用普遍的URL片段组合,具体的,可以统计各URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;最后针对各个目标URL片段组合,基于包含有所述目标URL片段组合的URL,对目标URL片段组中各URL参数的有效性进行判断。
    由此获得了样本URL提取的样本URL片段组合中,各个参数的有效性。然后可以将其中的动态文件名,各参数,以及参数的有效性信息,保存起来作为无效片段组合列表。建立无效片段组合列表的过程,可以看作是在有限数量的URL样本中提取URL片段组合,并判断其中各参数是否有效,从而建立判断样本:无效参数列表的过程。
    在统计各URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合的过程中,对于不经常出现的,或者点击率不高的URL,或含有特定片段组合的URL可以过滤掉,从而仅利用经常出现的或者点击率较高的URL,或含有特定片段组合的URL生成无效片段组合 列表,从而挑选出普遍性大,影响URL数量多的动态程序及其对应的URL片段组合,来建立无效组合列表,使无效片段组合列表中的无效片段组合更加具有普遍性,以及更广泛的实用性。具体的,可以对样本URL中的URL片段组合的出现频次进行统计,获得每个URL片段组合的影响面;或者对同一URL片段组合对应的不同互联网位置的数目进行统计,获得每个URL片段组合的普遍性。因此具体的过滤可以有多种实现方式,下面对过滤作为样本的URL片段组合的过程进行具体的介绍。
    首先可以从获取到的作为样本的网页链接的URL中,提出URL片段组合,提取的过程与S102中从待测URL中提取URL片段组合的过程类似,所提取出的URL片段组合的形式类似于:
    动态文件+参数列表;
    比如forum.php+authorid,mod,page,tid,sid
    其中forum.php代表了URL中提取的动态文件的文件名,authorid,mod,page,tid,sid则代表了URL中提取的各参数的参数名。
    假设从各网页链接的URL中分别提取了URL片段组合,以及统计数据,如表1所示:
    表1

    KeyVal1Val2forum.php+authorid,mod,page,tid,sid10000100000000memberlist.php+first_char,mode,sk,sd238727729179digest.php+authorid3287index.php+mulu,wenxueid19348

    其中,Key列为从各URL中提取的各个URL片段组合,Val1列为同一URL片段组合对应的不同互联网位置的数目,可以代表该URL片段组合的普遍性;Val2列为出现某一URL片段组合的URL数量,可以代表该URL片段组合的影响面,可以根据Val1,和/或Val2,对作为样本的各URL片段组合 进行过滤,过滤的过程中,可以仅用Val1,或Val2进行过滤,也可以同时利用Val1和Val2进行过滤,同时验证URL片段组合的影响面和普遍性。
    具体的,可以获取出现各URL片段组合的URL数目,将该数目确定为URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;即统计包含有同一URL片段组合的URL的数目,将该数目确定为URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;对于不经常出现的,或者点击率不高的URL,或含有特定片段组合的URL可以过滤掉,从而仅利用经常出现的或者点击率较高的URL,或含有特定片段组合的URL生成无效片段组合列表,从而使无效片段组合列表中的无效片段组合更加具有影响面。如上述表1中,假设对频次设置的阈值为1000,可以根据URL片段组合的出现频次Val2是否符合该阈值,将URL片段组合:
    digest.php+authored,以及,
    index.php+mulu,wenxueid过滤掉。
    或者,也可以统计同一URL片段组合对应的不同互联网位置的数目,该数目可以代表该URL片段组合在不同网站使用,或者在同一网站的不同子站点使用,客观上也反映了该URL片段组合在互联网不同路径中出现的频度,其数目越多,其出现的频度就越高,从中提取的无效片段组合就越具有广泛的普遍性,反之亦然。如上述表1中,假设对设置的阈值为200,可以根据URL片段组合的出现频次Val1是否符合该阈值,将URL片段组合:
    digest.php+authored,以及,
    index.php+mulu,wenxueid过滤掉。
    在另一种实现方式下,也可以根据同一URL片段组合的URL的数目,以及同一URL片段组合对应的不同互联网位置的数目,共同决定哪些URL片段组合可以作为目标URL片段组合。具体的,可以统计包含有同一URL片段组合的URL的数目,将该数目确定为URL片段组合的第一出现频次;统计同一URL片段组合对应的不同互联网位置的数目,将该数目确定为URL片段组合的第二出现频次;其中,所述互联网位置由URL中的网络路径确定; 然后将第一出现频次以及第二出现频次符合预置条件的URL片段组合确定为目标URL片段组合。在将第一出现频次以及第二出现频次符合预置条件的URL片段组合确定为目标URL片段组合的过程中,可以根据第一出现频次、第二出现频次以及各自预置的权重,计算URL片段组合的联合频次;将联合频次符合预置条件的URL片段组合确定为目标URL片段组合。例如上述表1中,可以同时为Val1以及Val2分别设置对应的阈值,同时利用Val1和Val2对URL片段组合进行过滤,经无效参数的判断后,可以获取更为有效的无效片段组合列表。
    需要说明的是,一般情况下,若URL中包含一个动态文件名,以及至少两个参数时,就可以根据文件名和对应的至少两个参数,与其它的URL片段组合相区分,因此,可以首先判断URL中是否包含动态文件的文件名以及对应的至少两个参数,若将包则将动态文件的文件名以及对应的各个参数作为该URL中的URL片段组合提取出来。这样,所提取的各URL片段组合,可以达到相互不同,从而提高了无效参数检测的有效性。
    此外,因为有时包含某个目标URL片段组合的URL的数量是非常庞大的,如果对这样的目标URL中的参数进行识别时,对所有的含有该URL片段组合的URL都作为检测对象进行检测,其工作量是非常大的,具体在对目标URL片段组中各参数的有效性进行判断时,还可以在包含有所述目标URL片段组合的URL中抽取预置数量的URL;基于抽取的预置数量的URL,对目标URL片段组合中各参数的有效性进行判断。进一步的,可以针对各个目标URL片段组合,从包含有所述目标URL片段组合的URL中,抽取分布在不同互联网位置的预置数目的URL,并基于抽取出的URL,对目标URL片段组中各参数的有效性进行判断。
    在对目标URL片段组中各参数的有效性进行判断时,可以针对各个目标URL片段组合,对包含有所述目标URL片段组合的URL,对比分别去掉所述URL的每个参数前后网页内容的变化情况,如果去掉某参数前后网页内容一致,则确定该参数对应于目标URL片段组中的参数的为无效参数。例如,对于表一中的URL片段组合:
    forum.php+authorid,mod,page,tid,sid
    可以选取一定数量的包含该URL片段组合的URL样本,对每个URL样本,可以先获取该URL对应的页面内容作为第一页面内容,然后分别去掉其中的一个URL参数如去掉参数authorid,保留其他参数,获取去掉该参数后的URL对应的第二页面内容,将第一页面内容与第二页面内容进行比对,若结果不一致,则去掉的URL参数authorid为有效参数,若一致则该去掉的URL参数sid为无效参数。然后在去掉参数mod,而保留参数authorid,page,tid,sid,获取去掉该参数后的URL对应的第三页面内容,从而根据第三页面内容与第一页面内容的对比结果,确定参数mod的有效性。在所有的参数都分别确定了有效性之后,进一步的,将目标URL片段组合中各URL参数,参数的有效性信息,与该网址中的动态文件的文件名forum.php,作为一条无效片段组合,保存在无效片段组合列表中。
    以上对本发明实施例提供的识别统一资源定位符URL中无效参数的方法进行了详细的介绍,通过该方法,可以从待测的网页链接URL地址中提取URL片段组合,根据无效片段则和列表判断URL片段组合中URL参数的有效性,解决了搜索引擎传统的识别重复链接中的无效参数时,需要对各个链接的无效参数分别进行一一判断,识别效率低下的问题。达到了快速识别无效链接中的参数,提高识别重复链接的效率。在应用到搜索引擎抓取网页的内容时,可以先应用本方法对网址中的无效参数进行识别,从而快速判断该网址的页面是否与以及抓取的其他网址为相同的,从而提高了搜索引擎抓取信息的效率。
    与本发明实施例提供的识别统一资源定位符URL中无效参数的方法相对应,还提供了识别统一资源定位符URL中无效参数的设备,请参见图2,该设备可以包括:
    待测URL提取单元210,获取待测的网页链接对应的待测URL地址;
    在对统一资源定位符URL中无效参数进行识别时,可以首先通过待测URL提取单元210来获取待测的网页链接对应的待测URL地址,待测URL地址可以由搜索引擎服务器进行抓取,并传输给待测URL提取单元210,也可以由待测URL提取单元210对互联网上待检测的URL进行抓取。
    URL片段组合提取单元220,耦接于待测URL提取单元210,从待测URL地址中提取URL片段组合;
    由URL片段组合提取单元220从待测URL地址中提取URL片段组合,具体的,可以是由URL片段组合提取单元220从待测URL地址中提取待测URL地址包括的动态文件的文件名以及对应的URL参数,将提取到的动态文件的文件名以及对应的URL参数进行组合,作为URL片段组合。在URL不同但网页的主体内容相同的页面中,大多是使用了动态网页技术的页面,在这种页面的URL中,常常会包含动态运行的程序文件的文件名,以及所程序所使用的参数。因此可以通过URL片段组合提取单元220提取URL中的动态文件的文件名以及对应的URL参数,进一步的,可以URL片段组合提取单元220将提取到的动态文件名以及各个参数进行组合,作为一个URL片段组合。URL片段组合中的动态文件名以及各个参数,存在对应的关系。
    URL参数检测单元230,耦接于URL片段组合提取单元220,根据无效片段组合列表判断所述URL片段组合中URL参数的有效性。
    通过URL参数检测单元230,可以根据无效片段组合列表判断所述URL片段组合中URL参数的有效性。其中的无效片段组合列表中,可以保存无效片段组合及组合中动态文件名,和对应的各URL参数的有效性信息。
    在实际应用中无效片段组合列表可以保存一定数量的无效片段组合,URL参数检测单元230,可以以待测URL的URL片段组合查询无效片段组合列表,查询无效片段组合列表中是否存在相匹配的无效片段组合;如存在,则根据相匹配的无效片段组合及其中各URL参数的有效性信息,判断所述URL片段组合中URL参数的有效性。
    这个过程中所使用的无效片段组合列表可以通过以下单元建立:如图3所示,URL获取单元310可以获取多个网页链接的URL,并将获取到的各URL输出到URL片段组合提取单元220,由URL片段组合提取单元220从获取到的URL中从获取到的多个网页链接的URL中分别提取出URL片段组合,统计单元320,可以统计各URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;以及有效性判断单元330,耦接于统计单元320,有效性判断单元330针对各个目标URL片段 组合,基于包含有所述目标URL片段组合的URL,对目标URL片段组中各URL参数的有效性进行判断。URL获取单元310获取多个网页链接,建立无效片段组合列表的过程,可以看作是在有限数量的URL中提取URL片段组合,并判断其中各参数是否有效,从而建立判断样本的过程。其中,对于不经常出现的,或者点击率不高的URL,或含有特定片段组合的URL,可以通过统计单元过滤掉,从而仅利用经常出现的或者点击率较高的URL,或含有特定片段组合的URL生成无效片段组合列表,从而使无效片段组合列表中的无效片段组合更加具有普遍性,以及更广泛的适用性。统计单元320具体可以包括如图4所示的第一统计子单元410,或者如图4所示的第二统计子单元410。
    如图4所示,统计单元320可以包括第一统计子单元410,通过第一统计子单元410统计包含有同一URL片段组合的URL的数目,并将该数目确定为所述URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合。当生成无效片段组合列表达到一定的数目时,第一统计子单元410统计包含有同一URL片段组合的URL的数目,可以理解为该URL片段组合在互联网中出现的频度,数目越多,其出现的频度就越高,从中提取的无效片段组合就越具有广泛的实用性,反之亦然。
    或者,
    如图5所示,统计单元320可以包括第二统计子单元420,通过第二统计子单元420统计同一URL片段组合对应的不同互联网位置的数目,将该数目确定为所述URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;其中,所述互联网位置由URL中的网络路径确定。同一URL片段组合对应的不同互联网位置的数目,可以代表该URL片段组合在不同网站使用,或者在同一网站的不同子站点使用,客观上也反映了该URL片段组合在互联网中出现的频度,其数目越多,其出现的频度就越高,从中提取的无效片段组合就越具有广泛的实用性,反之亦然。
    有效性判断单元330在具体对目标URL片段组合中各URL参数的有效性进行判断时,可以基于包含有所述目标URL片段组合的URL进行,具体的可以根据URL获取对应的第一页面内容,然后再分别去掉URL中的各URL 参数(以及参数值),然后获取去掉URL中的各URL参数(以及参数值)后对应的第二页面内容,将第一页面内容与第二页面内容进行比对,若结果不一致,则去掉的URL参数为有效参数,若一致则该去掉的URL参数为无效参数。进一步的,可以将目标URL片段组合中各URL参数,参数的有效性信息,与该网址中的动态文件的文件名viewthread.php对应保存在无效片段组合列表中。
    在另一种实现方式下,也可以根据同一URL片段组合的URL的数目,以及同一URL片段组合对应的不同互联网位置的数目,共同决定哪些URL片段组合可以作为目标URL片段组合。如图6所示,统计单元320可以包括第三统计子单元610,统计包含有同一URL片段组合的URL的数目,将该数目确定为URL片段组合的第一出现频次;第四统计子单元620,统计同一URL片段组合对应的不同互联网位置的数目,将该数目确定为URL片段组合的第二出现频次;其中,互联网位置由URL中的网络路径确定;以及确定子单元630,将第一出现频次以及第二出现频次符合预置条件的URL片段组合确定为目标URL片段组合。确定子单元630可以包括联合频次计算子单元,联合频次计算子单元,根据第一出现频次、第二出现频次以及各自预置的权重,计算URL片段组合的联合频次,以及联合确定子单元将联合频次符合预置条件的URL片段组合确定为目标URL片段组合。
    如图7所示,有效性判断单元330还可以包括抽样单元710,在包含有目标URL片段组合的URL中抽取预置数量的URL;以及有效性判断子单元720,适于基于抽样单元抽取的预置数量的URL,对目标URL片段组中各参数的有效性进行判断。因为有时包含某个目标URL片段组合的URL的数量是非常庞大的,如果对这样的目标URL中的参数进行识别时,对所有的含有该URL片段组合的URL都作为检测对象进行检测,其工作量是非常大的,此时可以通过抽样单元710,在包含有目标URL片段组合的URL中抽取预置数量的URL作为检测使用的URL,再由有效性判断子单元720,基于抽样单元抽取的预置数量的URL,对目标URL片段组中各参数的有效性进行判断。提高对目标URL片段中个参数进行检测的效率。进一步的,针对各个目标URL片段组合,从包含有目标URL片段组合的URL中,抽取分布在不同互联网位 置的预置数目的URL,并基于抽取出的URL,对目标URL片段组中各参数的有效性进行判断。抽取分布在不同互联网位置的预置数目的URL,提高了用于检测的URL的覆盖面,从而提高了基于这些URL进行URL片段组合中参数有效性判断的准确性。
    在实际应用中,URL片段组合提取单元220,可以首先判断URL中包含的动态文件名对应的参数的个数,一般情况下,若URL中包含一个动态文件名,以及至少两个参数时,就可以根据文件名和对应的至少两个参数,与其它的URL片段组合相区分,因此,URL片段组合提取单元220可以在URL中包含动态文件的文件名以及对应的至少两个参数,则将动态文件的文件名以及对应的各个参数作为该URL中的URL片段组合提取出来。这样,所提取的各URL片段组合,可以达到相互不同,提高设备的有效性。
    以上对本发明实施例提供的识别统一资源定位符URL中无效参数的设备进行了详细的介绍,通过该设备,可以从待测的网页链接URL地址中提取URL片段组合,根据无效片段则和列表判断URL片段组合中URL参数的有效性,解决了搜索引擎传统的识别重复链接中的无效参数时,需要对各个链接的无效参数分别进行一一判断,识别效率低下的问题。达到了快速识别无效链接中的参数,提高识别重复链接的效率,进而提高了搜索引擎抓取信息的效率。
    为了便于更好的理解根据本发明一个实施例的识别统一资源定位符URL中无效参数的设备及方法,下面再给出本发明实施例的一个具体应用举例,请参阅图8,为本发明实施例的一个应用举例的示意图。
    首先统计“网站+路径+动态文件”对应的参数组合以及每种参数组合(即URL片段组合)影响的URL数,即URL片段组合的出现频次;同时统计“动态文件+参数组合”对应的不同“网站+路径”数,来验证验证URL片段组合的普遍性。
    将“动态文件+参数组合”按照普遍性和影响URL数从大到小排序,并取影响URL数和普遍性一定阈值以上的“动态文件+参数组合”,可以对应前述的,将出现频次符合预置条件的URL片段组合确定为目标URL片段组合的过程,即根据同一URL片段组合的URL的数目,以及同一URL片段组 合对应的不同互联网位置的数目,共同决定哪些URL片段组合可以作为目标URL片段组合。每个取分布在不同网站和路径上的n(如取n>10的正整数)条URL,视系统的检测能力和收益,动态决定阈值和URL数。如对每个“动态文件+参数组合”检测n条URL的每个参数去除前后网页内容变化情况,如果n条URL是否内容都不变,参数为有效参数,否则参数为无效参数。进一步的,可以根据对样本URL中URL片段组合的进行无效参数判断的结果进行保存,产出规则,规则动态文件+参数列表:无效参数,各条规则可以保存在一起,形成无效片段组合列表。
    在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
    在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
    类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
    本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴 随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的替代特征来代替。
    此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
    本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的识别统一资源定位符URL中无效参数的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
    应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
    本申请可以应用于计算机系统/服务器,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的 计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
    计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

    关 键  词:
    识别 统一 资源 定位 URL 无效 参数 设备 方法
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:识别统一资源定位符URL中无效参数的设备及方法.pdf
    链接地址:https://www.zhuanlichaxun.net/p-1311398.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1