《识别统一资源定位符URL中无效参数的设备及方法.pdf》由会员分享,可在线阅读,更多相关《识别统一资源定位符URL中无效参数的设备及方法.pdf(21页完整版)》请在专利查询网上搜索。
1、10申请公布号CN103530337A43申请公布日20140122CN103530337A21申请号201310462625522申请日20130930G06F17/3020060171申请人北京奇虎科技有限公司地址100088北京市西城区新街口外大街28号D座112室(德胜园区)申请人奇智软件(北京)有限公司72发明人魏少俊74专利代理机构北京华沛德权律师事务所11302代理人刘杰54发明名称识别统一资源定位符URL中无效参数的设备及方法57摘要本发明涉及搜索引擎技术领域,其公开了识别统一资源定位符URL中无效参数的设备及方法,其中所述设备包括待测URL提取单元,适于获取待测的网页链接对应。
2、的待测URL地址;URL片段组合提取单元,适于从所述待测URL地址中提取URL片段组合;URL参数检测单元,适于根据无效片段组合列表判断所述URL片段组合中URL参数的有效性。通过该设备,可以快速识别无效链接中的参数,提高识别重复链接的效率,进而提高了搜索引擎抓取信息的效率。51INTCL权利要求书2页说明书14页附图4页19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书14页附图4页10申请公布号CN103530337ACN103530337A1/2页21一种识别统一资源定位符URL中无效参数的设备,包括待测URL提取单元,适于获取待测的网页链接对应的待测URL地址;URL。
3、片段组合提取单元,适于从所述待测URL地址中提取URL片段组合;URL参数检测单元,适于根据无效片段组合列表判断所述URL片段组合中URL参数的有效性。2如权利要求1所述的设备,所述URL片段组合提取单元,适于从所述待测URL地址中提取所述待测URL地址中包括的动态文件的文件名以及对应的URL参数,将提取到的所述动态文件的文件名以及所述对应的URL参数进行组合,作为所述URL片段组合。3如权利要求1或2所述的设备,所述无效片段组合列表中保存有无效片段组合及组合中各URL参数的有效性信息。4如权利要求1至3任一项所述的设备,所述URL参数检测单元,适于以所述URL片段组合查询所述无效片段组合列表。
4、,查询无效片段组合列表中是否存在相匹配的无效片段组合;如存在,则根据相匹配的无效片段组合及其中各URL参数的有效性信息,判断所述URL片段组合中URL参数的有效性。5如权利要求14任一项所述的设备,所述无效片段组合列表通过如下单元建立URL获取单元,适于多个网页链接的URL;所述URL片段组合提取单元,适于分别从获取到的多个网页链接的URL中提取出所述URL片段组合;统计单元,适于统计各URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;有效性判断单元,适于针对各个目标URL片段组合,基于包含有所述目标URL片段组合的URL,对目标URL片段组中各URL。
5、参数的有效性进行判断。6一种识别URL中无效参数的方法,包括获取待测的网页链接对应的待测URL地址;从所述待测URL地址中提取URL片段组合;根据无效片段组合列表判断所述URL片段组合中URL参数的有效性。7如权利要求6所述的方法,所述从所述待测URL地址中提取URL片段组合,包括从所述待测URL地址中提取所述待测URL地址中包括的动态文件的文件名以及对应的URL参数,将提取到的所述动态文件的文件名以及所述对应的URL参数进行组合,作为所述URL片段组合;所述无效片段组合列表中保存有无效片段组合及组合中各参数的有效性信息。8如权利要求6或7所述的方法,所述无效片段组合列表中保存有无效片段组合及。
6、组合中各URL参数的有效性信息。9如权利要求6至8任一项所述的方法,所述根据无效片段组合列表判断所述URL片段组合中URL参数的有效性,包括以所述URL片段组合查询所述无效片段组合列表,查询无效片段组合列表中是否存在相匹配的无效片段组合;权利要求书CN103530337A2/2页3如存在,则根据相匹配的无效片段组合及其中各URL参数的有效性信息,判断所述URL片段组合中URL参数的有效性。10如权利要求6至9任一项所述的方法,所述无效片段组合列表通过如下方式建立获取多个网页链接的URL;分别从获取到的多个网页链接的URL中提取出所述URL片段组合;统计各URL片段组合的出现频次,并将出现频次符。
7、合预置条件的URL片段组合确定为目标URL片段组合;针对各个目标URL片段组合,基于包含有所述目标URL片段组合的URL,对目标URL片段组中各URL参数的有效性进行判断。权利要求书CN103530337A1/14页4识别统一资源定位符URL中无效参数的设备及方法技术领域0001本发明涉及搜索引擎技术领域,具体涉及识别统一资源定位符URL中无效参数的设备及方法。背景技术0002随着计算机网络技术的飞跃发展和计算机设备的迅速普及,越来越多的人们利用计算机和互联网来获取信息,互联网能够给人们带来的服务也越来越丰富和多样化,存在于互联网上的数据呈现出爆炸式的增长,以中文网页为例,互联网上的中文网页链。
8、接数量已经达到万亿规模。0003搜索引擎是伴随着互联网信息爆炸式增长过程出现的技术,旨在满足人们在互联网的海量信息中搜索自己所需信息的需求。一方面,搜索引擎使用一定的策略和特定的搜索程序,在互联网中搜集各种各样的信息,进而对信息进行加工和整理;另一方面,搜索引擎将加工整理后的信息以一定的次序展示给用户,来满足用户的检索需求。在搜索引擎搜集互联网信息时,一个重要的依据便是统一资源定位符URL(也可以理解为网页对应的网址),这是因为URL对于每一个网页都是唯一的,即在互联网上每一个网页对应于唯一的一个URL,搜索引擎可以依据URL来获取对应网页中的信息。但在当今互联网上数量庞大的URL中,存在着不。
9、同URL对应的不同页面,但页面本身的内容是相同的情况,尤其是在当今动态网页技术越来越多的被使用,导致URL不同但网页的主体内容相同的情况也在迅速的增加,这就给搜索引擎技术的应用提出了一个问题如何在数量庞大的URL中识别重复的链接,以减少重复信息的收录,提高搜集信息的效率。发明内容0004鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的识别统一资源定位符URL中无效参数的设备,和相应的识别统一资源定位符URL中无效参数的方法。0005依据本发明的一个方面,提供了一种识别统一资源定位符URL中无效参数的设备,包括0006待测URL提取单元,适于获取待测的网页链接对应的。
10、待测URL地址;0007URL片段组合提取单元,适于从所述待测URL地址中提取URL片段组合;0008URL参数检测单元,适于根据无效片段组合列表判断所述URL片段组合中URL参数的有效性。0009可选地,所述URL片段组合提取单元,适于0010从所述待测URL地址中提取所述待测URL地址中包括的动态文件的文件名以及对应的URL参数,将提取到的所述动态文件的文件名以及所述对应的URL参数进行组合,作为所述URL片段组合。0011可选地,所述无效片段组合列表中保存有无效片段组合及组合中各URL参数的有说明书CN103530337A2/14页5效性信息。0012可选地,所述URL参数检测单元,适于。
11、以所述URL片段组合查询所述无效片段组合列表,查询无效片段组合列表中是否存在相匹配的无效片段组合;0013如存在,则根据相匹配的无效片段组合及其中各URL参数的有效性信息,判断所述URL片段组合中URL参数的有效性。0014可选地,所述无效片段组合列表通过如下单元建立0015URL获取单元,适于多个网页链接的URL;0016所述URL片段组合提取单元,适于分别从获取到的多个网页链接的URL中提取出所述URL片段组合;0017统计单元,适于统计各URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;0018有效性判断单元,适于针对各个目标URL片段组合,基于。
12、包含有所述目标URL片段组合的URL,对目标URL片段组中各URL参数的有效性进行判断。0019可选地,所述统计单元,包括0020第一统计子单元,适于统计包含有同一URL片段组合的URL的数目,将该数目确定为所述URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;0021或,0022第二统计子单元,适于统计同一URL片段组合对应的不同互联网位置的数目,将该数目确定为所述URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;其中,所述互联网位置由URL中的网络路径确定。0023可选地,所述统计单元,包括0024第三统计。
13、子单元,适于统计包含有同一URL片段组合的URL的数目,将该数目确定为所述URL片段组合的第一出现频次;0025第四统计子单元,适于统计同一URL片段组合对应的不同互联网位置的数目,将该数目确定为所述URL片段组合的第二出现频次;其中,所述互联网位置由URL中的网络路径确定;0026确定子单元,适于将所述第一出现频次以及第二出现频次符合预置条件的URL片段组合确定为目标URL片段组合。0027可选地,所述确定子单元,包括0028联合频次计算子单元,适于根据第一出现频次、第二出现频次以及各自预置的权重,计算URL片段组合的联合频次;0029联合确定子单元,适于将联合频次符合预置条件的URL片段组。
14、合确定为目标URL片段组合。0030可选地,所述有效性判断单元,包括0031抽样单元,适于在包含有所述目标URL片段组合的URL中抽取预置数量的URL;0032有效性判断子单元,适于基于所述抽样单元抽取的所述预置数量的URL,对目标URL片段组合中各参数的有效性进行判断。0033可选地,所述有效性判断单元,具体适于说明书CN103530337A3/14页60034针对各个目标URL片段组合,对包含有所述目标URL片段组合的URL,对比分别去掉所述URL的每个参数前后网页内容的变化情况,如果去掉某参数前后网页内容一致,则确定该参数对应于目标URL片段组中的参数的为无效参数。0035可选地,所述U。
15、RL片段组合提取单元,具体适于0036如果某URL中包含动态文件的文件名以及对应的至少两个参数,则将所述动态文件的文件名以及对应的各个参数作为该URL中的URL片段组合提取出来。0037可选地,所述有效性判断单元,适于0038针对各个目标URL片段组合,从包含有所述目标URL片段组合的URL中,抽取分布在不同互联网位置的预置数目的URL,并基于抽取出的URL,对目标URL片段组中各参数的有效性进行判断。0039根据本发明的另一方面,提供了一种判断URL中无效参数的方法,包括0040获取待测的网页链接对应的待测URL地址;0041从所述待测URL地址中提取URL片段组合;0042根据无效片段组合。
16、列表判断所述URL片段组合中URL参数的有效性。0043可选地,所述从所述待测URL地址中提取URL片段组合,包括0044从所述待测URL地址中提取所述待测URL地址中包括的动态文件的文件名以及对应的URL参数,将提取到的所述动态文件的文件名以及所述对应的URL参数进行组合,作为所述URL片段组合0045所述无效片段组合列表中保存有无效片段组合及组合中各参数的有效性信息。0046可选地,所述无效片段组合列表中保存有无效片段组合及组合中各URL参数的有效性信息。0047可选地,所述根据无效片段组合列表判断所述URL片段组合中URL参数的有效性,包括0048以所述URL片段组合查询所述无效片段组合。
17、列表,查询无效片段组合列表中是否存在相匹配的无效片段组合;0049如存在,则根据相匹配的无效片段组合及其中各URL参数的有效性信息,判断所述URL片段组合中URL参数的有效性。0050可选地,所述无效片段组合列表通过如下方式建立0051获取多个网页链接的URL;0052分别从获取到的多个网页链接的URL中提取出所述URL片段组合;0053统计各URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;0054针对各个目标URL片段组合,基于包含有所述目标URL片段组合的URL,对目标URL片段组中各URL参数的有效性进行判断。0055可选地,所述统计各URL片。
18、段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合,包括0056统计包含有同一URL片段组合的URL的数目,将该数目确定为所述URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;0057或,说明书CN103530337A4/14页70058统计同一URL片段组合对应的不同互联网位置的数目,将该数目确定为所述URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;其中,所述互联网位置由URL中的网络路径确定。0059可选地,所述统计各URL片段组合的出现频次,并将出现频次符合预置条件的UR。
19、L片段组合确定为目标URL片段组合,包括0060统计包含有同一URL片段组合的URL的数目,将该数目确定为所述URL片段组合的第一出现频次;0061统计同一URL片段组合对应的不同互联网位置的数目,将该数目确定为所述URL片段组合的第二出现频次;其中,所述互联网位置由URL中的网络路径确定;0062将所述第一出现频次以及第二出现频次符合预置条件的URL片段组合确定为目标URL片段组合。0063可选地,所述将所述第一出现频次以及第二出现频次符合预置条件的URL片段组合确定为目标URL片段组合,包括0064根据第一出现频次、第二出现频次以及各自预置的权重,计算URL片段组合的联合频次;0065将联。
20、合频次符合预置条件的URL片段组合确定为目标URL片段组合。0066可选地,所述针对各个目标URL片段组合,基于包含有所述目标URL片段组合的URL,对目标URL片段组中各参数的有效性进行判断,包括0067在包含有所述目标URL片段组合的URL中抽取预置数量的URL;0068基于所述抽样单元抽取的所述预置数量的URL,对目标URL片段组合中各参数的有效性进行判断。0069可选地,所述针对各个目标URL片段组合,基于包含有所述目标URL片段组合的URL,对目标URL片段组中各参数的有效性进行判断,包括0070针对各个目标URL片段组合,对包含有所述目标URL片段组合的URL,对比分别去掉所述UR。
21、L的每个参数前后网页内容的变化情况,如果去掉某参数前后网页内容一致,则确定该参数对应于目标URL片段组中的参数的为无效参数。0071可选地,所述分别从各URL中提取URL片段组合,包括0072如果某URL中包含动态文件的文件名以及对应的至少两个参数,则将所述动态文件的文件名以及对应的各个参数作为该URL中的URL片段组合提取出来。0073可选地,所述针对各个目标URL片段组合,基于包含有所述目标URL片段组合的URL,对目标URL片段组中各参数的有效性进行判断,包括0074针对各个目标URL片段组合,从包含有所述目标URL片段组合的URL中,抽取分布在不同互联网位置的预置数目的URL,并基于抽。
22、取出的URL,对目标URL片段组中各参数的有效性进行判断。0075根据本发明的识别统一资源定位符URL中无效参数的设备,可以通过该设备,可以从待测的网页链接URL地址中提取URL片段组合,根据无效片段则和列表判断URL片段组合中URL参数的有效性,解决了搜索引擎传统的识别重复链接中的无效参数时,需要穷举各个链接的无效参数的所有可能性,并分别进行一一判断,识别效率低下的问题。达到了快速识别无效链接中的参数,提高识别重复链接的效率。说明书CN103530337A5/14页80076上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的。
23、上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。附图说明0077通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中0078图1示出了根据本发明一个实施例的识别统一资源定位符URL中无效参数的方法的流程图;0079图2示出了根据本发明一个实施例的识别统一资源定位符URL中无效参数的设备示意图;0080图3示出了根据本发明一个实施例的另一识别统一资源定位符URL中无效参数的设备示意图;0081图4示出了根据本发明。
24、一个实施例的再一识别统一资源定位符URL中无效参数的设备示意图;0082图5示出了根据本发明一个实施例的又一识别统一资源定位符URL中无效参数的设备示意图;0083图6示出了根据本发明一个实施例的又另一识别统一资源定位符URL中无效参数的设备示意图;0084图7示出了根据本发明一个实施例的又再一识别统一资源定位符URL中无效参数的设备示意图;以及0085图8示出了根据本发明一个实施例的识别统一资源定位符URL中无效参数的方法的应用举例示意图。具体实施方式0086下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这。
25、里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。0087请参见图1,为本发明实施例提供的识别统一资源定位符URL中无效参数的方法流程图,如图所示,该方法可以包括以下步骤0088S110获取待测的网页链接对应的待测URL地址;0089首先可以获取待测的网页链接对应的待测URL地址,互联网中,每一个页面都有唯一的URL与之对应,在对URL地址进行无效参数的检测时,可以首先获取待测的URL地址,待测URL地址可以通过搜索引擎服务器抓取,或者也可以通过用户浏览器对所浏览的网页的URL地址进行提取,作为待测URL地址。或者也可以。
26、通过搜索引擎服务器抓取,与用户浏览器抓取相结合的方式,以更加全面的获取互联网上的待测URL。针对出现无效参数大多是在动态网页的网址中,在获取待测URL地址时,可以仅获取地址中包含有动态文件的说明书CN103530337A6/14页9文件名以及所使用的参数的地址,将这样的网址作为待测URL地址。0090S120从所述待测URL地址中提取URL片段组合;0091在获取到待测URL地址后,接下来可以从待测URL地址中提取URL片段组合,URL片段组合中包括了待测URL地址中包括的动态文件名,以及所使用的对应参数名。即从待测URL地址中提取URL片段组合的过程,可以是从待测URL地址中提取动态文件名,。
27、以及所使用的各个参数,并将待测URL中提取出来的动态文件名以及各个参数组合为URL片段组合的过程。0092在URL不同但网页的主体内容相同的页面中,大多是使用了动态网页技术的页面,在这种页面的URL中,常常会包含动态运行的程序文件的文件名,以及所程序所使用的参数。其中,一个页面的URL中可以只包含一个参数,也可以包括两个或两个以上参数。可以将使用动态网页技术的页面的URL作为待测URL,并将其中的动态文件名,以及一个或多个URL参数提取出来并组合在一起,作为该待测URL的URL片段组合。例如在步骤S110中,获取到带检测的URL为0093HTTP/BBSXXXXXCOMCN/VIEWTHREA。
28、DPHPPAGE1SIDYYYTIDZZZZ0094其中VIEWTHREADPHP为该待测URL中包含的动态文件名,且该待测URL中还包含了SID,TID两个参数。可以将该待测URL中包含的动态文件名以及各个参数提取出来,并组合作为该待测URL对应的URL片段组合。如待测URL中动态文件名以及各个参数所组成的URL片段组合可以是0095VIEWTHREADPHPSIDTID0096实际的应用于计算机时,URL片段组合中的有效性与否可以以二进制数来标识,如可以以二进制数0代表有效,以二进制数1代表无效。0097S130根据无效片段组合列表判断所述URL片段组合中URL参数的有效性。0098在实际。
29、应用中,无效片段组合列表可以是保存一定数量的无效片段组合的集合。无效片段组合,包括通过一定方式检测到URL片段组合中含有无效的URL参数,并将URL片段组合,以及对应参数有效性一并保存起来的组合,如通过一定手段检测到上述的URL片段组合中,参数SID为有效参数,TID为无效参数,以二进制数0代表有效,以二进制数1代表无效,则可以无效片段组合列表保存这样一条无效片段组合0099VIEWTHREADPHPSID0TID10100即在无效片段组合列表中,保存有若干无效片段组合,以及组合中各参数的有效性信息。在待测URL地址中提取URL片段组合后,可以根据无效片段组合列表中保存的无效片段组合,来判断提。
30、取的URL片段组合中的各URL参数是否有效。0101由于不同URL片段组合,可以通过其中的动态文件名或者URL参数来区分;不同的无效片段组合,也可以通过其中的动态文件名或者URL参数来区分。而如果URL片段组合,与无效片段组合列表中保存的某个无效片段组合,具有相同的动态文件名和参数名,则可以认为该URL片段组合与该无效片段组合具有匹配关系,即在互联网上代表同一动态文件。因此,在根据无效片段组合列表来判断待测的URL片段组合中参数是否有效时,可以以待测的URL片段组合查询无效片段组合列表,查询其中是否存在相匹配的无效片段组合;如存在,则根据相匹配的无效片段组合及其中各URL参数的有效性信息,确定。
31、URL片段组合中URL参数的有效性。说明书CN103530337A7/14页100102其中无效片段组合列表可以通过如下方式建立。首先获取多个网页链接的URL,这些URL可以看作是一种样本URL,可以是由搜索引擎,或浏览器抓取的样本网页链接URL。从这些样本URL中,可以提取去URL片段组合,即分别从获取到的多个网页链接的URL中提取出URL片段组合,从样本URL中提取出的URL片段组合,可以理解为一种样本性质的URL判断组合;接下来,还可以根据样本URL判断组合的影响面或普遍性进行过滤,选取其中影响面大,使用普遍的URL片段组合,具体的,可以统计各URL片段组合的出现频次,并将出现频次符合预。
32、置条件的URL片段组合确定为目标URL片段组合;最后针对各个目标URL片段组合,基于包含有所述目标URL片段组合的URL,对目标URL片段组中各URL参数的有效性进行判断。0103由此获得了样本URL提取的样本URL片段组合中,各个参数的有效性。然后可以将其中的动态文件名,各参数,以及参数的有效性信息,保存起来作为无效片段组合列表。建立无效片段组合列表的过程,可以看作是在有限数量的URL样本中提取URL片段组合,并判断其中各参数是否有效,从而建立判断样本无效参数列表的过程。0104在统计各URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合的过程中,对于不。
33、经常出现的,或者点击率不高的URL,或含有特定片段组合的URL可以过滤掉,从而仅利用经常出现的或者点击率较高的URL,或含有特定片段组合的URL生成无效片段组合列表,从而挑选出普遍性大,影响URL数量多的动态程序及其对应的URL片段组合,来建立无效组合列表,使无效片段组合列表中的无效片段组合更加具有普遍性,以及更广泛的实用性。具体的,可以对样本URL中的URL片段组合的出现频次进行统计,获得每个URL片段组合的影响面;或者对同一URL片段组合对应的不同互联网位置的数目进行统计,获得每个URL片段组合的普遍性。因此具体的过滤可以有多种实现方式,下面对过滤作为样本的URL片段组合的过程进行具体的介。
34、绍。0105首先可以从获取到的作为样本的网页链接的URL中,提出URL片段组合,提取的过程与S102中从待测URL中提取URL片段组合的过程类似,所提取出的URL片段组合的形式类似于0106动态文件参数列表;0107比如FORUMPHPAUTHORID,MOD,PAGE,TID,SID0108其中FORUMPHP代表了URL中提取的动态文件的文件名,AUTHORID,MOD,PAGE,TID,SID则代表了URL中提取的各参数的参数名。0109假设从各网页链接的URL中分别提取了URL片段组合,以及统计数据,如表1所示0110表10111KEYVAL1VAL2FORUMPHPAUTHORID,。
35、MOD,PAGE,TID,SID10000100000000MEMBERLISTPHPFIRST_CHAR,MODE,SK,SD238727729179说明书CN103530337A108/14页11DIGESTPHPAUTHORID3287INDEXPHPMULU,WENXUEID193480112其中,KEY列为从各URL中提取的各个URL片段组合,VAL1列为同一URL片段组合对应的不同互联网位置的数目,可以代表该URL片段组合的普遍性;VAL2列为出现某一URL片段组合的URL数量,可以代表该URL片段组合的影响面,可以根据VAL1,和/或VAL2,对作为样本的各URL片段组合进行过滤。
36、,过滤的过程中,可以仅用VAL1,或VAL2进行过滤,也可以同时利用VAL1和VAL2进行过滤,同时验证URL片段组合的影响面和普遍性。0113具体的,可以获取出现各URL片段组合的URL数目,将该数目确定为URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;即统计包含有同一URL片段组合的URL的数目,将该数目确定为URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;对于不经常出现的,或者点击率不高的URL,或含有特定片段组合的URL可以过滤掉,从而仅利用经常出现的或者点击率较高的URL,或含有特定片段组合的UR。
37、L生成无效片段组合列表,从而使无效片段组合列表中的无效片段组合更加具有影响面。如上述表1中,假设对频次设置的阈值为1000,可以根据URL片段组合的出现频次VAL2是否符合该阈值,将URL片段组合0114DIGESTPHPAUTHORED,以及,0115INDEXPHPMULU,WENXUEID过滤掉。0116或者,也可以统计同一URL片段组合对应的不同互联网位置的数目,该数目可以代表该URL片段组合在不同网站使用,或者在同一网站的不同子站点使用,客观上也反映了该URL片段组合在互联网不同路径中出现的频度,其数目越多,其出现的频度就越高,从中提取的无效片段组合就越具有广泛的普遍性,反之亦然。如。
38、上述表1中,假设对设置的阈值为200,可以根据URL片段组合的出现频次VAL1是否符合该阈值,将URL片段组合0117DIGESTPHPAUTHORED,以及,0118INDEXPHPMULU,WENXUEID过滤掉。0119在另一种实现方式下,也可以根据同一URL片段组合的URL的数目,以及同一URL片段组合对应的不同互联网位置的数目,共同决定哪些URL片段组合可以作为目标URL片段组合。具体的,可以统计包含有同一URL片段组合的URL的数目,将该数目确定为URL片段组合的第一出现频次;统计同一URL片段组合对应的不同互联网位置的数目,将该数目确定为URL片段组合的第二出现频次;其中,所述互。
39、联网位置由URL中的网络路径确定;然后将第一出现频次以及第二出现频次符合预置条件的URL片段组合确定为目标URL片段组合。在将第一出现频次以及第二出现频次符合预置条件的URL片段组合确定为目标URL片段组合的过程中,可以根据第一出现频次、第二出现频次以及各自预置的权重,计算URL片段组合的联合频次;将联合频次符合预置条件的URL片段组合确定为目标URL片段组合。例如上述表1中,可以同时为VAL1以及VAL2分别设置对应的阈值,同时利用VAL1和VAL2对URL片段组合进行过滤,经无效参数的判断后,可以获取更为有效的无效片段组合列表。0120需要说明的是,一般情况下,若URL中包含一个动态文件名。
40、,以及至少两个参数时,就可以根据文件名和对应的至少两个参数,与其它的URL片段组合相区分,因此,可以首先判断URL中是否包含动态文件的文件名以及对应的至少两个参数,若将包则将动态文说明书CN103530337A119/14页12件的文件名以及对应的各个参数作为该URL中的URL片段组合提取出来。这样,所提取的各URL片段组合,可以达到相互不同,从而提高了无效参数检测的有效性。0121此外,因为有时包含某个目标URL片段组合的URL的数量是非常庞大的,如果对这样的目标URL中的参数进行识别时,对所有的含有该URL片段组合的URL都作为检测对象进行检测,其工作量是非常大的,具体在对目标URL片段组。
41、中各参数的有效性进行判断时,还可以在包含有所述目标URL片段组合的URL中抽取预置数量的URL;基于抽取的预置数量的URL,对目标URL片段组合中各参数的有效性进行判断。进一步的,可以针对各个目标URL片段组合,从包含有所述目标URL片段组合的URL中,抽取分布在不同互联网位置的预置数目的URL,并基于抽取出的URL,对目标URL片段组中各参数的有效性进行判断。0122在对目标URL片段组中各参数的有效性进行判断时,可以针对各个目标URL片段组合,对包含有所述目标URL片段组合的URL,对比分别去掉所述URL的每个参数前后网页内容的变化情况,如果去掉某参数前后网页内容一致,则确定该参数对应于目。
42、标URL片段组中的参数的为无效参数。例如,对于表一中的URL片段组合0123FORUMPHPAUTHORID,MOD,PAGE,TID,SID0124可以选取一定数量的包含该URL片段组合的URL样本,对每个URL样本,可以先获取该URL对应的页面内容作为第一页面内容,然后分别去掉其中的一个URL参数如去掉参数AUTHORID,保留其他参数,获取去掉该参数后的URL对应的第二页面内容,将第一页面内容与第二页面内容进行比对,若结果不一致,则去掉的URL参数AUTHORID为有效参数,若一致则该去掉的URL参数SID为无效参数。然后在去掉参数MOD,而保留参数AUTHORID,PAGE,TID,S。
43、ID,获取去掉该参数后的URL对应的第三页面内容,从而根据第三页面内容与第一页面内容的对比结果,确定参数MOD的有效性。在所有的参数都分别确定了有效性之后,进一步的,将目标URL片段组合中各URL参数,参数的有效性信息,与该网址中的动态文件的文件名FORUMPHP,作为一条无效片段组合,保存在无效片段组合列表中。0125以上对本发明实施例提供的识别统一资源定位符URL中无效参数的方法进行了详细的介绍,通过该方法,可以从待测的网页链接URL地址中提取URL片段组合,根据无效片段则和列表判断URL片段组合中URL参数的有效性,解决了搜索引擎传统的识别重复链接中的无效参数时,需要对各个链接的无效参数。
44、分别进行一一判断,识别效率低下的问题。达到了快速识别无效链接中的参数,提高识别重复链接的效率。在应用到搜索引擎抓取网页的内容时,可以先应用本方法对网址中的无效参数进行识别,从而快速判断该网址的页面是否与以及抓取的其他网址为相同的,从而提高了搜索引擎抓取信息的效率。0126与本发明实施例提供的识别统一资源定位符URL中无效参数的方法相对应,还提供了识别统一资源定位符URL中无效参数的设备,请参见图2,该设备可以包括0127待测URL提取单元210,获取待测的网页链接对应的待测URL地址;0128在对统一资源定位符URL中无效参数进行识别时,可以首先通过待测URL提取单元210来获取待测的网页链接。
45、对应的待测URL地址,待测URL地址可以由搜索引擎服务器进行抓取,并传输给待测URL提取单元210,也可以由待测URL提取单元210对互联网上待检测的URL进行抓取。0129URL片段组合提取单元220,耦接于待测URL提取单元210,从待测URL地址中提取URL片段组合;说明书CN103530337A1210/14页130130由URL片段组合提取单元220从待测URL地址中提取URL片段组合,具体的,可以是由URL片段组合提取单元220从待测URL地址中提取待测URL地址包括的动态文件的文件名以及对应的URL参数,将提取到的动态文件的文件名以及对应的URL参数进行组合,作为URL片段组合。。
46、在URL不同但网页的主体内容相同的页面中,大多是使用了动态网页技术的页面,在这种页面的URL中,常常会包含动态运行的程序文件的文件名,以及所程序所使用的参数。因此可以通过URL片段组合提取单元220提取URL中的动态文件的文件名以及对应的URL参数,进一步的,可以URL片段组合提取单元220将提取到的动态文件名以及各个参数进行组合,作为一个URL片段组合。URL片段组合中的动态文件名以及各个参数,存在对应的关系。0131URL参数检测单元230,耦接于URL片段组合提取单元220,根据无效片段组合列表判断所述URL片段组合中URL参数的有效性。0132通过URL参数检测单元230,可以根据无效。
47、片段组合列表判断所述URL片段组合中URL参数的有效性。其中的无效片段组合列表中,可以保存无效片段组合及组合中动态文件名,和对应的各URL参数的有效性信息。0133在实际应用中无效片段组合列表可以保存一定数量的无效片段组合,URL参数检测单元230,可以以待测URL的URL片段组合查询无效片段组合列表,查询无效片段组合列表中是否存在相匹配的无效片段组合;如存在,则根据相匹配的无效片段组合及其中各URL参数的有效性信息,判断所述URL片段组合中URL参数的有效性。0134这个过程中所使用的无效片段组合列表可以通过以下单元建立如图3所示,URL获取单元310可以获取多个网页链接的URL,并将获取到。
48、的各URL输出到URL片段组合提取单元220,由URL片段组合提取单元220从获取到的URL中从获取到的多个网页链接的URL中分别提取出URL片段组合,统计单元320,可以统计各URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;以及有效性判断单元330,耦接于统计单元320,有效性判断单元330针对各个目标URL片段组合,基于包含有所述目标URL片段组合的URL,对目标URL片段组中各URL参数的有效性进行判断。URL获取单元310获取多个网页链接,建立无效片段组合列表的过程,可以看作是在有限数量的URL中提取URL片段组合,并判断其中各参数是否有效,。
49、从而建立判断样本的过程。其中,对于不经常出现的,或者点击率不高的URL,或含有特定片段组合的URL,可以通过统计单元过滤掉,从而仅利用经常出现的或者点击率较高的URL,或含有特定片段组合的URL生成无效片段组合列表,从而使无效片段组合列表中的无效片段组合更加具有普遍性,以及更广泛的适用性。统计单元320具体可以包括如图4所示的第一统计子单元410,或者如图4所示的第二统计子单元410。0135如图4所示,统计单元320可以包括第一统计子单元410,通过第一统计子单元410统计包含有同一URL片段组合的URL的数目,并将该数目确定为所述URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合。当生成无效片段组合列表达到一定的数目时,第一统计子单元410统计包含有同一URL片段组合的URL的数目,可以理解为该URL片段组合在互联网中出现的频度,数目越多,其出现的频度就越高,从中提取的无效片段组合就越具有广泛的实用性,反之亦然。0136或者,说明书CN103530337A1311/14页140137如图5所示,统计单元320可以包括第二统计子单元420,通过第二统计子单元420统计同一URL片段组合对应的不同互联网位置的数目,将该数目确定为所述URL片段组合的出现频次,并将出现频次符合预置条件的URL片段组合确定为目标URL片段组合;其中,所述互联网位。