书签 分享 收藏 举报 版权申诉 / 33

广告物料数据网址验证方法和装置.pdf

  • 上传人:GAME****980
  • 文档编号:6031556
  • 上传时间:2019-04-04
  • 格式:PDF
  • 页数:33
  • 大小:2.22MB
  • 摘要
    申请专利号:

    CN201510484814.1

    申请日:

    2015.08.07

    公开号:

    CN106447367A

    公开日:

    2017.02.22

    当前法律状态:

    实审

    有效性:

    审中

    法律详情:

    实质审查的生效IPC(主分类):G06Q 30/02申请日:20150807|||公开

    IPC分类号:

    G06Q30/02(2012.01)I; G06F17/30

    主分类号:

    G06Q30/02

    申请人:

    北京奇虎科技有限公司; 奇智软件(北京)有限公司

    发明人:

    潘青

    地址:

    100088 北京市西城区新街口外大街28号D座112室(德胜园区)

    优先权:

    专利代理机构:

    北京润泽恒知识产权代理有限公司 11319

    代理人:

    苏培华

    PDF完整版下载: PDF下载
    内容摘要

    本发明公开了一种广告物料数据网址验证方法和装置,涉及广告技术领域。所述方法包括:获取各个未验证的广告物料数据的网址;针对具备同一主域名的网址,根据对各个网址中主域名之后的字符串中的N元组的出现频率,对各个网址进行聚类,获得各个第一分类;所述N元组由所述字符串中连续N个字符组成;对于各个第一分类,抽样选择N个网址进行验证。本发明取得了可以大大减少验证的数据量,并且在某个网址验证出现错误时,可以更精确的定位到相应分类,可以对较小数量该分类的网址再校验,再校验数据量小,效率高的有益效果。

    权利要求书

    1.一种广告物料数据网址验证方法,包括:
    获取各个未验证的广告物料数据的网址;
    针对具备同一主域名的网址,根据对各个网址中主域名之后的字符串中
    的N元组的出现频率,对各个网址进行聚类,获得各个第一分类;所述N
    元组由所述字符串中连续N个字符组成;
    对于各个第一分类,抽样选择N个网址进行验证。
    2.根据权利要求1所述的方法,其特征在于,所述针对具备同一主域
    名的网址,根据对各个网址中主域名之后的字符串中的N元组的出现频率,
    对各个网址进行聚类,获得各个第一分类包括:
    针对每个网址,从主域名之后字符开始,以每个字符串为头部,提取该
    字符串之后的N个字符,得到多个N元组;
    以所述主域名下的网址的个数为基数,统计每个N元组的出现频率;
    在相互关联的多个N元组中,根据出现频率大于频率阈值的N元组,
    构建网址分类模板;
    通过所述网址分类模板,将各个网址进行分类。
    3.根据权利要求2所述的方法,其特征在于,所述从主域名之后字符
    开始,以每个字符串为头部,提取该字符串之后的N个字符,得到多个N
    元组包括:
    将所述主域名之后的字符串中,删除所述字符串中属于网址规则的特殊
    字符,得到第一字符串;
    对于所述第一字符串,以每个字符串为头部,提取该字符串之后的N个
    字符,得到多个N元组。
    4.根据权利要求1所述的方法,其特征在于,所述抽样选择N个网址
    进行验证包括:
    从各个第一分类中抽样选择N个网址;
    根据各个网址所对应的IP地址,将同一IP地址的网址分为一个验证分
    组;
    对获得的各个验证分组,循环对各个验证分组进行验证;其中,对每个
    验证分组进行验证时包括:从所述验证分组中未验证的网址中,选择指定个
    数的网址据进行验证。
    5.根据权利要求4所述的方法,其特征在于,所述对获得的各个验证
    分组,循环对各个验证分组进行验证包括:
    判断是否存在还未验证完毕的验证分组;
    如果存在还未验证完毕的验证分组,则循环选择下一个未验证完毕的验
    证分组以进行验证;其中,最后一个验证分组的下一个验证分组为第一个验
    证分组;
    如果不存在还未验证完毕的验证分组,则验证结束。
    6.根据权利要求5或6所述的方法,其特征在于,所述从所述验证分
    组中未验证的网址中,选择指定个数的网址据进行验证包括:
    从未验证的网址中,逐个选择网址进行验证;
    在每次选择网址后,如果选择的网址达到指定个数并且还存在未验证的
    网址,则转入对下一个验证分组的验证过程;
    如果不存在未验证的网址,则将对应的验证分组退出循环过程,转入对
    下一个验证分组的验证过程。
    7.根据权利要求1所述的方法,其特征在于,所述将各个网址进行验
    证,包括:
    在每个第一分类抽样的N个网址验证时,判断对所述N个网址的验证
    通过率是否达到预设的通过阈值;
    如果对所述N个网址的验证通过率达到预设的通过阈值,则确定对相应
    第一分类的各网址验证通过;
    如果对所述N个网址的验证通过率达未到预设的通过阈值,则重新对所
    述第一分类中的网址进行验证。
    8.根据权利要求7所述的方法,其特征在于,所述重新对所述第一分
    类中的网址进行验证包括:
    对第一分类中再抽样M次进行验证,每次抽样N个网址;
    根据每次对N个网址的验证通过率,计算M次的验证通过率平均值和
    方差;
    如果所述验证通过率平均值达到平均阈值,且方差低于方差阈值,则确
    定所述第一分类的各网址验证通过;
    如果所述验证通过率平均未值达到阈值,和/或方差高于方差阈值,则对
    于所述第一分类的各个网址,重新进行逐个验证。
    9.一种广告物料数据网址验证装置,包括:
    获取模块,适于获取各个未验证的广告物料数据的网址;
    分类模块,适于针对具备同一主域名的网址,根据对各个网址中主域名
    之后的字符串中的N元组的出现频率,对各个网址进行聚类,获得各个第一
    分类;所述N元组由所述字符串中连续N个字符组成;
    抽样验证模块,适于对于各个第一分类,抽样选择N个网址进行验证。
    10.根据权利要求9所述的装置,其特征在于,所述分类模块包括:
    N元组提取模块,适于针对每个网址,从主域名之后字符开始,以每个
    字符串为头部,提取该字符串之后的N个字符,得到多个N元组;
    N元组概率计算模块,适于以所述主域名下的网址的个数为基数,统计
    每个N元组的出现频率;
    模板设置模块,适于在相互关联的多个N元组中,根据出现频率大于频
    率阈值的N元组,构建网址分类模板;
    第一分类模块,适于通过所述网址分类模板,将各个网址进行分类。

    说明书

    广告物料数据网址验证方法和装置

    技术领域

    本发明涉及广告技术领域,具体涉及一种广告物料数据网址验证方法和
    装置。

    背景技术

    对于广告平台,每个广告投放方都会在该广告平台注册一个广告账户,然
    后该商家可以在其客户端中登录广告平台,将其编辑好的各条广告物料数据
    上传至该广告平台中,该广告物料数据可以理解为包括广告内容,该广告内
    容文本、图片等的数据,还包括对应的URL(Uniform Resource Locator,统
    一资源定位符)。在实际应用中,广告平台为了保证上线后可以正常被访问,
    避免广告物料数据出现无法访问的情况,提高广告召回率,广告平台会对所
    有的上传的广告物料数据的网址进行验证。当广告物料数据网址验证为可连
    通之后,广告平台才会将该广告物料数据上线,使其可以被检索以及展示。

    但是,实际应用中,广告平台接收的各个广告投放方上传的广告物料数
    据,其数据量可能在上亿条,而如果要对每个广告物料数据的网址均进行验
    证,其验证量太大,并且速度慢,效率低。

    而如果按照广告物料数据的网址的所在的主域名进行验证,那么由于该
    主域名与主域名下的某些网址可能由于对应的文件位置或者参数的不同,使
    对主域名的验证结果不能完全代表其各个网址的验证结果,该种验证可能存
    在误差。并且如果主域名验证未通过,则需要逐个对该主域名下的各个网址
    逐个进行再次验证,其定位范围太广,导致再次验证的数据量也很庞大。

    发明内容

    鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分
    地解决上述问题的广告物料数据网址验证装置和相应的广告物料数据网址
    验证方法。

    依据本发明的一个方面,公开了一种广告物料数据网址验证方法,包括:

    获取各个未验证的广告物料数据的网址;

    针对具备同一主域名的网址,根据对各个网址中主域名之后的字符串中
    的N元组的出现频率,对各个网址进行聚类,获得各个第一分类;所述N
    元组由所述字符串中连续N个字符组成;

    对于各个第一分类,抽样选择N个网址进行验证。

    优选地,所述针对具备同一主域名的网址,根据对各个网址中主域名之
    后的字符串中的N元组的出现频率,对各个网址进行聚类,获得各个第一分
    类包括:

    针对每个网址,从主域名之后字符开始,以每个字符串为头部,提取该
    字符串之后的N个字符,得到多个N元组;

    以所述主域名下的网址的个数为基数,统计每个N元组的出现频率;

    在相互关联的多个N元组中,根据出现频率大于频率阈值的N元组,
    构建网址分类模板;

    通过所述网址分类模板,将各个网址进行分类。

    优选地,所述从主域名之后字符开始,以每个字符串为头部,提取该字
    符串之后的N个字符,得到多个N元组包括:

    将所述主域名之后的字符串中,删除所述字符串中属于网址规则的特殊
    字符,得到第一字符串;

    对于所述第一字符串,以每个字符串为头部,提取该字符串之后的N个
    字符,得到多个N元组。

    优选地,所述抽样选择N个网址进行验证包括:

    从各个第一分类中抽样选择N个网址;

    根据各个网址所对应的IP地址,将同一IP地址的网址分为一个验证分
    组;

    对获得的各个验证分组,循环对各个验证分组进行验证;其中,对每个
    验证分组进行验证时包括:从所述验证分组中未验证的网址中,选择指定个
    数的网址据进行验证。

    优选地,所述对获得的各个验证分组,循环对各个验证分组进行验证包
    括:

    判断是否存在还未验证完毕的验证分组;

    如果存在还未验证完毕的验证分组,则循环选择下一个未验证完毕的验
    证分组以进行验证;其中,最后一个验证分组的下一个验证分组为第一个验
    证分组;

    如果不存在还未验证完毕的验证分组,则验证结束。

    优选地,所述从所述验证分组中未验证的网址中,选择指定个数的网址
    据进行验证包括:

    从未验证的网址中,逐个选择网址进行验证;

    在每次选择网址后,如果选择的网址达到指定个数并且还存在未验证的
    网址,则转入对下一个验证分组的验证过程;

    如果不存在未验证的网址,则将对应的验证分组退出循环过程,转入对
    下一个验证分组的验证过程。

    优选地,所述将各个网址进行验证,包括:

    在每个第一分类抽样的N个网址验证时,判断对所述N个网址的验证
    通过率是否达到预设的通过阈值;

    如果对所述N个网址的验证通过率达到预设的通过阈值,则确定对相应
    第一分类的各网址验证通过;

    如果对所述N个网址的验证通过率达未到预设的通过阈值,则重新对所
    述第一分类中的网址进行验证。

    优选地,所述重新对所述第一分类中的网址进行验证包括:

    对第一分类中再抽样M次进行验证,每次抽样N个网址;

    根据每次对N个网址的验证通过率,计算M次的验证通过率平均值和
    方差;

    如果所述验证通过率平均值达到平均阈值,且方差低于方差阈值,则确
    定所述第一分类的各网址验证通过;

    如果所述验证通过率平均未值达到阈值,和/或方差高于方差阈值,则对
    于所述第一分类的各个网址,重新进行逐个验证。

    依据本发明的另外一个方面,本发明公开了一种广告物料数据网址验证
    装置,包括:

    获取模块,适于获取各个未验证的广告物料数据的网址;

    分类模块,适于针对具备同一主域名的网址,根据对各个网址中主域名
    之后的字符串中的N元组的出现频率,对各个网址进行聚类,获得各个第一
    分类;所述N元组由所述字符串中连续N个字符组成;

    抽样验证模块,适于对于各个第一分类,抽样选择N个网址进行验证。

    优选地,所述分类模块包括:

    N元组提取模块,适于针对每个网址,从主域名之后字符开始,以每个
    字符串为头部,提取该字符串之后的N个字符,得到多个N元组;

    N元组概率计算模块,适于以所述主域名下的网址的个数为基数,统计
    每个N元组的出现频率;

    模板设置模块,适于在相互关联的多个N元组中,根据出现频率大于频
    率阈值的N元组,构建网址分类模板;

    第一分类模块,适于通过所述网址分类模板,将各个网址进行分类。

    优选地,所述N元组提取模块包括:

    特殊字符删除模块,适于将所述主域名之后的字符串中,删除所述字符
    串中属于网址规则的特殊字符,得到第一字符串;

    第一提取模块,适于对于所述第一字符串,以每个字符串为头部,提取
    该字符串之后的N个字符,得到多个N元组。

    优选地,所述抽样验证模块包括:

    抽样模块,适于从各个第一分类中抽样选择N个网址;

    分组模块,适于根据各个网址所对应的IP地址,将同一IP地址的网址
    分为一个验证分组。

    循环验证模块,适于对获得的各个验证分组,循环对各个验证分组进行
    验证;其中,对每个验证分组进行验证时包括:从所述验证分组中未验证的
    网址中,选择指定个数的网址据进行验证。

    优选地,所述循环验证模块包括:

    循环判断模块,适于判断是否存在还未验证完毕的验证分组;

    循环选择模块,适于如果存在还未验证完毕的验证分组,则循环选择下
    一个未验证完毕的验证分组以进行验证;其中,最后一个验证分组的下一个
    验证分组为第一个验证分组;

    结束模块,适于如果不存在还未验证完毕的验证分组,则验证结束。

    优选地,所述循环验证模块包括:

    逐个提取模块,适于从未验证的网址中,逐个选择网址进行验证;

    第一转入判断模块,适于在每次选择网址后,如果选择的网址达到指定
    个数并且还存在未验证的网址,则转入对下一个验证分组的验证过程;

    第二转入判断模块,适于如果不存在未验证的网址,则将对应的验证分
    组退出循环过程,转入对下一个验证分组的验证过程。

    优选地,所述抽样验证模块包括:

    分类验证判断模块,适于在每个第一分类抽样的N个网址验证时,判断
    对所述N个网址的验证通过率是否达到预设的通过阈值;

    第一通过确认模块,适于如果对所述N个网址的验证通过率达到预设的
    通过阈值,则确定对相应第一分类的各网址验证通过;

    第一重新验证模块,适于如果对所述N个网址的验证通过率达未到预设
    的通过阈值,则重新对所述第一分类中的网址进行验证。

    优选地,所述第一重新验证模块包括:

    再次抽样模块,适于对第一分类中再抽样M次进行验证,每次抽样N
    个网址;

    通过计算模块,适于根据每次对N个网址的验证通过率,计算M次的
    验证通过率平均值和方差;

    第二通过确认模块,适于如果所述验证通过率平均值达到平均阈值,且
    方差低于方差阈值,则确定所述第一分类的各网址验证通过;

    第二重新验证模块,适于如果所述验证通过率平均未值达到阈值,和/
    或方差高于方差阈值,则对于所述第一分类的各个网址,重新进行逐个验证。

    根据本发明的广告物料数据网址验证方法,可以通过对具备同一主域名
    的网址,根据对各个网址中主域名之后的字符串中的N元组的出现频率,对
    各个网址进行聚类,然后从各个聚类结果中抽样N个网址,对各个网址进行
    验证。由此解决了对所有网址进行验证的数据量大、效率低的问题以及对于
    以主域名进行分类时,如果一个网址验证错误,无法快速定位其相对精确的
    位置的问题,取得了可以大大减少验证的数据量,并且在某个网址验证出现
    错误时,可以更精确的定位到相应分类,可以对较小数量该分类的网址再校
    验,再校验数据量小,效率高的有益效果。

    上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技
    术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它
    目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

    附图说明

    通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本
    领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,
    而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示
    相同的部件。在附图中:

    图1示出了根据本发明一个实施例的一种广告物料数据网址验证方法的
    流程示意图;

    图2示出了根据本发明一个实施例的一种广告物料数据网址验证方法的
    流程示意图;

    图2A示出了本发明实施例的IP验证分组示例;

    图3示出了根据本发明一个实施例的一种广告物料数据网址验证方法的
    流程示意图;

    图4示出了根据本发明一个实施例的一种广告物料数据网址验证装置的
    结构示意图;

    图5示出了根据本发明一个实施例的一种广告物料数据网址验证装置的
    结构示意图;

    图6示出了根据本发明一个实施例的一种广告物料数据网址验证装置的
    结构示意图.

    具体实施方式

    下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示
    了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不
    应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地
    理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

    本发明实施例的核心思想之一在于,可以通过对具备同一主域名的网
    址,根据对各个网址中主域名之后的字符串中的N元组的出现频率,对各个
    网址进行聚类,然后从各个聚类结果中抽样N个网址,对各个网址进行验证。
    可以大大减少验证的数据量,并且在某个网址验证出现错误时,可以更精确
    的定位到相应分类,可以对较小数量该分类的网址再校验,再校验数据量小,
    效率高的有益效果。

    实施例一

    参照图1,其示出了本发明实施例一种广告物料数据网址验证方法的流
    程示意图,具体可以包括:

    步骤110,获取各个未验证的广告物料数据的网址;

    本发明实施例应用于广告平台,该广告平台中可以接收各个广告投放方
    注册的广告账户,该广告投放方可以理解为商家。然后各个商家能通过该广告
    账户登录广告平台,在广告账户中上传广告物料数据。

    其中,广告平台可以理解为广告服务器或者广告服务器集群。

    其中,所述广告物料数据可以包括广告内容和URL,该广告内容可以包
    括文本、图片等数据。广告内容用于在客户端的网页中展示具体类容,URL
    用于在用户点击广告内容后引导网页跳转至目标网页。

    对于用户新上传的广告物料数据,广告平台为了使广告物料数据上线之
    后,该广告物料数据被投放到客户端展示以后,当用户点击展示广告物料数
    据时可以正常跳转到相应URL的页面中,保证广告物料数据的有效性。因
    为,如果用户在客户端中点击该展示的广告物料数据之后,该广告物料数据
    的URL不能连通,则实际上该广告物料数据是无效的,对于用户来说浪费
    其时间和操作。

    因此,广告平台需要首先对各个广告物料数据的网址进行连通性验证,
    该网址被验证为可以连通后,然后才能发布到线上。

    在广告平台中,新上传的广告物料数据是存储在基础数据库中,该基础
    数据库存储未验证的广告物料数据。其存储时,还是以广告账户为数据库的
    主键进行存储的。当然,如果对于广告账户,用户在广告账户中设置了多个
    广告分组,然后在广告分组中上传广告物料数据,数据库则以广告账户为一
    级主键,广告组为下一级主键,存储广告物料数据。

    那么,本发明实施例中,本发明实施例可以从上述基础数据库中提取各
    种未验证的广告物料数据的网址。提取时,是按照广告物料数据进行提取的,
    即有多少个广告物料数据,则提取多少个网址,网址的个数与广告物料数据
    的个数一一对应。并且,本发明实施例中,对于提取每个网址会记录其对应
    的广告物料数据。

    步骤120,针对具备同一主域名的网址,根据对各个网址中主域名之后
    的字符串中的N元组的出现频率,对各个网址进行聚类,获得各个第一分类;
    所述N元组由所述字符串中连续N个字符组成;

    对于广告物料数据的网址来说,以
    http://www.aspxfans.com/news/a.html?T=5&ID=2为例,其大致包括如下几个
    部分。

    1.协议信息:该URL的协议部分为“http:”,这代表网页使用的是HTTP
    协议。在Internet中可以使用多种协议,如HTTP,FTP等等本例中使用的
    是HTTP协议。在"HTTP"后面的“//”为分隔符。

    2.主域名信息:该URL的主域名部分为“www.aspxfans.com”。一个URL
    中,也可以使用IP地址作为域名使用。

    3.虚拟目录信息:从域名后的第一个“/”开始到最后一个“/”为止,
    是虚拟目录部分。虚拟目录也不是一个URL必须的部分。本例中的虚拟目
    录是“/news/”。

    5.文件名信息:从域名后的最后一个“/”开始到“?”为止,是文件名
    部分,如果没有“?”,则是从域名后的最后一个“/”开始到“#”为止,是
    文件部分,如果没有“?”和“#”,那么从域名后的最后一个“/”开始到结
    束,都是文件名部分。本例中的文件名是“a.html”。文件名部分也不是一个
    URL必须的部分,如果省略该部分,则使用默认的文件名

    6.参数信息:从“?”开始到“#”为止之间的部分为参数部分,如果没
    有“#”,则从“?”开始到结束都为参数部分。参数部分又称搜索部分、查
    询部分。本例中的参数部分为“T=5&ID=2”。参数可以允许有多个参数,参
    数与参数之间用“&”作为分隔符。其中,参数部分的每个“=”之前,“&”
    之后的部分为参数名,本例中参数名包括T、ID。

    本发明实施例的归类是针对同一主域名下的所有网址,以这些网址的主
    域名之后的字符串部分,从中提取N元组,统计出现频率,以根据这些N
    元组的频率进行聚类。如前述网址中对“/news/a.html?T=5&ID=2”,每次选
    取多个连续的字符组成N元组,可以生成多个N元组。

    然后基于这些N元组,以该主域名下的网址为基数,统计这些N元组
    的出现频率,对于出现频率大于频率阈值的N元组,可以将相应的网址归为
    一类。

    其中,N为大于0的整数,其值可以根据需求设定,一般设为个位数。

    优选地,所述针对具备同一主域名的网址,根据对各个网址中主域名之
    后的字符串中的N元组的出现频率,对各个网址进行聚类,获得各个第一分
    类包括:

    子步骤121,针对每个网址,从主域名之后字符开始,以每个字符串为
    头部,提取该字符串之后的N个字符,得到多个N元组;

    以前述网址为例,假设N为8“/news/a.html?T=5&ID=2”,则可以每个
    字符串为头部,提取该字符串之后的N个字符,作为N元组,按序如
    “/news/a.、”、“news/a.h”、“ews/a.ht”、“ws/a.htm”、“s/a.html”、“s/a.html”
    “/a.html?”、“/a.html?T”等等,那么对于这些N元组,则可以计算其出现
    频率。

    优选地,所述从主域名之后字符开始,以每个字符串为头部,提取该字
    符串之后的N个字符,得到多个N元组,包括:

    子步骤1211,将所述主域名之后的字符串中,删除所述字符串中属于网
    址规则的特殊字符,得到第一字符串;

    在实际应用中,网址规则中,设定了很多具有标识意义的特殊字符,如
    “/”、“.”、“?”、“=”“&”等,这些字符并不是用户自定义的,那么用户
    可以将这些字符删除,保留用户自定义的字符,如前述例子,删除特殊字符
    后得到第一字符串为“newsahtmlT5ID2”。如此,可以减少字符串的长度,
    从而减少N元组的个数,从而可以降低计算量。

    子步骤1212,对于所述第一字符串,以每个字符串为头部,提取该字符
    串之后的N个字符,得到多个N元组。

    在去除特殊字符后的第一字符串中,以每个字符串为头部,提取该字符
    串之后的N个字符,得到多个N元组。那么上述例子的8元组按序如:
    “newsahtm”、“ewsahtml”、“wsahtmlT”、“sahtmlT5”、“ahtmlT5I”、“htmlT5ID”
    “tmlT5ID2”。

    子步骤122,以所述主域名下的网址的个数为基数,统计每个N元组的
    出现频率;

    在同一主域名下的各个网址,可以得到一系列的N元组,那么可以统计
    每个N元组出现的频率。

    比如上述例子“newsahtm”的出现频率为0.8、“ewsahtml”的出现频
    率为0.7、“wsahtmlT”的出现频率为0.65、“sahtmlT5”的出现频率为
    0.4、“ahtmlT5I”的出现频率为0.37、”“htmlT5ID”的出现频率为0.39、
    “tmlT5ID2”出现频率为0.2。

    子步骤123,在相互关联的多个N元组中,根据出现频率大于频率阈值
    的N元组,构建网址分类模板。

    由于按照子步骤121的N元组划分方法,在每个N元组的出现频率计
    算完毕之后,对于相互关联的几个N元组,对于其中出现频率大于频率阈值
    的N元组,可以作为一个分类组合的N元组,如前述“newsahtm”、
    “ewsahtml”、“wsahtmlT”、“sahtmlT5”、“ahtmlT5I”、“htmlT5ID”
    “tmlT5ID2”,假设针对出现频率的阈值为0.5。那么“newsahtm”、“ewsahtml”、
    “wsahtmlT”的出现频率大于0.5,在这一系列相互关联的N元组的网址中,
    设置网址分类模板,比如上述例子得到的分类网址模板类似
    “news/a.html?T*******”,其中*表示可以为任意字符。该网址模板对应主
    域名www.aspxfans.com。

    又例如,对于主域名之后原字符串“asd?fg=hjk”的第一字符串
    “asdfghjk”,假使提取3元组,则有“asd”、“sdf”、“dfg”“fgh”“ghj”、“hjk”。
    如果测试到主域名下,上述3元组的出现频率分别为:0.9、0.8、0.4、0.35、
    0.45、0.6。其对在按序出现g时,频率低于阈值0.5,而在g之后的3元组
    hjk又大于阈值,则可以构建网址分类模板“asd?f**hjk”,将频率低的字符
    以*代替,表示可以匹配任意字符。

    当然,在本发明实施例中,对于一个相互关联的N元组,可以设定个数
    阈值,如果相互关联的N元组中,大于频率阈值的N元组的个数小于上述
    个数阈值,则不采用这几个N元组构建网址分类模板。如果相互关联的N
    元组中,大于频率阈值的N元组的个数大于等于上述个数阈值,则采用这几
    个N元组构建网址分类模板。

    子步骤124,通过所述网址分类模板,将各个网址进行分类。

    那么对于主域名为www.aspxfans.com的网址,将主域名后第一个/之后
    的字符串与上述分类网址模板,如果匹配上“news/a.html?T”,则将这个网
    址划入针对该网址分类模板的第一分类。

    步骤130,对于各个第一分类,抽样选择N个网址进行验证;

    那么对于得到的各个第一分类,可以从中抽样选择N个网址,抽样可以
    按多种规则抽样,比如按第一分类个数的总比例进行抽样,比如从该第一分
    类中抽样5%的网址。当然,抽样可以随机抽样,也可以每隔一定个数抽样。

    在本发明实施例中,对于每个第一分类,会对其进行记录。然后,可由
    广告平台对这些网址进行连通性验证。

    在本发明实施例中,URL的连通性验证,可以根据该URL发起HTTP
    (Hypertext transfer protocol,超文本传送协议)请求,然后根据收到的针对
    该HTTP请求的HTTP响应判断是否连通,连通则验证通过,不连通则验证
    不通过。比如,HTTP响应的4XX系列,和5XX系列的响应都表示不连通,
    2XX系统的响应表示连通。

    其中,在本发明实施例中,对于未分类的单个的网址,可以将其本身作
    为第一分类,然后将其抽取。对于第一分类的个数小于N的分类,则全部抽
    取;对于分类个数大于N的第一分类,则抽取N个。在实际应用在第一分
    类的网址个数很庞大,比如10000条,本发明则可抽取其中的一部分,比如
    设置N为100。N可以根据实际需求设定。

    在本发明实施例在,如果对于一个第一分类的网址,其验证通过率低于
    通过阈值,则需要对该第一分类重新验证,比如再次抽样N个进行验证或者
    逐个重新验证。

    优选地,所述将各个网址进行验证,包括:

    子步骤131,在每个第一分类抽样的N个网址验证时,判断对所述N个
    网址的验证通过率是否达到预设的通过阈值;

    子步骤132,如果对所述N个网址的验证通过率达到预设的通过阈值,
    则确定对相应第一分类的各网址验证通过;

    子步骤133,如果对所述N个网址的验证通过率达未到预设的通过阈值,
    则重新对所述第一分类中的网址进行验证。

    比如,对于一个第一分类,抽样了100个URL进行验证。而预设的针
    对通过率的通过阈值为99%,即该100个URL中的要有99个通过。当然该
    通过率阈值也可以设置其他值,比如100%。本发明实施例不对其加以限制。

    如果通过率达到该通过率阈值,则子步骤132确定对相应第一分类的各
    网址验证通过,不再验证该第一分类的URL。

    如果通过率达未到该通过率阈值,则子步骤133重新对所述第一分类中
    的网址进行验证。

    优选地,所述重新对所述第一分类中的网址进行验证包括:

    子步骤1331,对第一分类中再抽样M次进行验证,每次抽样N个网址;

    在本发明实施例中,如果第一次抽样的N个URL的验证未达到通过率
    阈值,则可重复进行多次验证。即再抽样M次进行M次验证,每次还从该
    第一分类中抽样N个URL。比如再抽样10次,进行10次验证。

    子步骤1332,根据每次对N个网址的验证通过率,计算M次的验证通
    过率平均值和方差;

    那么对于每次抽样的N个URL的验证,其对该N个验证完毕之后会有
    一个验证通过率。而M次验证则有M个验证通过率。

    那么以该M次验证通过率为样本,计算M次验证的验证通过率平均值,
    进一步的可计算M次验证的方差。该方差越低表示波动越小,说明验证越
    稳定。

    那么本发明实施例可以针对验证通过率平均值设置平均值阈值,针对方
    差设置方差阈值。

    子步骤1333,如果所述验证通过率平均值达到平均阈值,且方差低于方
    差阈值,则确定所述第一分类的各网址验证通过;

    子步骤1334,如果所述验证通过率平均未值达到阈值,和/或方差高于
    方差阈值,则对于所述第一分类的各个网址,重新进行逐个验证。

    如果所述验证通过率平均值达到平均阈值,且方差低于方差阈值,则说
    明对该第一分类的网址的验证可信,确定所述第一分类的各网址验证通过。

    如果所述验证通过率平均未值达到阈值,或者方差低于方差阈值,或者
    验证通过率平均未值达到阈值和方差高于方差阈值,则对该第一分类的验证
    不通过,则需要对该第一分类的网址重新进行逐个验证。

    当前,在实际应用中,对于抽样的网址,会标识该网址属于哪个第一分
    类。当在验证过程中某个网址没有验证通过,则通过标识查找其属于的第一
    分类,如果找到其第一分类,说明该第一分类的网址可能还存在不能通过的
    网址,则将该第一分类的网址重新进行连通性验证,保证验证的准确率。

    本发明实施例可以通过对具备同一主域名的网址,根据对各个网址中主
    域名之后的字符串中的N元组的出现频率,对各个网址进行聚类,然后从各
    个聚类结果中抽样N个网址,对各个网址进行验证。可以大大减少验证的数
    据量,并且在某个网址验证出现错误时,可以更精确的定位到相应分类,可
    以对较小数量该分类的网址再校验,再校验数据量小,效率高的有益效果。

    实施例二

    参照图2,其示出了本发明实施例一种广告物料数据网址验证方法的流
    程示意图,具体可以包括:

    步骤210,获取各个未验证的广告物料数据的网址;

    步骤220,针对具备同一主域名的网址,根据对各个网址中主域名之后
    的字符串中的N元组的出现频率,对各个网址进行聚类,获得各个第一分类;
    所述N元组由所述字符串中连续N个字符组成;

    步骤230,对于各个第一分类,抽样选择N个网址;

    步骤240,根据各个网址所对应的IP地址,将同一IP地址的网址分为
    一个验证分组;

    在实际应用中,每个URL有对应的IP地址,那么本发明实施例可以根
    据URL对应的IP地址将各个广告物料数据的网址分组。也可以尽量将指向
    同一网站的广告物料数据的网址分到一个验证分组中。

    优选地,步骤240所述的根据各个网址所对应的IP地址,将同一IP地
    址的网址分为一个验证分组包括:

    子步骤241,根据各个广告物料数据的网址,获取所述网址对应的IP地
    址;

    对于取所述网址对应的IP地址,可以通过如下步骤实现:

    子步骤A11,针对每个URL,构建DNS请求;

    子步骤A12,将DNS请求发送至DNS服务器;

    子步骤A13,接收DNS服务器返回的IP地址,将该IP地址与URL进
    行对应。

    任何一个URL,如果客户端想要访问该URL,那么均需要先通过DNS
    (Domain Name System,域名解析系)获取到其IP地址,然后才能发送具
    体的访问请求到该URL相应的服务器中,以获取URL的资源。

    本发明实施例则由广告平台对每个URL构建DNS请求,然后向DNS
    服务器发送该DNS请求,即可从DNS服务器中获取到对应该URL的IP地
    址。

    当然,本发明实施例中,对于没有获取到IP地址的URL,可以不对其
    进行分类。并且可以认为其连通性验证不通过,因为该URL的查找不到相
    应的IP地址,则无法访问该广告物料数据对应的URL,该URL对应的广告
    物料数据则不能上线。

    子步骤242,将对应同一个IP地址的网址分为一个验证分组。

    每个广告物料数据的网址有对应的IP地址,根据该IP地址对广告物料
    数据的网址进行分组。那么,同一个IP地址的广告物料数据的网址则分到
    同一个验证分组中。如图2A所示,验证分组为IP地址1、IP地址2等,验
    证分组“IP地址1”内,有URL11、URL12、URL13等,验证分组“IP地
    址2”内,有URL21、URL22等。

    优选地,所述根据各个网址所对应的IP地址,将同一IP地址的网址分
    为一个验证分组,包括:

    子步骤243,根据各个的网址中的主域名,将同一主域名的网址分为一
    个第一分组;

    在本发明实施例中,各个第一分类都对应一个主域名,那么对于被分到
    一个第一分类中的网址,获取该分类对应的主域名即可。而对于未分类的网
    址,则可以判断是否已经提取了其同一主域名,如果提取了,则不用提取,
    如果未提取,再提取该网址的主域名。

    然后,可以将具备同一个主域名的URL分到一个第一分组中,每个第
    一分组以相应的主域名进行标识。比如
    http://www.tuniu.com/guide/d-ouzhou-3600/、
    http://www.tuniu.com/g3600/tours-bj-0/、http://www.tuniu.com/g3600/pkg-sh-0/,
    这三个URL就可以分到www.tuniu.com的第一分组中。

    子步骤244,根据每个主域名,获取对应所述主域名的IP地址;

    那么对于上述第一分组,因为每个第一分组有一个主域名,那么可以获
    取该主域名的IP地址。

    在实际应用中,可以针对该主域名构建一个DNS请求,然后将该DNS
    请求发送到DNS服务器,从DNS服务器获取相应的IP地址。

    子步骤245,将对应同一个IP地址的各个第一分组合为一个验证分组。

    在实际应用中,可能很多主域名指向同一个IP地址,那么本发明实施
    例则可以将同一个IP地址的第一分组,合并为同一个验证分组。

    子步骤243-245,先将网址以主域名进行第一次分组,然后只对主域名
    获取IP地址,再以IP地址划分验证分组,可以减少IP地址的获取量,提高
    IP地址的获取速度,降低资源消耗。比如对于前述三个
    http://www.tuniu.com/guide/d-ouzhou-3600/、
    http://www.tuniu.com/g3600/tours-bj-0/、http://www.tuniu.com/g3600/pkg-sh-0/,
    如果直接获取IP地址则需要获取3次,而划分第一分组后,只需要获取
    www.tuniu.com的IP地址即可,如此只需要获取一次IP地址,减少了IP地
    址的获取次数。

    在实际应用中,可能同一个广告投放方有多个IP地址,为了尽量使该
    广告投放的IP地址不在序列中连续存在,可以对各个IP地址的验证分组进
    行随机排序。

    当然,在本发明实施例中,步骤240和步骤250可以在220之前,先对
    所有的网址分到验证分组中,然后再对每个验证分组中的同一主域名的网址
    进行分类。然后从该分类中抽样网址作为检测对象。该验证分组中就包括了
    未分类的网址和抽样的网址。

    步骤250,对获得的各个验证分组,循环对各个验证分组进行验证;其
    中,对每个验证分组进行验证时包括:从所述验证分组中未验证的网址中,
    选择指定个数的网址据进行验证。

    比如有10个验证分组,从第1个分组开始进行验证,从该验证分组选
    择10个未验证广告物料数据的网址进行验证;然后进入第2个验证分组,
    从该验证分组中选择10个未验证的未验证广告物料数据的网址进行验证;
    以此类推,到第10个验证分组之后,再循环到第1个验证分组,继续循环,
    直到所有验证分组的未验证广告物料数据的网址验证完毕。

    当前,如果在验证过程中,某个验证分组中的未验证的未验证广告物料
    数据的网址个数小于指定个数,则选择实际的个数进行验证。

    在本发明实施例中,所述指定个数,可以根据需要进行设定。该指定个
    数的数量级很小,一般不超过百位数。从而可以快速的对各个验证分组进行
    一轮循环。

    当然,对于需要重新验证的第一分类,可以将其独立出来,单独对该第
    一分类进行验证,不再将其加入原来的验证分组中。

    优选地,步骤250所述的对获得的各个验证分组,循环对各个验证分组
    进行验证包括:

    子步骤261,判断是否存在还未验证完毕的验证分组;如果存在还未验
    证完毕的验证分组,则进入步骤262;如果不存在还未验证完毕的验证分组,
    则进入步骤263;

    子步骤262,循环选择下一个未验证完毕的验证分组以进行验证;其中,
    最后一个验证分组的下一个验证分组为第一个验证分组;

    子步骤263,验证结束。

    在本发明实施例中,对于各验证分组,可以先判断是否存在未验证完毕
    的验证分组。其中,所述未验证完毕表示该验证分组中还有未验证的网址;
    如果该验证分组的所有网址都验证过了,则表示对该验证分组验证完毕。

    其中,当对一网址的验证未通过,则查找与所述网址对应的主域名的验
    证结果;如果所述验证结果表示验证通过,则确认所述网址的验证通过。

    在实际应用中,在验证过程中,对于一个验证分组,会对其进行是否验
    证完毕的标记,比如0表示未验证完毕,1表示验证完毕。

    对于初始情况下,每个验证分组都存在未验证的网址,因而每个验证分
    组都被标记为0,则从第一个验证分组开始验证。在对每个验证分组进行验
    证时,从所述验证分组中未验证的网址中,选择指定个数的网址进行验证。

    对一个验证分组进行验证后,如果该验证分组还存在未验证的网址,则
    不改变0,如果不存在未验证的网址,则将0改变为1。

    如此,在循环中,每次对一个验证分组的指定个数的网址验证完之后,
    可转入子步骤261,判断是否存在还未验证完毕的验证分组。当然,在初始
    情况下,即第一次验证第一个验证分组之前,不用判断是否存在还未验证完
    毕的验证分组。

    优选地,所述从所述验证分组中未验证的网址中,选择指定个数的网址
    据进行验证包括:

    子步骤264,从未验证的网址中,逐个选择网址进行验证;

    在本发明实施例中,对于每个验证分组,其未验证的广告物料数据的网
    址是按序排列的,可以理解为各个网址形成一个网址队列。

    本发明实施例在对每个验证分组进行验证时,则逐个从该网址队列中提
    取网址进行验证。比如,对于验证分组A,如果其有100条未验证网址,假
    使指定个数为10。第一次循环到该验证分组时,则提取1-10条网址进行验
    证,第二次循环到该验证分组时,则提取11-20条网址进行验证。其他情况
    以此类推。

    其中,对每个URL进行验证时包括:

    子步骤B11,判断所述对所述网址的验证是否通过:如果对所述网址的
    验证未通过,则进入子步骤B12;

    如果对所述网址的验证通过,则进入子步骤265。

    子步骤B12,查找与所述网址对应的主域名的验证结果,并判断所述验
    证结果是否表示验证通过;如果所述验证结果表示验证通过,则进入子步骤
    B13;

    子步骤B13,确认所述网址的验证通过。

    子步骤B13之后,即可进入子步骤265。

    子步骤265,在每次选择网址后,如果选择的网址达到指定个数并且还
    存在未验证的网址,则转入对下一个验证分组的验证过程;

    对于一个验证分组,由于设定了每次对该验证分组进行验证时,最多只
    能选择指定个数的未验证的网址进行验证。那么当步骤264中,逐个提取网
    址进行验证时,会记录提取的个数,当提取的个数达到指定个数,则会判断
    最后提取的网址之后是否还有未验证的网址,如果有,则说明剩余的网址需
    要等待后续轮次的验证。

    比如前述例子,验证分组A,如果其有100条未验证网址,其相当于1-100
    的队列。假使指定个数为10时。第一次循环到该验证分组后,从该队列中
    逐个提取网址,当提取到第10个,发现还有第11个,则转入对下一个验证
    分组的验证过程,比如验证分组序列中,下一个验证分组为验证分组B,则
    切换到对验证分组B的验证。

    其中,在每次选择网址后,还包括:

    子步骤2651,在每个第一分类抽样的N个网址验证时,判断对所述N
    个网址的验证通过率是否达到预设的通过阈值;

    即每个网址被验证后,判断其所在的第一分类的所抽样的N个网址是否
    验证完毕,如果验证完毕,则计算验证通过率,判断对所述N个网址的验证
    通过率是否达到预设的通过阈值。

    子步骤2652,如果对所述N个网址的验证通过率达到预设的通过阈值,
    则确定对相应第一分类的各网址验证通过;

    子步骤2653,如果对所述N个网址的验证通过率达未到预设的通过阈
    值,则重新对所述第一分类中的网址进行验证。

    比如,对于一个第一分类,抽样了100个URL进行验证。而预设的针
    对通过率的通过阈值为99%,即该100个URL中的要有99个通过。当然该
    通过率阈值也可以设置其他值,比如100%。本发明实施例不对其加以限制。

    如果通过率达到该通过率阈值,则子步骤2652确定对相应第一分类的
    各网址验证通过,不再验证该第一分类的URL。

    如果通过率达未到该通过率阈值,则子步骤2653重新对所述第一分类
    中的网址进行验证。

    优选地,所述重新对所述第一分类中的网址进行验证包括:

    子步骤P11,对第一分类中再抽样M次进行验证,每次抽样N个网址;

    在本发明实施例中,如果第一次抽样的N个URL的验证未达到通过率
    阈值,则可重复进行多次验证。即再抽样M次进行M次验证,每次还从该
    第一分类中抽样N个URL。比如再抽样10次,进行10次验证。

    子步骤P12,根据每次对N个网址的验证通过率,计算M次的验证通
    过率平均值和方差;

    那么对于每次抽样的N个URL的验证,其对该N个验证完毕之后会有
    一个验证通过率。而M次验证则有M个验证通过率。

    那么以该M次验证通过率为样本,计算M次验证的验证通过率平均值,
    进一步的可计算M次验证的方差。该方差越低表示波动越小,说明验证越
    稳定。

    那么本发明实施例可以针对验证通过率平均值设置平均值阈值,针对方
    差设置方差阈值。

    子步骤P13,如果所述验证通过率平均值达到平均阈值,且方差低于方
    差阈值,则确定所述第一分类的各网址验证通过;

    子步骤P14,如果所述验证通过率平均未值达到阈值,和/或方差高于方
    差阈值,则对于所述第一分类的各个网址,重新进行逐个验证。

    如果所述验证通过率平均值达到平均阈值,且方差低于方差阈值,则说
    明对该第一分类的网址的验证可信,确定所述第一分类的各网址验证通过。

    如果所述验证通过率平均未值达到阈值,或者方差低于方差阈值,或者
    验证通过率平均未值达到阈值和方差高于方差阈值,则对该第一分类的验证
    不通过,则需要对该第一分类的网址重新进行逐个验证。

    在本发明实施例中,由于对于每个第一分类,需要根据其抽烟的所有网
    址的验证结果,来判断是否需要对该第一分类进行重新验证,或者确定对所
    述第一分类不再验证。那么对于每次循环,在每个验证分组中记录验证的
    URL是哪个第一分类的,当某个第一分类的URL验证完毕,则进入步骤261
    进行判断。如果需要进行重新验证,则将该验证分组中该第一分类的网址删
    除,而将该第一分类中新的网址加入该验证分组,再继续进行循环验证。

    当然,对于需要重新验证的第一分类,可以将其独立出来,单独对该第
    一分类进行验证,不再将其加入原来的验证分组中。

    子步骤266,如果不存在未验证的网址,则将对应的验证分组退出循环
    过程,转入对下一个验证分组的验证过程。

    比如前述例子,验证分组A,第10次循环到该验证分组后,从该队列
    中的91个开始,逐个提取网址,当提取到第100个,发现没有第101个,
    则表示该验证分组验证完毕,可以将该验证分组退出循环过程,同时,转入
    对下一个验证分组的验证过程。

    又比如,假使验证分组A有98个未验证网址,指定个数为10。从该队
    列中的91个开始,逐个提取网址,当提取到第98个,发现没有第99个,
    只提取了8个,也没达到指定个数10,但是该验证分组A的所有网址也验
    证完毕,则可以将该验证分组退出循环过程同时,转入对下一个验证分组的
    验证过程。

    可以理解,子步骤266中无论是否达到指定个数,即选择的网址个数小
    于或者等于指定个数,当该验证分组的网址验证完毕,将该验证分组退出循
    环过程同时,转入对下一个验证分组的验证过程。

    其中,将验证分组退出循环过程,比如将该验证分组退出验证过程。比
    如原来有A、B、C、D的验证分组序列,验证分组A验证完毕,其退出循
    环过程,则验证分组序列为B、C、D。同时,切换到对验证分组B的验证。
    那么后续的验证则在B、C、D验证分组序列中继续循环。如此,验证分组
    序列的个数越来越少,减少对验证分组的遍历。

    优选地,所述从所述验证分组中未验证的网址中,选择指定个数的网址
    据进行验证。包括:

    子步骤267,在第一时间长度内,从所述验证分组中未验证的网址中,
    选择指定个数的广告物料数据的网址进行验证。

    本发明实施例可以设置每次循环到一个验证分组时,对该验证分组的验
    证时间的长度限制,即所述第一时间长度,同时对该验证分组的验证的网址
    个数,即指定个数。比如,假设第一时间长度为5秒,指定个数为10个,
    循环到验证分组A时,对该验证分组的验证时间在5秒之内验证的网址个数
    不能超过10词。由于每验证一个网址均要向该网址的服务器发送一次验证
    请求。因此,上述方式可保证对同一个IP地址的验证请求的发送次数可以
    不触发该IP地址的防火墙限制。

    因此,本步骤可以在该服务器封禁访问IP的时间和数量的规定之下,
    对该服务器的URL进行验证,从而避免由于服务器对广告平台IP的封禁,
    导致广告物料数据的URL被误判为验证不通过的情况,避免本来可以正常
    上线的广告物料数据无法上线。

    在本发明实施例中,对于验证通过的网址,广告平台会将其该网址对应
    的广告物料数据上线。然后商家即可从网络中查找到该广告物料数据,该广
    告物料数据也可投放个各个客户端。

    本实施例与实施例一类似的步骤原理类似,在此不再详述。

    本发明实施例可以根据广告物料数据的网址所对应的IP地址对各个网
    址进行分组,得到各个验证分组,每个验证分组包括了一系列的广告物料数
    据的网址;然后每次针对一个验证分组的部分网址(比如10个网址)进行
    验证,该验证分组的该部分网址验证完毕之后,则转入下一个验证分组;在
    下一个验证分组中,对下一个验证分组的部分网址进行验证,该部分网址验
    证完毕之后,则转入下一个验证分组;以此类推,到最后一个验证分组验证
    完毕之后,则再循环到第一个,如此循环,直到所有验证分组的不存在未验
    证的网址。

    相对于在先技术中,按照广告账户提取广告物料数据的网址,然后直接
    按照提取顺序进行排序,导致同一个广告账户的广告物料数据的网址在一
    起,使验证时,当某个广告账户的对于广告物料数据的数据量特别庞大时,
    排序在该广告账户之后的广告账户,其广告物料数据的网址则需要等待很长
    时间才能开始验证。尤其是在一个广告投放方在广告平台中的多个广告账户
    中上传了大量的广告物料数据的情况下,对于排序在这这些广告账户之后的
    广告账户,其广告物料数据的网址等待验证的时间更长,相应的广告投放方
    需要非常长时间才能开始看到有广告物料数据上线。在以各个广告投放方位
    单位的验证队列中,在先技术的执行过程相当于数据量较大的广告账户完全
    堵塞了队列,影响后续数据量较小的广告账户的验证。

    本发明实施例可以使各个广告账户的广告物料数据的网址可以有部分
    的快速验证,从而可以有部分的快速上线,使各个广告账户等待上线的时间
    缩短,并且对于广告验证是数量缩小。对于各个广告账户而言,其可以及时
    看到上线的广告物料数据。特别是对于广告物料数据的数据量交小的广告账
    户,较少轮次的循环即可将其广告物料数据的网址全部验证完毕,对于各个
    广告账户来说,从整体上来说,降低了广告账户等待验证的时间,使验证时
    间分散到了各个广告账户中,从而提高了广告物料数据的上线速度。本发明
    实施例可以提高广告平台的公平性和友好性,提高了广告平台的用户体验。

    并且,本发明实施例可以通过对具备同一主域名的网址,根据对各个网
    址中主域名之后的字符串中的N元组的出现频率,对各个网址进行聚类,然
    后从各个聚类结果中抽样N个网址,对各个网址进行验证。可以大大减少验
    证的数据量,并且在某个网址验证出现错误时,可以更精确的定位到相应分
    类,可以对较小数量该分类的网址再校验,再校验数据量小,效率高的有益
    效果。

    实施例三

    参照图3,其示出了本发明实施例一种广告物料数据网址验证方法的流
    程示意图,具体可以包括:

    步骤312,获取各个未验证的广告物料数据的网址;

    步骤314,针对具备同一主域名的网址,根据对各个网址中主域名之后
    的字符串中的N元组的出现频率,对各个网址进行聚类,获得各个第一分类;
    所述N元组由所述字符串中连续N个字符组成;;

    步骤316,对于各个第一分类,抽样选择N个网址;

    步骤318,根据各个网址所对应的IP地址,将同一IP地址的网址分为
    一个验证分组。

    对于步骤310-318,与实施例二相应步骤原理类似,在此不再赘叙。

    步骤320,判断是否存在还未验证完毕的验证分组;如果存在还未验证
    完毕的验证分组,则进入步骤322;,如果不存在还未验证完毕的验证分组,
    则,进入步骤336。

    步骤322,循环选择下一个未验证完毕的验证分组;其中,最后一个验
    证分组的下一个验证分组为第一个验证分组;

    步骤324,从所述验证分组的未验证的网址中,逐个选择网址进行验证;

    步骤326,针对每个广告物料数据的网址,判断所述网址的验证是否通
    过;如果验证未通过,则进入步骤328;如果验证通过,则进入步骤332;

    步骤328,查找与所述网址对应的主域名的验证结果,并判断所述验证
    结果是否表示验证通过;如果所述验证结果表示验证通过,则进入步骤330;
    如果所述验证结果表示验证未通过,则进入步骤332;

    步骤330,确认所述网址的验证通过。

    步骤332,在每次选择网址后,判断当前选择的网址的个数是否达到指
    定个数,以及是否存在未验证的网址;如果选择的网址达到指定个数并且还
    存在未验证的网址,则进入步骤320;如果不存在未验证的网址,则进入步
    骤334;

    如果未达到指定个数,且存在未验证网址,则步骤324继续验证。

    其中,在每次选择网址后,还包括:

    子步骤3241,在每个第一分类抽样的N个网址验证时,判断对所述N
    个网址的验证通过率是否达到预设的通过阈值;

    即每个网址被验证后,判断其所在的第一分类的所抽样的N个网址是否
    验证完毕,如果验证完毕,则计算验证通过率,判断对所述N个网址的验证
    通过率是否达到预设的通过阈值。

    子步骤3242,如果对所述N个网址的验证通过率达到预设的通过阈值,
    则确定对相应第一分类的各网址验证通过;

    子步骤3243,如果对所述N个网址的验证通过率达未到预设的通过阈
    值,则重新对所述第一分类中的网址进行验证。

    比如,对于一个第一分类,抽样了100个URL进行验证。而预设的针
    对通过率的通过阈值为99%,即该100个URL中的要有99个通过。当然该
    通过率阈值也可以设置其他值,比如100%。本发明实施例不对其加以限制。

    如果通过率达到该通过率阈值,则子步骤3242确定对相应第一分类的
    各网址验证通过,不再验证该第一分类的URL。

    如果通过率达未到该通过率阈值,则子步骤32433重新对所述第一分类
    中的网址进行验证。

    优选的,所述重新对所述第一分类中的网址进行验证包括:

    子步骤P31,对第一分类中再抽样M次进行验证,每次抽样N个网址;

    在本发明实施例中,如果第一次抽样的N个URL的验证未达到通过率
    阈值,则可重复进行多次验证。即再抽样M次进行M次验证,每次还从该
    第一分类中抽样N个URL。比如再抽样10次,进行10次验证。

    子步骤P32,根据每次对N个网址的验证通过率,计算M次的验证通
    过率平均值和方差;

    那么对于每次抽样的N个URL的验证,其对该N个验证完毕之后会有
    一个验证通过率。而M次验证则有M个验证通过率。

    那么以该M次验证通过率为样本,计算M次验证的验证通过率平均值,
    进一步的可计算M次验证的方差。该方差越低表示波动越小,说明验证越
    稳定。

    那么本发明实施例可以针对验证通过率平均值设置平均值阈值,针对方
    差设置方差阈值。

    子步骤P33,如果所述验证通过率平均值达到平均阈值,且方差低于方
    差阈值,则确定所述第一分类的各网址验证通过;

    子步骤P34,如果所述验证通过率平均未值达到阈值,和/或方差高于方
    差阈值,则对于所述第一分类的各个网址,重新进行逐个验证。

    如果所述验证通过率平均值达到平均阈值,且方差低于方差阈值,则说
    明对该第一分类的网址的验证可信,确定所述第一分类的各网址验证通过。

    如果所述验证通过率平均未值达到阈值,或者方差低于方差阈值,或者
    验证通过率平均未值达到阈值和方差高于方差阈值,则对该第一分类的验证
    不通过,则需要对该第一分类的网址重新进行逐个验证。

    在本发明实施例中,由于对于每个第一分类,需要根据其抽烟的所有网
    址的验证结果,来判断是否需要对该第一分类进行重新验证,或者确定对所
    述第一分类不再验证。那么对于每次循环,在每个验证分组中记录验证的
    URL是哪个第一分类的,当某个第一分类的URL验证完毕,则进入步骤261
    进行判断。如果需要进行重新验证,则将该验证分组中该第一分类的网址删
    除,而将该第一分类中新的网址加入该验证分组,再继续进行循环验证。

    当然,对于需要重新验证的第一分类,可以将其独立出来,单独对该第
    一分类进行验证,不再将其加入原来的验证分组中。

    步骤334,将对应的验证分组退出循环过程,进入步骤320。

    步骤336,结束验证。

    对于步骤320至步骤336的循环过程,下面以一个示例进行描述:

    比如步骤318得到验证分组序列:IP地址1、IP地址2、IP地址3。其
    中:

    IP地址1中按序有80个未验证URL。

    IP地址2中按序有60个未验证URL。

    IP地址3中按序有35个未验证URL。

    指定个数为10。

    第一轮循环:初始情况下,步骤320判断存在未验证完毕的验证分组IP
    地址1、IP地址2、IP地址3。则步骤322按序选择第一个验证分组:IP地
    址1。步骤322中,逐个从IP地址1中提取1-10的URL进行验证。

    其中,对每个URL验证时,当该URL验证通过则进入步骤332;当该
    URL验证不通过,则进入步骤328。步骤328查找与所述网址对应的主域名
    的验证结果,并判断所述验证结果是否表示验证通过;如果所述主域名的验
    证结果表示验证通过,则进入步骤330,确认所述网址的验证通过进入步骤
    332。如果所述主域名的验证结果表示未通过,则直接进入步骤332。

    在步骤332中,当提取到第10个时,发现第10个不是最后一个网址,
    则转入步骤320。

    步骤320继续判断存在未验证完毕的验证分组:IP地址1、IP地址2、
    IP地址3。则步骤322选择下一个验证分组:IP地址2。步骤324中,逐个
    从IP地址2中提取1-10的网址进行验证。然后经过步骤326-328的步骤。
    进入步骤332之后,当提取到第10个时,发现第10个不是最后一个网址,
    则转入步骤320。

    步骤320继续判断存在未验证完毕的验证分组:IP地址1、IP地址2、
    IP地址3。则步骤322选择下一个验证分组:IP地址3。步骤324中,逐个
    从IP地址3中提取1-10的网址进行验证,然后经过步骤326-328的步骤。
    进入步骤332之后,当提取到第10个时,发现第10个不是最后一个网址,
    则转入步骤320。此时IP地址3是验证分组序列的最后一个,则其下一个验
    证分组则为IP地址1。进入第二轮循环。

    按上述原理类推,进入到第四轮循环后,循环到IP地址3,在步骤332
    中,当提取到第35个时,发现第35个是最后一个网址,则将对应的验证分
    组退出循环过程,转入步骤320。步骤320判断存在未验证完毕的验证分组:
    IP地址1、IP地址2。进入第五轮循环。

    进入第六轮循环后,循环到IP地址2,在步骤332中,当提取到第60
    个时,发现第60个是最后一个网址,则将对应的验证分组退出循环过程,
    转入步骤320。步骤320判断存在未验证完毕的验证分组:IP地址1。进入
    第七轮循环。

    然后就一直对该IP地址1进行验证,直到循环完毕,进入步骤336。

    本发明实施例与实施例一、二类似的步骤原理类似,在此不再赘叙。

    本发明实施例可以使各个广告账户的广告物料数据的网址可以有部分
    的快速验证,从而可以有部分的快速上线,使各个广告账户等待上线的时间
    缩短,并且对于广告验证是数量缩小。对于各个广告账户而言,其可以及时
    看到上线的广告物料数据。特别是对于广告物料数据的数据量交小的广告账
    户,较少轮次的循环即可将其广告物料数据的网址全部验证完毕,对于各个
    广告账户来说,从整体上来说,降低了广告账户等待验证的时间,使验证时
    间分散到了各个广告账户中,从而提高了广告物料数据的上线速度。本发明
    实施例可以提高广告平台的公平性和友好性,提高了广告平台的用户体验。

    并且,本发明实施例可以通过对具备同一主域名的网址,根据对各个网
    址中主域名之后的字符串中的N元组的出现频率,对各个网址进行聚类,然
    后从各个聚类结果中抽样N个网址,对各个网址进行验证。可以大大减少验
    证的数据量,并且在某个网址验证出现错误时,可以更精确的定位到相应分
    类,可以对较小数量该分类的网址再校验,再校验数据量小,效率高的有益
    效果。

    实施例四

    参照图4,其示出了本发明实施例一种广告物料数据网址验证装置的结
    构示意图,具体可以包括:

    获取模块410,适于获取各个未验证的广告物料数据的网址;

    分类模块420,适于针对具备同一主域名的网址,根据对各个网址中主
    域名之后的字符串中的N元组的出现频率,对各个网址进行聚类,获得各个
    第一分类;所述N元组由所述字符串中连续N个字符组成;

    抽样验证模块430,适于对于各个第一分类,抽样选择N个网址进行验
    证。

    优选地,所述分类模块包括:

    N元组提取模块,适于针对每个网址,从主域名之后字符开始,以每个
    字符串为头部,提取该字符串之后的N个字符,得到多个N元组;

    N元组概率计算模块,适于以所述主域名下的网址的个数为基数,统计
    每个N元组的出现频率;

    模板设置模块,适于在相互关联的多个N元组中,根据出现频率大于频
    率阈值的N元组,构建网址分类模板;

    第一分类模块,适于通过所述网址分类模板,将各个网址进行分类。

    优选地,所述N元组提取模块包括:

    特殊字符删除模块,适于将所述主域名之后的字符串中,删除所述字符
    串中属于网址规则的特殊字符,得到第一字符串;

    第一提取模块,适于对于所述第一字符串,以每个字符串为头部,提取
    该字符串之后的N个字符,得到多个N元组。

    优选地,所述抽样验证模块包括:

    分类验证判断模块,适于在每个第一分类抽样的N个网址验证时,判断
    对所述N个网址的验证通过率是否达到预设的通过阈值;

    第一通过确认模块,适于如果对所述N个网址的验证通过率达到预设的
    通过阈值,则确定对相应第一分类的各网址验证通过;

    第一重新验证模块,适于如果对所述N个网址的验证通过率达未到预设
    的通过阈值,则重新对所述第一分类中的网址进行验证。

    优选地,所述第一重新验证模块包括:

    再次抽样模块,适于对第一分类中再抽样M次进行验证,每次抽样N
    个网址;

    通过计算模块,适于根据每次对N个网址的验证通过率,计算M次的
    验证通过率平均值和方差;

    第二通过确认模块,适于如果所述验证通过率平均值达到平均阈值,且
    方差低于方差阈值,则确定所述第一分类的各网址验证通过;

    第二重新验证模块,适于如果所述验证通过率平均未值达到阈值,和/
    或方差高于方差阈值,则对于所述第一分类的各个网址,重新进行逐个验证。

    实施例五

    参照图5,其示出了本发明实施例一种广告物料数据网址验证装置的结
    构示意图,具体可以包括:

    获取模块510,适于获取各个未验证的广告物料数据的网址;

    分类模块520,适于针对具备同一主域名的网址,根据对各个网址中主
    域名之后的字符串中的N元组的出现频率,对各个网址进行聚类,获得各个
    第一分类;所述N元组由所述字符串中连续N个字符组成;

    抽样验证模块530,具体包括:

    抽样模块531,适于对于各个第一分类,抽样选择N个网址;

    IP分组模块532,适于根据各个网址所对应的IP地址,将同一IP
    地址的网址分为一个验证分组;

    循环验证模块533,适于对获得的各个验证分组,循环对各个验证
    分组进行验证;其中,对每个验证分组进行验证时包括:从所述验证分组中
    未验证的网址中,选择指定个数的网址据进行验证。

    优选地,所述循环验证模块包括:

    验证分组判断模块,适于判断是否存在还未验证完毕的验证分组;

    循环选择模块,适于如果存在还未验证完毕的验证分组,则循环选择下
    一个未验证完毕的验证分组以进行验证;其中,最后一个验证分组的下一个
    验证分组为第一个验证分组;

    结束模块,适于如果不存在还未验证完毕的验证分组,则验证结束。

    优选地,所述循环验证模块包括:

    逐个验证模块,适于从未验证的广告物料数据中,逐个选择广告物料数
    据进行验证;

    转入判断模块,适于在每次选择广告物料数据之后,如果选择的广告物
    料数据达到指定个数并且还存在未验证的广告物料数据,则转入对下一个验
    证分组的验证过程;

    退出模块,适于如果不存在未验证的广告物料数据,则将对应的验证分
    组退出循环过程,转入对下一个验证分组的验证过程。

    优选地,所述IP分组模块包括:

    IP地址获取模块,适于根据各个广告物料数据的网址,获取所述网址对
    应的IP地址;

    第一IP分组模块,适于将对应同一个IP地址的网址分为一个验证分组。

    优选地,所述IP分组模块包括:

    主域名分组模块,适于根据各个的网址中的主域名,将同一主域名的网
    址分为一个第一分组;

    主域名IP获取模块,适于根据每个主域名,获取对应所述主域名的IP
    地址;

    第二IP分组模块,适于将对应同一个IP地址的各个第一分组合为一个
    验证分组。

    实施例六

    参照图6,其示出了本发明实施例一种广告物料数据网址验证装置的结
    构示意图,具体可以包括:

    获取模块610,适于获取各个未验证的广告物料数据的网址;

    分类模块620,适于针对具备同一主域名的网址,根据对各个网址中主
    域名之后的字符串中的N元组的出现频率,对各个网址进行聚类,获得各个
    第一分类;所述N元组由所述字符串中连续N个字符组成;

    抽样验证模块630,具体包括:

    抽样模块631,适于对于各个第一分类,抽样选择N个网址;

    IP分组模块632,适于根据各个网址所对应的IP地址,将同一IP
    地址的网址分为一个验证分组;

    循环验证模块633,具体包括:

    验证分组判断模块6331,适于判断是否存在还未验证完毕的验证
    分组;如果存在还未验证完毕的验证分组,则进入循环选择模块6332;如果
    不存在还未验证完毕的验证分组,则进入结束模块6332。

    循环选择模块6332,适于如果存在还未验证完毕的验证分组,则
    循环选择下一个未验证完毕的验证分组以进行验证;其中,最后一个验证分
    组的下一个验证分组为第一个验证分组;

    逐个验证模块6333,适于从未验证的广告物料数据中,逐个选择
    网址进行验证;

    验证判断模块6334,适于针对每个广告物料数据的网址,判断所
    述网址的验证是否通过;如果验证未通过,则进入结果校验模块6334;如果
    验证通过,则进入转入判断模块6336;

    结果校验模块6435,适于查找与所述网址对应的主域名的验证结
    果,判断所述验证结果是否表示验证通过;如果所述验证结果表示验证通过,
    则进入通过确认模块6336;如果所述验证结果表示验证未通过,则进入转入
    判断模块6337;

    通过确认模块6336,确认所述网址的验证通过。

    转入判断模块6337,适于在每次选择网址后,判断当前选择的网
    址的个数是否达到指定个数,以及是否存在未验证的网址;如果选择的广告
    物料数据达到指定个数并且还存在未验证的广告物料数据,则进入验证分组
    判断模块6331;

    退出模块6338,适于如果不存在未验证的广告物料数据,则将对
    应的验证分组退出循环过程,进入验证分组判断模块6331。

    结束模块6339,适于如果不存在还未验证完毕的验证分组,则验
    证结束。

    优选地,所述抽样验证模块包括:

    分类验证判断模块,适于在每个第一分类抽样的N个网址验证时,判断
    对所述N个网址的验证通过率是否达到预设的通过阈值;

    第一通过确认模块,适于如果对所述N个网址的验证通过率达到预设的
    通过阈值,则确定对相应第一分类的各网址验证通过;

    第一重新验证模块,适于如果对所述N个网址的验证通过率达未到预设
    的通过阈值,则重新对所述第一分类中的网址进行验证。

    优选地,所述第一重新验证模块包括:

    再次抽样模块,适于对第一分类中再抽样M次进行验证,每次抽样N
    个网址;

    通过计算模块,适于根据每次对N个网址的验证通过率,计算M次的
    验证通过率平均值和方差;

    第二通过确认模块,适于如果所述验证通过率平均值达到平均阈值,且
    方差低于方差阈值,则确定所述第一分类的各网址验证通过;

    第二重新验证模块,适于如果所述验证通过率平均未值达到阈值,和/
    或方差高于方差阈值,则对于所述第一分类的各个网址,重新进行逐个验证。

    在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固
    有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,
    构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定
    编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,
    并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

    在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本
    发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未
    详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

    类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个
    或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时
    被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开
    的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求
    中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映
    的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循
    具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利
    要求本身都作为本发明的单独实施例。

    本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自
    适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以
    把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可
    以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者
    单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴
    随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或
    者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴
    随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相
    似目的的替代特征来代替。

    此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其
    它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组
    合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权
    利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使
    用。

    本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理
    器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当
    理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据
    本发明实施例的广告物料数据网址验证设备中的一些或者全部部件的一些
    或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或
    者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样
    的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者
    多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信
    号上提供,或者以任何其他形式提供。

    应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,
    并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换
    实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利
    要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位
    于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可
    以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。
    在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一
    个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。
    可将这些单词解释为名称。

    本发明公开了A1、一种广告物料数据网址验证方法,包括:

    获取各个未验证的广告物料数据的网址;

    针对具备同一主域名的网址,根据对各个网址中主域名之后的字符串中
    的N元组的出现频率,对各个网址进行聚类,获得各个第一分类;所述N
    元组由所述字符串中连续N个字符组成;

    对于各个第一分类,抽样选择N个网址进行验证。

    A2、根据A1所述的方法,所述针对具备同一主域名的网址,根据对各
    个网址中主域名之后的字符串中的N元组的出现频率,对各个网址进行聚
    类,获得各个第一分类包括:

    针对每个网址,从主域名之后字符开始,以每个字符串为头部,提取该
    字符串之后的N个字符,得到多个N元组;

    以所述主域名下的网址的个数为基数,统计每个N元组的出现频率;

    在相互关联的多个N元组中,根据出现频率大于频率阈值的N元组,
    构建网址分类模板;

    通过所述网址分类模板,将各个网址进行分类。

    A3、根据A2所述的方法,所述从主域名之后字符开始,以每个字符串
    为头部,提取该字符串之后的N个字符,得到多个N元组包括:

    将所述主域名之后的字符串中,删除所述字符串中属于网址规则的特殊
    字符,得到第一字符串;

    对于所述第一字符串,以每个字符串为头部,提取该字符串之后的N个
    字符,得到多个N元组。

    A4、根据A1所述的方法,所述抽样选择N个网址进行验证包括:

    从各个第一分类中抽样选择N个网址;

    根据各个网址所对应的IP地址,将同一IP地址的网址分为一个验证分
    组;

    对获得的各个验证分组,循环对各个验证分组进行验证;其中,对每个
    验证分组进行验证时包括:从所述验证分组中未验证的网址中,选择指定个
    数的网址据进行验证。

    A5、根据A4所述的方法,所述对获得的各个验证分组,循环对各个验
    证分组进行验证包括:

    判断是否存在还未验证完毕的验证分组;

    如果存在还未验证完毕的验证分组,则循环选择下一个未验证完毕的验
    证分组以进行验证;其中,最后一个验证分组的下一个验证分组为第一个验
    证分组;

    如果不存在还未验证完毕的验证分组,则验证结束。

    A6、根据A5或A6所述的方法,所述从所述验证分组中未验证的网址
    中,选择指定个数的网址据进行验证包括:

    从未验证的网址中,逐个选择网址进行验证;

    在每次选择网址后,如果选择的网址达到指定个数并且还存在未验证的
    网址,则转入对下一个验证分组的验证过程;

    如果不存在未验证的网址,则将对应的验证分组退出循环过程,转入对
    下一个验证分组的验证过程。

    A7、根据A1所述的方法,所述将各个网址进行验证,包括:

    在每个第一分类抽样的N个网址验证时,判断对所述N个网址的验证
    通过率是否达到预设的通过阈值;

    如果对所述N个网址的验证通过率达到预设的通过阈值,则确定对相应
    第一分类的各网址验证通过;

    如果对所述N个网址的验证通过率达未到预设的通过阈值,则重新对所
    述第一分类中的网址进行验证。

    A8、根据A7所述的方法,所述重新对所述第一分类中的网址进行验证
    包括:

    对第一分类中再抽样M次进行验证,每次抽样N个网址;

    根据每次对N个网址的验证通过率,计算M次的验证通过率平均值和
    方差;

    如果所述验证通过率平均值达到平均阈值,且方差低于方差阈值,则确
    定所述第一分类的各网址验证通过;

    如果所述验证通过率平均未值达到阈值,和/或方差高于方差阈值,则对
    于所述第一分类的各个网址,重新进行逐个验证。

    本发明公开了B9、一种广告物料数据网址验证装置,包括:

    获取模块,适于获取各个未验证的广告物料数据的网址;

    分类模块,适于针对具备同一主域名的网址,根据对各个网址中主域名
    之后的字符串中的N元组的出现频率,对各个网址进行聚类,获得各个第一
    分类;所述N元组由所述字符串中连续N个字符组成;

    抽样验证模块,适于对于各个第一分类,抽样选择N个网址进行验证。

    B10、根据B9所述的装置,所述分类模块包括:

    N元组提取模块,适于针对每个网址,从主域名之后字符开始,以每个
    字符串为头部,提取该字符串之后的N个字符,得到多个N元组;

    N元组概率计算模块,适于以所述主域名下的网址的个数为基数,统计
    每个N元组的出现频率;

    模板设置模块,适于在相互关联的多个N元组中,根据出现频率大于频
    率阈值的N元组,构建网址分类模板;

    第一分类模块,适于通过所述网址分类模板,将各个网址进行分类。

    B11、根据B10所述的装置,所述N元组提取模块包括:

    特殊字符删除模块,适于将所述主域名之后的字符串中,删除所述字符
    串中属于网址规则的特殊字符,得到第一字符串;

    第一提取模块,适于对于所述第一字符串,以每个字符串为头部,提取
    该字符串之后的N个字符,得到多个N元组。

    B12、根据B8所述的装置,所述抽样验证模块包括:

    抽样模块,适于从各个第一分类中抽样选择N个网址;

    分组模块,适于根据各个网址所对应的IP地址,将同一IP地址的网址
    分为一个验证分组。

    循环验证模块,适于对获得的各个验证分组,循环对各个验证分组进行
    验证;其中,对每个验证分组进行验证时包括:从所述验证分组中未验证的
    网址中,选择指定个数的网址据进行验证。

    B13、根据B12所述的装置,所述循环验证模块包括:

    循环判断模块,适于判断是否存在还未验证完毕的验证分组;

    循环选择模块,适于如果存在还未验证完毕的验证分组,则循环选择下
    一个未验证完毕的验证分组以进行验证;其中,最后一个验证分组的下一个
    验证分组为第一个验证分组;

    结束模块,适于如果不存在还未验证完毕的验证分组,则验证结束。

    B14、根据B12或B13所述的装置,所述循环验证模块包括:

    逐个提取模块,适于从未验证的网址中,逐个选择网址进行验证;

    第一转入判断模块,适于在每次选择网址后,如果选择的网址达到指定
    个数并且还存在未验证的网址,则转入对下一个验证分组的验证过程;

    第二转入判断模块,适于如果不存在未验证的网址,则将对应的验证分
    组退出循环过程,转入对下一个验证分组的验证过程。

    B15、根据B9所述的装置,所述抽样验证模块包括:

    分类验证判断模块,适于在每个第一分类抽样的N个网址验证时,判断
    对所述N个网址的验证通过率是否达到预设的通过阈值;

    第一通过确认模块,适于如果对所述N个网址的验证通过率达到预设的
    通过阈值,则确定对相应第一分类的各网址验证通过;

    第一重新验证模块,适于如果对所述N个网址的验证通过率达未到预设
    的通过阈值,则重新对所述第一分类中的网址进行验证。

    B16、根据B15所述的装置,所述第一重新验证模块包括:

    再次抽样模块,适于对第一分类中再抽样M次进行验证,每次抽样N
    个网址;

    通过计算模块,适于根据每次对N个网址的验证通过率,计算M次的
    验证通过率平均值和方差;

    第二通过确认模块,适于如果所述验证通过率平均值达到平均阈值,且
    方差低于方差阈值,则确定所述第一分类的各网址验证通过;

    第二重新验证模块,适于如果所述验证通过率平均未值达到阈值,和/
    或方差高于方差阈值,则对于所述第一分类的各个网址,重新进行逐个验证。

    关 键  词:
    广告 物料 数据 网址 验证 方法 装置
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:广告物料数据网址验证方法和装置.pdf
    链接地址:https://www.zhuanlichaxun.net/p-6031556.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1