书签 分享 收藏 举报 版权申诉 / 15

一种网页正文提取方法及装置.pdf

  • 上传人:b***
  • 文档编号:1295649
  • 上传时间:2018-04-13
  • 格式:PDF
  • 页数:15
  • 大小:1,004.56KB
  • 摘要
    申请专利号:

    CN201510897907.7

    申请日:

    2015.12.08

    公开号:

    CN106855859A

    公开日:

    2017.06.16

    当前法律状态:

    实审

    有效性:

    审中

    法律详情:

    实质审查的生效IPC(主分类):G06F 17/30申请日:20151208|||公开

    IPC分类号:

    G06F17/30

    主分类号:

    G06F17/30

    申请人:

    北京搜狗科技发展有限公司

    发明人:

    胡又欢; 卞维杰

    地址:

    100084 北京市海淀区中关村东路1号院9号楼搜狐网络大厦9层01房间

    优先权:

    专利代理机构:

    北京华沛德权律师事务所 11302

    代理人:

    马苗苗

    PDF完整版下载: PDF下载
    内容摘要

    本发明公开了一种网页正文提取方法及装置,其通过对至少两个目标网页的正文抽取信息进行比较,并将所述至少两个目标网页的正文抽取信息中比较结果为相同的节点信息确认为网页杂质,所述至少两个目标网页属于同一类型网页;对所述同一类型网页按照所述网页杂质进行杂质信息过滤得到所述网页的正文信息。由于可确定同一类型目标网页的正文抽取信息中的杂质信息,进而根据所述杂质信息,对该同一类型的目标网页的正文抽取信息进行过滤最终可得到更精确的正文信息。

    权利要求书

    1.一种网页正文提取方法,其特征在于,包括:
    对至少两个目标网页的正文抽取信息进行此较,并将所述至少两个目标
    网页的正文抽取信息中此较结果为相同的节点信息确认为网页杂质,所述至
    少两个目标网页属于同一类型网页;
    对所述同一类型网页按照所述网页杂质进行杂质信息过滤得到所述网页
    的正文信息。
    2.根据权利要求1所述的方法,其特征在于,所述对至少两个目标网页
    的正文抽取信息进行此较,并将所述至少两个目标网页的正文抽取信息中此
    较结果为相同的节点信息确认为网页杂质具体包括:
    提取第一个目标网页的正文抽取信息保存到该第一个目标网页所属类型
    对应的数据库中进行初始化;
    提取下一个目标网页的正文抽取信息,并将其中各子节点信息与所述数
    据库中保存的目标网页的正文抽取信息中各子节点信息进行此较,所述下一
    个目标网页与所述第一个目标网页属于同一类型网页;
    将此较结果为相同的子节点信息确认为网页杂质,并将所述下一个目标
    网页的正文抽取信息保存到数据库中;
    返回执行提取下一个目标网页的正文抽取信息的步骤,直至遍历所有目
    标网页。
    3.根据权利要求2所述的方法,其特征在于,还包括:
    对保存到数据库中的所有子节点信息设置对应的计数器;
    根据此较结果,每次将此较结果为相同的子节点信息确定为网页杂质;
    将此较结果为不同的子节点信息的计数器加一,当某个计数器的值达到阈值
    后,数据库中不再保存该计数器对应的子节点信息。
    4.根据权利要求2所述的方法,其特征在于,所述子节点信息包括文本
    信息和/或图片;
    所述将其中各子节点信息与所述数据库中保存的目标网页的正文抽取信
    息中各子节点信息进行此较是以子节点信息的文本信息的哈希编码值和/或
    图片链接信息进行此较。
    5.根据权利要求1所述的方法,其特征在于,还包括:
    对所述网页杂质设置对应的计数器;
    当对所述同一类型网页按照所述网页杂质进行杂质信息过滤时,若所述
    同一类型网页的正文抽取信息中有与所述网页杂质相同的杂质信息时,将对
    应所述网页杂质的计数器清零,若所述同一类型网页的正文抽取信息中没有
    与所述网页杂质相同的杂质信息时,将对应所述网页杂质的计数器加一,当
    某个计数器的值达到阈值后,不再保存该计数器对应的网页杂质。
    6.根据权利要求1所述的方法,其特征在于,所述同一类型网页是属于
    同一微信公众号的网页。
    7.一种网页正文提取装置,其特征在于,包括:
    网页杂质确认处理模块,用于对至少两个目标网页的正文抽取信息进行
    此较,并将所述至少两个目标网页的正文抽取信息中此较结果为相同的节点
    信息确认为网页杂质,所述至少两个目标网页属于同一类型网页;
    过滤处理模块,用于对所述同一类型网页按照所述网页杂质进行杂质信
    息过滤得到所述网页的正文信息。
    8.一种用于网页正文提取的装置,其特征在于,包括有存储器,以及一
    个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经
    配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于
    进行以下操作的指令:
    对至少两个目标网页的正文抽取信息进行此较,并将所述至少两个目标
    网页的正文抽取信息中此较结果为相同的节点信息确认为网页杂质,所述至
    少两个目标网页属于同一类型网页;
    对所述同一类型网页按照所述网页杂质进行杂质信息过滤得到所述网页
    的正文信息。
    9.根据权利要求8所述的装置,其特征在于,还包括,经配置以由一个
    或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作
    的指令:
    提取第一个目标网页的正文抽取信息保存到该第一个目标网页所属类型
    对应的数据库中进行初始化;
    提取下一个目标网页的正文抽取信息,并将其中各子节点信息与所述数
    据库中保存的目标网页的正文抽取信息中各子节点信息进行此较,所述下一
    个目标网页与所述第一个目标网页属于同一类型网页;
    将此较结果为相同的子节点信息确认为网页杂质,并将所述下一个目标
    网页的正文抽取信息保存到数据库中;
    返回执行提取下一个目标网页的正文抽取信息的步骤,直至遍历所有目
    标网页。
    10.根据权利要求9所述的装置,其特征在于,还包括:经配置以由一
    个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操
    作的指令:
    对保存到数据库中的所有子节点信息设置对应的计数器;
    根据此较结果,每次将此较结果为相同的子节点信息确定为网页杂质;
    将此较结果为不同的子节点信息的计数器加一,当某个计数器的值达到阈值
    后,数据库中不再保存该计数器对应的子节点信息。
    11.根据权利要求9所述的装置,其特征在于,还包括:经配置以由一
    个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操
    作的指令:
    所述子节点信息包括文本信息和/或图片;
    所述将其中各子节点信息与所述数据库中保存的目标网页的正文抽取信
    息中各子节点信息进行此较是以子节点信息的文本信息的哈希编码值和/或
    图片链接信息进行此较。
    12.根据权利要求8所述的装置,其特征在于,还包括:经配置以由一
    个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操
    作的指令:
    对所述网页杂质设置对应的计数器;
    当对所述同一类型网页按照所述网页杂质进行杂质信息过滤时,若所述
    同一类型网页的正文抽取信息中有与所述网页杂质相同的杂质信息时,将对
    应所述网页杂质的计数器清零,若所述同一类型网页的正文抽取信息中没有
    与所述网页杂质相同的杂质信息时,将对应所述网页杂质的计数器加一,当
    某个计数器的值达到阈值后,不再保存该计数器对应的网页杂质。
    13.根据权利要求8所述的装置,其特征在于,所述同一类型网页是属
    于同一微信公众号的网页。

    说明书

    一种网页正文提取方法及装置

    技术领域

    本发明涉及互联网技术领域,更具体的说,本发明涉及一种网页正文提
    取方法及装置。

    背景技术

    目前,网页正文提取一般采用基于模板的抽取方式或者基于文字密度抽
    取的方式,即通过选择固定的节点或者根据具有正文特征的节点进行正文抽
    取。一般的,基于节点选取的正文抽取方案,首先通过网页抓取器抓取网页
    的源代码信息,然后将网页的源代码信息构建文档对象模型(DOM,
    Document Object Model)树,然后选取相应的节点提取出正文信息,比如某
    些网页的正文显示区域会固定在一个节点,则只需要找到这个正文节点,然
    后取出这个正文节点下的文本即可,但当需要剔除的杂质信息与正文信息紧
    密排列且在相同正文节点下时,现有技术则无法将杂质信息剔除而得到更精
    确的网页正文信息。

    发明内容

    鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至
    少部分地解决上述问题的一种网页正文抽取方法和相应的装置。

    为了解决上述技术问题,本发明实施例提供的一种网页正文提取方法,
    其包括:

    对至少两个目标网页的正文抽取信息进行比较,并将所述至少两个目标
    网页的正文抽取信息中比较结果为相同的节点信息确认为网页杂质,所述至
    少两个目标网页属于同一类型网页;

    对所述同一类型网页按照所述网页杂质进行杂质信息过滤得到所述网页
    的正文信息。

    其中,所述对至少两个目标网页的正文抽取信息进行比较,并将所述至
    少两个目标网页的正文抽取信息中比较结果为相同的节点信息确认为网页杂
    质具体包括;

    提取第一个目标网页的正文抽取信息保存到该第一个目标网页所属类型
    对应的数据库中进行初始化;

    提取下一个目标网页的正文抽取信息,并将其中各子节点信息与所述数
    据库中保存的目标网页的正文抽取信息中各子节点信息进行比较,所述下一
    个目标网页与所述第一个目标网页属于同一类型网页;

    将比较结果为相同的子节点信息确认为网页杂质,并将所述下一个目标
    网页的正文抽取信息保存到数据库中;

    返回执行提取下一个目标网页的正文抽取信息的步骤,直至遍历所有目
    标网页。

    另外,还包括:

    对保存到数据库中的所有子节点信息设置对应的计数器;

    根据比较结果,每次将比较结果为相同的子节点信息确定为网页杂质;
    将比较结果为不同的子节点信息的计数器加一,当计数器的值达到阈值后,
    数据库中不再保存该计数器对应的子节点信息。

    其中,所述子节点信息包括文本信息和/或图片;

    所述将其中各子节点信息与所述数据库中保存的目标网页的正文抽取信
    息中各子节点信息进行比较是以子节点信息的文本信息的哈希编码值和/或
    图片链接信息进行比较。

    另外,还包括:

    对所述网页杂质设置对应的计数器;

    当对所述同一类型网页按照所述网页杂质进行杂质信息过滤时,若所述
    同一类型网页的正文抽取信息中有与所述网页杂质相同的杂质信息时,将对
    应所述网页杂质的计数器清零,若所述同一类型网页的正文抽取信息中没有
    与所述网页杂质相同的杂质信息时,将对应所述网页杂质的计数器加一,当
    计数器的值达到阈值后,不再保存该计数器对应的网页杂质。

    其中,所述同一类型网页是属于同一微信公众号的网页。

    根据本发明的一方面,本发明实施例提供的一种网页正文提取装置,其
    包括:

    网页杂质确认处理模块,用于对至少两个目标网页的正文抽取信息进行
    比较,并将所述至少两个目标网页的正文抽取信息中比较结果为相同的节点
    信息确认为网页杂质,所述至少两个目标网页属于同一类型网页;

    过滤处理模块,用于对所述同一类型网页按照所述网页杂质进行杂质信
    息过滤得到所述网页的正文信息。

    根据本发明的一方面,本发明实施例提供的一种用于网页正文提取的装
    置,其包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以
    上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一
    个或者一个以上程序包含用于进行以下操作的指令:

    对至少两个目标网页的正文抽取信息进行比较,并将所述至少两个目标
    网页的正文抽取信息中比较结果为相同的节点信息确认为网页杂质,所述至
    少两个目标网页属于同一类型网页;

    对所述同一类型网页按照所述网页杂质进行杂质信息过滤得到所述网页
    的正文信息。

    另外,还包括,经配置以由一个或者一个以上处理器执行所述一个或者
    一个以上程序包含用于进行以下操作的指令:

    提取第一个目标网页的正文抽取信息保存到该第一个目标网页所属类型
    对应的数据库中进行初始化;

    提取下一个目标网页的正文抽取信息,并将其中各子节点信息与所述数
    据库中保存的目标网页的正文抽取信息中各子节点信息进行比较,所述下一
    个目标网页与所述第一个目标网页属于同一类型网页;

    将比较结果为相同的子节点信息确认为网页杂质,并将所述下一个目标
    网页的正文抽取信息保存到数据库中;

    返回执行提取下一个目标网页的正文抽取信息的步骤,直至遍历所有目
    标网页。

    另外,还包括:经配置以由一个或者一个以上处理器执行所述一个或者
    一个以上程序包含用于进行以下操作的指令:

    对保存到数据库中的所有子节点信息设置对应的计数器;

    根据比较结果,每次将比较结果为相同的子节点信息确定为网页杂质;
    将比较结果为不同的子节点信息的计数器加一,当计数器的值达到阈值后,
    数据库中不再保存该计数器对应的子节点信息。

    另外,还包括:经配置以由一个或者一个以上处理器执行所述一个或者
    一个以上程序包含用于进行以下操作的指令:

    所述子节点信息包括文本信息和/或图片;

    所述将其中各子节点信息与所述数据库中保存的目标网页的正文抽取信
    息中各子节点信息进行比较是以子节点信息的文本信息的哈希编码值和/或
    图片链接信息进行比较。

    另外,还包括:经配置以由一个或者一个以上处理器执行所述一个或者
    一个以上程序包含用于进行以下操作的指令:

    对所述网页杂质设置对应的计数器;

    当对所述同一类型网页按照所述网页杂质进行杂质信息过滤时,若所述
    同一类型网页的正文抽取信息中有与所述网页杂质相同的杂质信息时,将对
    应所述网页杂质的计数器清零,若所述同一类型网页的正文抽取信息中没有
    与所述网页杂质相同的杂质信息时,将对应所述网页杂质的计数器加一,当
    计数器的值达到阈值后,不再保存该计数器对应的网页杂质。

    其中,所述同一类型网页是属于同一微信公众号的网页。

    根据本发明实施例提供的网页正文提取方法及装置,其通过对至少两个
    目标网页的正文抽取信息进行比较,并将所述至少两个目标网页的正文抽取
    信息中比较结果为相同的节点信息确认为网页杂质,所述至少两个目标网页
    属于同一类型网页;对所述同一类型网页按照所述网页杂质进行杂质信息过
    滤得到所述网页的正文信息。由于可确定同一类型目标网页的正文抽取信息
    中的杂质信息,进而根据所述杂质信息,对该同一类型的目标网页的正文抽
    取信息进行过滤最终可得到更精确的正文信息。

    附图说明

    为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实
    施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面
    描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员
    来讲,还可以根据这些附图获得其他的附图。

    图1是根据一示例性实施本发明网页正文提取方法的一个流程图;

    图2是根据一示例性实施本发明网页正文提取方法中确认为网页杂质的
    一个流程图;

    图3是根据一示例性实施本发明中XX公众号的一个网页文章示意图;

    图4是根据一示例性实施本发明中XX公众号的另一个网页文章示意图;

    图5是图3和图4的两个网页中两者相同的文本杂质信息示意图;

    图6是图3和图4的两个网页中两者相同的图片杂质信息示意图;

    图7是根据一示例性实施本发明网页正文提取装置的组成示意图;

    图8是根据一示例性实施本发明网页正文提取装置的整体示意图。

    具体实施方式

    下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行
    清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而
    不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的
    所有其他实施例,都属于本发明保护的范围。

    请参阅图1,其为根据一示例性实施本发明网页正文提取方法的流程图。
    本实施例实现网页正文提取的方法主要包括如下步骤:

    步骤S101,对至少两个目标网页的正文抽取信息进行比较,并将所述至
    少两个目标网页的正文抽取信息中比较结果为相同的节点信息确认为网页杂
    质,所述至少两个目标网页属于同一类型网页;

    具体实现时,同一类型网页是指具有相同或类似网页结构的网页,例如,
    同一平台下的网页,如同一微信公众号下的网页或者同一网站下的网页等,
    另外,本实施例中目标网页的正文抽取信息是按照正文节点抽取得到的信息,
    实际中,对目标网页进行正文抽取可采用网页抓取器抓取网页的源代码信息,
    然后通过超文本标记语言(HTML)解析器构建文档对象模型(DOM)树结
    构,选取相应的正文节点即可得到正文抽取信息,实际中也可以采用其他网
    页正文抽取方式,这里不做具体限定。

    另外,本实施例中所述相同的节点信息是指对目标网页进行正文抽取后
    所得到的正文抽取信息中相同的节点信息,如两个目标网页的正文节点中相
    同的某个子节点的文本信息或图片信息,这里不做赘述。

    步骤S102,对所述同一类型网页按照所述网页杂质进行杂质信息过滤得
    到所述网页的正文信息;

    具体实现时,由于同一类型网页的杂质信息是相同的,因此,根据上述
    步骤S101确认的杂质信息,剔除该同一类型网页的正文抽取信息中与该杂
    质信息相同的信息即可得到更精确的正文信息,例如,将步骤S101确认的
    杂质信息作为样本,同一类型的其他网页的正文抽取信息中若有与该作为样
    本的网页杂质相同的信息,则可确认与该样本相同的信息为杂质信息,过滤
    所述杂质信息后即可得到对应该网页更精确的正文信息。

    实际中,该同一类型的网页中网页杂质可能不是固定不变的,即随着时
    间变化,原来的杂质信息可能不再存在,或者可能会有新的杂质信息,因此,
    作为一个实施例,结合图2,上述对至少两个目标网页的正文抽取信息进行
    比较,并将所述至少两个目标网页的正文抽取信息中比较结果为相同的节点
    信息确认为网页杂质可采用如下方式:

    步骤S1011,提取第一个目标网页的正文抽取信息保存到该第一个目标
    网页所属类型对应的数据库中进行初始化;

    具体实现时,例如可首先对该第一个目标网页所述类型建立对应的数据
    库,然后将所述第一个目标网页的正文抽取信息保存到该数据库中进行初始
    化,实际中若正文抽取信息中包括有文本信息和图片,还可以将文本信息和
    图片分别建立对应的数据表以便后续分别进行比较;

    步骤S1012,提取下一个目标网页的正文抽取信息,并将其中各子节点
    信息与所述数据库中保存的目标网页的正文抽取信息中各子节点信息进行比
    较,所述下一个目标网页与所述第一个目标网页属于同一类型网页;

    需要说明的,所述子节点信息中可能包括文本信息,也可能包括图片,
    或者也可能文本信息和图片两者均包括,而为了提高比较的效率,同时也可
    以减少数据库的存储压力,对于文本信息,可将各子节点信息中文本信息按
    照哈希编码为对应的哈希编码值,即数据库中存储的是各子节点信息中文本
    信息对应的哈希编码值,对于图片,可在数据库中存储各子节点信息中图片
    对应的图片链接信息,而上述将其中各子节点信息与所述数据库中保存的目
    标网页的正文抽取信息中各子节点信息进行比较是以子节点信息中文本信息
    的哈希编码值和/或图片链接信息进行比较,这里不再赘述。

    优选的,所述子节点例如可以是DOM树中的叶子节点,叶子节点的区
    域范围内不再包含其他节点,采用叶子节点作为比较的对象能够提高比较的
    精度。

    步骤S1013,将比较结果为相同的子节点信息确认为网页杂质,并将所
    述下一个目标网页的正文抽取信息保存到数据库中;

    具体实现时,若比较结果为相同,则所述相同的子节点信息可确认为网
    页杂质,另外,为了避免遗漏网页杂质或便于提取新的网页杂质,可将所述
    下一个目标网页的正文抽取信息也保存到数据库中;然后可返回执行步骤
    S1012,即继续提取再下一个目标网页的正文抽取信息。

    需要说明的,为了减轻数据库的存储压力,作为一个优选的实施例,还
    可以对数据库中保存的各子节点信息设置对应的计数器;

    根据比较结果,每次将比较结果为相同的子节点信息确定为网页杂质;
    将比较结果为不同的子节点信息的计数器加一,当某个计数器的值达到阈值
    后,数据库中不再保存该计数器对应的子节点信息。

    另外,对于锁定的网页杂质,在经过一段时间后,该类型网页的网页杂
    质可能发生变化,因此,作为一个可选的实施例,还可对所述网页杂质设置
    对应的计数器;步骤S102中当对所述同一类型网页按照所述网页杂质进行
    杂质信息过滤时,若所述同一类型网页的正文抽取信息中有与所述网页杂质
    相同的杂质信息时,将对应所述网页杂质的计数器清零,若所述同一类型网
    页的正文抽取信息中没有与所述网页杂质相同的杂质信息时,将对应所述网
    页杂质的计数器加一,当某个计数器的值达到阈值后,不再保存该计数器对
    应的网页杂质。

    下面以目标网页为微信公众号网页举例进行说明,由于同一微信公众号
    的各个网页文章中的广告信息均会重复利用,即同一微信公众号各个网页文
    章的广告信息均是相同的(或者说在一段时间之内是相同的),该微信公众
    号的网页即是具有相同或相似网页结构的同一类型的网页,由于所述广告信
    息并不是所需要抽取的正文信息,即为杂质信息,本实施例中可根据同一微
    信公众号中广告信息重复的特点,则通过比较某个微信公众号的至少两个目
    标网页的正文抽取信息(例如可以是相邻时间间隔的微信公众号的两篇文章
    的正文抽取信息)就能找出网页杂质,然后剔除该网页杂质信息即可得到更
    精确的正文信息。

    具体实现时,例如首先分析出该微信公众号,对应该微信公众号预先建
    立一个对应的数据库,在数据库中可以存储临时数据和作为样本的网页杂质
    数据等,进行正文抽取时,在数据库中查询是否已经为该微信公众号建立数
    据库,若没有建立,则针对每个微信公众号建立对应的数据库,其中建立两
    张表,一张用于存储正文显示区域的图片信息,一张用于存储正文显示区域
    的文本信息;

    如果数据库属于首次初始化,则将该微信公众号的微信网页文章中各个
    子节点的文本信息进行哈希编码得到的文本哈希编码值以及各个子节点的图
    片链接信息存入数据库;具体实现时,例如将目标网页的正文显示区域选定
    为页面的body节点;将body节点解析成DOM树,将DOM树的各个叶子节点
    的文本信息即中文字符串提取出来进行哈希编码,同时提取各个叶子节点的
    图片链接信息,将各个叶子节点中文本信息的哈希编码值和图片链接信息保
    存到数据库中。

    然后再继续处理该微信公众号下一个微信网页文章,将处理得到的微信
    网页文章中各叶子节点文本信息的哈希编码值和图片链接信息与数据库中已
    存储的数据进行比较,若比较结果为相同则判定该相同的叶子节点信息为网
    页杂质,在数据库中将该相同的叶子节点信息作为网页杂质锁定,并可作为
    样本长期保留,而其他没有被锁定的数据可以删除,即当数据表不是属于首
    次初始化时,可将数据库中没有被锁定的信息清除,这样可减小数据库的存
    储压力,对于锁定的网页杂质可建立对应的计数器,当继续处理该微信公众
    号的后续微信网页文章时,若该网页杂质未被匹配时,计数器加1,成功匹配
    一次计数器则清零,只有当计数器到达一定阈值时才将数据库中该网页杂质
    清除。

    另外,为了便于避免网页杂质遗漏或便于提取新的网页杂质,对于该微
    信公众号进行初始化的第一个微信网页文章保存到数据库中,当该微信公众
    号的第二个微信网页文章与该第一个微信网页文章进行比较锁定一个网页杂
    质后,将数据库中该第一个微信网页文章除网页杂质信息的其他信息清除,
    同时将该微信公众号的第二个微信网页文章的全部信息保存到数据库中,然
    后继续处理该微信公众号的第三个微信网页文章,而所述第三个微信网页文
    章与数据库中的第二个微信网页文章进行比较时,可能会继续找到新的网页
    杂质,即继续下一个该微信公众号的微信网页文章的处理,如此循环处理进
    行网页杂质的锁定,并按照锁定的网页杂质对该微信公众号的微信网页文章
    进行过滤得到更精确的正文信息。

    需要说明的,本实施例中对于锁定的网页杂质数量不设置上限,一旦被
    锁定则可作为网页杂质样本,直到满足该网页杂质对应的计数器达到阈值(即
    达到清除条件)才释放。

    需要说明的,上述第一个微信网页文章、第二个微信网页文章及第三个
    微信网页文章仅是为了便于说明,并不是对本发明的限定。

    下面以一个微信公众号类型的网页提取正文为例子进行说明。

    以XX公众号为例,其中两个网页中的文章分别如图3和图4所示,可以看
    出两个网页中文章的末尾都有用于宣传的广告信息,且两个网页的文章中广
    告信息均是相同的,这种广告信息即为网页杂质信息,且网页杂质信息与正
    文的各个段落同属于一个节点且呈现并列关系,结合图5,本实施例中网页杂
    质信息包括文本信息如图5所示,另外,本实施例中网页杂质信息也包括图片
    杂质信息如图6所示,而实际上该XX公众号的其他网页的文章中也有相同的
    广告信息(即网页杂质信息),但由于微信公众号由微信公众号管理者自定
    义,所以网页节点结构不固定而且网页杂质信息和正文信息混合在一起,以
    固定正文节点去抽取出来的正文信息会包括上述的广告信息,但相同微信公
    众号下的广告信息在一段时间内一般是不会发生变化的,因此,可将上述两
    个网页的正文抽取信息进行比较得到相同的子节点信息可确定为网页杂质信
    息(即图5和图6所示的信息)并作为样本保存,然后再对该XX公众号的其他
    网页进行正文抽取处理时,将抽取得到的正文抽取信息中剔除上述图5所示的
    文本杂质信息以及剔除上述图6所示的图片杂质信息即可得到更精确的正文
    信息。

    下面说明本发明的另一方面。

    参考图7,该图是根据一示例性实施的一种网页正文提取装置的组成示
    意图,本实施例中主要包括:

    网页杂质确认处理模块1,本实施例中网页杂质确认处理模块1主要用
    于对至少两个目标网页的正文抽取信息进行比较,并将所述至少两个目标网
    页的正文抽取信息中比较结果为相同的节点信息确认为网页杂质,所述至少
    两个目标网页属于同一类型网页;

    过滤处理模块2,本实施例中过滤处理模块2主要用于对所述同一类型
    网页按照所述网页杂质进行杂质信息过滤得到所述网页的正文信息。

    需要说明的,关于上述实施例中的装置,其中各个模块执行操作的具体
    方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说
    明。

    图8是根据一示例性实施例示出的一种用于网页正文提取的装置800的
    框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发
    设备,平板设备,个人数字助理等。

    参照图8,装置800可以包括以下一个或多个组件:处理组件802,存储
    器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)
    的接口812,传感器组件814,以及通信组件816。

    处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,
    数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个
    或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,
    处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间
    的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808
    和处理组件802之间的交互。

    存储器804被配置为存储各种类型的数据以支持在设备800的操作。这
    些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联
    系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型
    的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器
    (SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读
    存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),
    磁存储器,快闪存储器,磁盘或光盘。

    电源组件806为装置800的各种组件提供电力。电源组件806可以包括
    电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电
    力相关联的组件。

    多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的
    屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。
    如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入
    信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上
    的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测
    与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组
    件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如
    拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体
    数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有
    焦距和光学变焦能力。

    音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包
    括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式
    和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号
    可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,
    音频组件810还包括一个扬声器,用于输出音频信号。

    I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围
    接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按
    钮、音量按钮、启动按钮和锁定按钮。

    传感器组件814包括一个或多个传感器,用于为装置800提供各个方面
    的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,
    组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件
    814还可以检测装置800或装置800一个组件的位置改变,用户与装置800
    接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传
    感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检
    测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD
    图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814
    还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传
    感器。

    通信组件816被配置为便于装置800和其他设备之间有线或无线方式的
    通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或
    它们的组合。在一个示例性实施例中,通信部件816经由广播信道接收来自
    外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所
    述通信部件816还包括近场通信(NFC)模块,以促进短程通信。例如,在
    NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超
    宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。

    在示例性实施例中,装置800可以被一个或多个应用专用集成电路
    (ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编
    程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微
    处理器或其他电子元件实现,用于执行上述方法。

    在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储
    介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执
    行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、
    随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

    一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终
    端的处理器执行时,使得移动终端能够执行一种网页正文提取方法,所述方
    法包括:

    对至少两个目标网页的正文抽取信息进行比较,并将所述至少两个目标
    网页的正文抽取信息中比较结果为相同的节点信息确认为网页杂质,所述至
    少两个目标网页属于同一类型网页;

    对所述同一类型网页按照所述网页杂质进行杂质信息过滤得到所述网页
    的正文信息。

    本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本
    发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性
    变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公
    开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被
    视为示例性的,本发明的真正范围和精神由下面的权利要求指出。

    应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确
    结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所
    附的权利要求来限制

    以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明
    的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发
    明的保护范围之内。

    关 键  词:
    一种 网页 正文 提取 方法 装置
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:一种网页正文提取方法及装置.pdf
    链接地址:https://www.zhuanlichaxun.net/p-1295649.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1