网站内容抓取系统及其方法.pdf

上传人:姓*** 文档编号:12191250 上传时间:2021-12-11 格式:PDF 页数:8 大小:320.28KB
收藏 版权申诉 举报 下载
网站内容抓取系统及其方法.pdf_第1页
第1页 / 共8页
网站内容抓取系统及其方法.pdf_第2页
第2页 / 共8页
网站内容抓取系统及其方法.pdf_第3页
第3页 / 共8页
文档描述:

《网站内容抓取系统及其方法.pdf》由会员分享,可在线阅读,更多相关《网站内容抓取系统及其方法.pdf(8页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910150616.X (22)申请日 2019.02.28 (71)申请人 安徽腾策网络科技有限公司 地址 230000 安徽省合肥市肥西县桃花镇 松林路与书箱路交口禹洲华侨城三期 荷园11#楼2001室 (72)发明人 鲍康 (74)专利代理机构 上海精晟知识产权代理有限 公司 31253 代理人 冯子玲 (51)Int.Cl. G06F 16/951(2019.01) (54)发明名称 一种网站内容抓取系统及其方法 (57)摘要 本发明公开一种网站内容抓取系统, 包括。

2、内 容划分定位模块、 筛选统筹模块、 模型构建模块、 筛选连接模块、 匹配分析模块和抓取存储模块; 筛选统筹模块分别与模型构建模块和匹配分析 模块连接, 筛选连接模块分别与内容划分定位模 块和匹配分析模块连接, 抓取存储模块分别与匹 配分析模块和模型构建模块连接。 本发明通过内 容划分定位模块对网站中网页进行划分, 并通过 筛选连接模块对划分后的框图进行节点提取、 筛 选, 并通过匹配分析模块并结合筛选连接模块和 筛选统筹模块, 对筛选后的节点与关键字集合进 行匹配度系统统计, 保留大于设定的匹配度阈值 的节点, 并根据保留的节点进行网站内容的抓取 和存储, 提高了网站内容抓取的效率以及准确 。

3、性。 权利要求书2页 说明书4页 附图1页 CN 109857925 A 2019.06.07 CN 109857925 A 1.一种网站内容抓取系统, 其特征在于: 包括内容划分定位模块、 筛选统筹模块、 模型 构建模块、 筛选连接模块、 匹配分析模块和抓取存储模块; 所述内容划分定位模块, 用于对网站中网页文件进行划分, 划分成若干矩形框图, 并对 划分的若干矩形框图按照从上到下以及从左到右的优先顺序进行排序, 分别为1,2,., j,.,m, m表示为划分后的矩形框图的总数量; 所述筛选统筹模块, 用于对待抓取的网站内容进行关键字筛选, 并将筛选后的关键字 构成关键字集合C(c1,c2,。

4、.,cf,.,ch), cf表示为第f个关键字, 所述关键字集合中包含 有各关键字对应的权重系数; 所述模型构建模块, 与筛选统筹模块连接, 用于对筛选后构成的关键字集合中的关键 字以规则表达式进行筛选, 并将筛选出的关键字构成数据建模模型; 所述筛选连接模块, 与内容划分定位模块连接, 对划分后的矩形框图进行节点提取, 并 将提取的节点进行筛选, 且将筛选出的若干节点进行连接, 构成节点连接集合; 所述匹配分析模块, 与筛选连接模块和筛选统筹模块连接, 用于提取筛选连接模块中 各节点对应的网站内容, 并将各节点对应的网站内容与关键字集合进行匹配度系数统计, 判断各节点与关键字集合的匹配度系数。

5、分别与设定的匹配度阈值进行对比, 若节点与关键 字集合的匹配度系数小于设定的匹配度阈值, 则剔除该节点, 反之, 则保留该节点; 所述抓取存储模块, 与匹配分析模块和模型构建模块连接, 统计保留节点的数量, 判断 保留节点的数量是否超过设定的节点数量阈值, 若超过设定的节点数量阈值, 则进行对该 节点所在的网页文本进行标记, 并按数据建模模型对该网页文本进行内容的抓取, 且对抓 取的网站内容进行存储。 2.根据权利要求1所述的一种网站内容抓取系统, 其特征在于: 所述数据建模模型由经 规则表达式筛选出的关键字组成。 3.根据权利要求1所述的一种网站内容抓取系统, 其特征在于: 各关键字对应的权。

6、重系 数分别为kc1,kc2,.,kcf,.,kch, 且kc1+kc2+.+kcf+.+kch1。 4.根据权利要求1所述的一种网站内容抓取系统, 其特征在于: 所述匹配度系数的计算 公式为:cf 表示为节点对应的网站内容与关键字集合中第f 个关键字的对比情况, 若关键字集合中第f个关键字在节点对应的网站内容中出现, 则cf e, 反之, 则cf 等于1, h表示为关键字集合中所有关键字的数量, kcf表示为第f个关键字 对应的权重系数。 5.一种网站内容抓取方法, 其特征在于: 包括以下步骤: S1、 提取网站中待抓取的内容信息, 并对待抓取的内容进行关键字筛选, 筛选出的关键 字构成关键。

7、字集合; S2、 对关键字集合以规则表达式进行筛选, 构成数据建模模型; S3、 根据URL地址抓取网站中网页文件, 分析抓取的网页文件的源代码, 并将抓取的网 页文件对应的源代码按照抓取的时间先后顺序进行排序, 分别为A(a1,a2,.,ai,., an), ai表示为第i个网页文件对应的源代码; 权利要求书 1/2 页 2 CN 109857925 A 2 S4、 依次对各网页文件进行节点筛选, 筛选出若干节点, 并将筛选的节点构成节点连接 集合Bi(bi1,bi2,.,bij,.,bim), bij表示为第i个网页文件对应的第j个节点; S5、 判断各节点对应的网站内容与关键字集合的匹配。

8、度系数, 并将统计的各节点与关 键字集合的匹配度系数分别与设定的匹配度阈值进行对比; S6、 若节点与关键字集合的匹配度系数小于设定的匹配度阈值, 则剔除该节点, 若节点 与关键字集合的匹配度系数大于设定的匹配度阈值, 则保留该节点; S7、 统计保留的节点数量, 若保留的节点数量超过设定的节点数量阈值, 则对该节点所 在的网页文本进行标记; S8、 对标记的网页文本中的数据内容按数据建模模型进行筛选, 筛选出网站中待抓取 的内容, 并将抓取的网站内容进行存储。 权利要求书 2/2 页 3 CN 109857925 A 3 一种网站内容抓取系统及其方法 技术领域 0001 本发明属于网站内容抓。

9、取技术领域, 涉及到一种网站内容抓取系统及其方法。 背景技术 0002 每个网站由若干网页组成, 网页数据抓取是指将非结构化的信息从网站中抓取出 来保存到结构化的数据库中的技术。 目前对于网络数据抓取技术都是采用即时抓取即时使 用, 即: 服务器抓取到数据并经过解析处理后立刻给用户响应。 在对网站内容进行抓取的过 程中, 存在抓取效率低以及准确性差的问题, 导致在抓取的过程中, 数据内容易发生丢失的 问题。 发明内容 0003 本发明的目的在于提供的网站内容抓取系统, 通过匹配分析模块并结合筛选连接 模块和筛选统筹模块, 对筛选后的节点与关键字集合进行匹配度系数统计, 以保留满足要 求的节点,。

10、 并对网站中保留的节点内容进行抓取, 以实现对网站内容的抓取, 解决了抓取效 率低以及准确性差的问题。 0004 本发明的目的可以通过以下技术方案实现: 0005 一种网站内容抓取系统, 包括内容划分定位模块、 筛选统筹模块、 模型构建模块、 筛选连接模块、 匹配分析模块和抓取存储模块; 0006 所述内容划分定位模块, 用于对网站中网页文件进行划分, 划分成若干矩形框图, 并对划分的若干矩形框图按照从上到下以及从左到右的优先顺序进行排序, 分别为1, 2,.,j,.,m, m表示为划分后的矩形框图的总数量; 0007 所述筛选统筹模块, 用于对待抓取的网站内容进行关键字筛选, 并将筛选后的关。

11、 键字构成关键字集合C(c1,c2,.,cf,.,ch), cf表示为第f个关键字, 所述关键字集合中 包含有各关键字对应的权重系数; 0008 所述模型构建模块, 与筛选统筹模块连接, 用于对筛选后构成的关键字集合中的 关键字以规则表达式进行筛选, 并将筛选出的关键字构成数据建模模型; 0009 所述筛选连接模块, 与内容划分定位模块连接, 对划分后的矩形框图进行节点提 取, 并将提取的节点进行筛选, 且将筛选出的若干节点进行连接, 构成节点连接集合; 0010 所述匹配分析模块, 与筛选连接模块和筛选统筹模块连接, 用于提取筛选连接模 块中各节点对应的网站内容, 并将各节点对应的网站内容与。

12、关键字集合进行匹配度系数统 计, 判断各节点与关键字集合的匹配度系数分别与设定的匹配度阈值进行对比, 若节点与 关键字集合的匹配度系数小于设定的匹配度阈值, 则剔除该节点, 反之, 则保留该节点; 0011 所述抓取存储模块, 与匹配分析模块和模型构建模块连接, 统计保留节点的数量, 判断保留节点的数量是否超过设定的节点数量阈值, 若超过设定的节点数量阈值, 则进行 对该节点所在的网页文本进行标记, 并按数据建模模型对该网页文本进行内容的抓取, 且 对抓取的网站内容进行存储。 说明书 1/4 页 4 CN 109857925 A 4 0012 进一步地, 所述数据建模模型由经规则表达式筛选出的。

13、关键字组成。 0013 进一步地, 各关键字对应的权重系数分别为kc1,kc2,.,kcf,.,kch, 且kc1+ kc2+.+kcf+.+kch1。 0014进一步地, 所述匹配度系数的计算公式为:cf 表示 为节点对应的网站内容与关键字集合中第f个关键字的对比情况, 若关键字集合中第f个关 键字在节点对应的网站内容中出现, 则cf e, 反之, 则cf 等于1, h表示为关键字集合中所 有关键字的数量, kcf表示为第f个关键字对应的权重系数。 0015 进一步地, 一种网站内容抓取方法, 包括以下步骤: 0016 S1、 提取网站中待抓取的内容信息, 并对待抓取的内容进行关键字筛选, 。

14、筛选出的 关键字构成关键字集合; 0017 S2、 对关键字集合以规则表达式进行筛选, 构成数据建模模型; 0018 S3、 根据URL地址抓取网站中网页文件, 分析抓取的网页文件的源代码, 并将抓取 的网页文件对应的源代码按照抓取的时间先后顺序进行排序, 分别为A(a1 ,a2,., ai,.,an), ai表示为第i个网页文件对应的源代码; 0019 S4、 依次对各网页文件进行节点筛选, 筛选出若干节点, 并将筛选的节点构成节点 连接集合Bi(bi1,bi2,.,bij,.,bim), bij表示为第i个网页文件对应的第j个节点; 0020 S5、 判断各节点对应的网站内容与关键字集合的。

15、匹配度系数, 并将统计的各节点 与关键字集合的匹配度系数分别与设定的匹配度阈值进行对比; 0021 S6、 若节点与关键字集合的匹配度系数小于设定的匹配度阈值, 则剔除该节点, 若 节点与关键字集合的匹配度系数大于设定的匹配度阈值, 则保留该节点; 0022 S7、 统计保留的节点数量, 若保留的节点数量超过设定的节点数量阈值, 则对该节 点所在的网页文本进行标记; 0023 S8、 对标记的网页文本中的数据内容按数据建模模型进行筛选, 筛选出网站中待 抓取的内容, 并将抓取的网站内容进行存储。 0024 本发明的有益效果: 0025 本发明提供的网站内容抓取系统, 通过内容划分定位模块对网站。

16、中网页进行划 分, 并通过筛选连接模块对划分后的矩形框图进行节点提取, 并进行筛选, 提高了网站内容 筛选的准确性, 具有网站内容相连接的特性; 通过匹配分析模块并结合筛选连接模块和筛 选统筹模块, 对筛选后的节点与关键字集合进行匹配度系统统计, 保留匹配度系数大于设 定的匹配度阈值的节点, 并根据保留的节点进行网站内容的抓取和存储, 提高了网站内容 抓取的效率以及准确性。 附图说明 0026 为了更清楚地说明本发明实施例的技术方案, 下面将对实施例描述所需要使用的 附图作简单地介绍, 显而易见地, 下面描述中的附图仅仅是本发明的一些实施例, 对于本领 域普通技术人员来讲, 在不付出创造性劳动。

17、的前提下, 还可以根据这些附图获得其他的附 说明书 2/4 页 5 CN 109857925 A 5 图。 0027 图1为本发明中一种网站内容抓取系统的示意图。 具体实施方式 0028 下面将结合本发明实施例中的附图, 对本发明实施例中的技术方案进行清楚、 完 整地描述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而不是全部的实施例。 基于 本发明中的实施例, 本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它 实施例, 都属于本发明保护的范围。 0029 请参阅图1所示, 一种网站内容抓取系统, 包括内容划分定位模块、 筛选统筹模块、 模型构建模块、 筛选连接模块、 匹配。

18、分析模块和抓取存储模块; 0030 内容划分定位模块, 用于对网站中网页文件进行划分, 划分成若干矩形框图, 并对 划分的若干矩形框图按照从上到下以及从左到右的优先顺序进行排序, 分别为1,2,., j,.,m, m表示为划分后的矩形框图的总数量; 0031 筛选统筹模块, 用于对待抓取的网站内容进行关键字筛选, 并将筛选后的关键字 构成关键字集合C(c1,c2,.,cf,.,ch), cf表示为第f个关键字, 所述关键字集合中包含 有各关键字对应的权重系数, 各关键字对应的权重系数分别为kc1,kc2,.,kcf,.,kch, 且kc1+kc2+.+kcf+.+kch1; 0032 模型构建。

19、模块, 与筛选统筹模块连接, 用于对筛选后构成的关键字集合中的关键 字以规则表达式进行筛选, 并将筛选出的关键字构成数据建模模型, 所述数据建模模型由 经规则表达式筛选出的关键字组成。 0033 筛选连接模块, 与内容划分定位模块连接, 对划分后的矩形框图进行节点提取, 并 将提取的节点进行筛选, 且将筛选出的若干节点进行连接, 构成节点连接集合, 所述节点分 别与左、 右、 上或下侧的节点连接, 且首个节点分别与右侧和下侧的节点连接, 最后的节点 与左侧和上侧的节点连接。 0034 匹配分析模块, 与筛选连接模块和筛选统筹模块连接, 用于提取筛选连接模块中 各节点对应的网站内容, 并将各节点。

20、对应的网站内容与关键字集合进行匹配度系数统计, 判断各节点与关键字集合的匹配度系数分别与设定的匹配度阈值进行对比, 若节点与关键 字集合的匹配度系数小于设定的匹配度阈值, 则剔除该节点, 反之, 则保留该节点; 0035其中匹配度系数的计算公式为:cf 表示为节点对 应的网站内容与关键字集合中第f个关键字的对比情况, 若关键字集合中第f个关键字在节 点对应的网站内容中出现, 则cf e, 反之, 则cf 等于1, h表示为关键字集合中所有关键字 的数量, kcf表示为第f个关键字对应的权重系数; 0036 抓取存储模块, 与匹配分析模块和模型构建模块连接, 统计保留节点的数量, 判断 保留节点。

21、的数量是否超过设定的节点数量阈值, 若超过设定的节点数量阈值, 则进行对该 节点所在的网页文本进行标记, 并按数据建模模型对该网页文本进行内容的抓取, 且对抓 取的网站内容进行存储。 说明书 3/4 页 6 CN 109857925 A 6 0037 一种网站内容抓取方法, 包括以下步骤: 0038 S1、 提取网站中待抓取的内容信息, 并对待抓取的内容进行关键字筛选, 筛选出的 关键字构成关键字集合; 0039 S2、 对关键字集合以规则表达式进行筛选, 构成数据建模模型; 0040 S3、 根据URL地址抓取网站中网页文件, 分析抓取的网页文件的源代码, 并将抓取 的网页文件对应的源代码按。

22、照抓取的时间先后顺序进行排序, 分别为A(a1 ,a2,., ai,.,an), ai表示为第i个网页文件对应的源代码; 0041 S4、 依次对各网页文件进行节点筛选, 筛选出若干节点, 并将筛选的节点构成节点 连接集合Bi(bi1,bi2,.,bij,.,bim), bij表示为第i个网页文件对应的第j个节点, 其中, 任意一网页文件中所有节点至少与一个节点相连接, 实现节点间的连接; 0042 对网页文本所对应的页面进行矩形图像划分, 划分成若干矩形框图, 每个矩形框 图对应一个节点, 按照上到下以及从左到右的顺序进行编号, 分别为1,2, ., j, ., m, 所 述节点表示为所在矩。

23、形框图中对应的网站内容; 0043 S5、 判断各节点对应的网站内容与关键字集合的匹配度系数, 并将统计的各节点 与关键字集合的匹配度系数分别与设定的匹配度阈值进行对比; 0044 S6、 若节点与关键字集合的匹配度系数小于设定的匹配度阈值, 则剔除该节点, 若 节点与关键字集合的匹配度系数大于设定的匹配度阈值, 则保留该节点; 0045 S7、 统计保留的节点数量, 若保留的节点数量超过设定的节点数量阈值, 则对该节 点所在的网页文本进行标记; 0046 S8、 对标记的网页文本中的数据内容按数据建模模型进行筛选, 筛选出网站中待 抓取的内容, 并将抓取的网站内容进行存储。 0047 本发明。

24、提供的网站内容抓取系统, 通过内容划分定位模块对网站中网页进行划 分, 并通过筛选连接模块对划分后的矩形框图进行节点提取, 并进行筛选, 提高了网站内容 筛选的准确性, 具有网站内容相连接的特性; 通过匹配分析模块并结合筛选连接模块和筛 选统筹模块, 对筛选后的节点与关键字集合进行匹配度系统统计, 保留匹配度系数大于设 定的匹配度阈值的节点, 并根据保留的节点进行网站内容的抓取和存储, 提高了网站内容 抓取的效率以及准确性。 0048 以上内容仅仅是对本发明的构思所作的举例和说明, 所属本技术领域的技术人员 对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代, 只要不偏离发明 的构思或者超越本权利要求书所定义的范围, 均应属于本发明的保护范围。 说明书 4/4 页 7 CN 109857925 A 7 图1 说明书附图 1/1 页 8 CN 109857925 A 8 。

展开阅读全文
内容关键字: 网站 内容 抓取 系统 及其 方法
关于本文
本文标题:网站内容抓取系统及其方法.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/12191250.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1