自定义动态扩展的暗网爬虫系统.pdf

上传人:王** 文档编号:12128122 上传时间:2021-11-22 格式:PDF 页数:6 大小:345.64KB
收藏 版权申诉 举报 下载
自定义动态扩展的暗网爬虫系统.pdf_第1页
第1页 / 共6页
自定义动态扩展的暗网爬虫系统.pdf_第2页
第2页 / 共6页
自定义动态扩展的暗网爬虫系统.pdf_第3页
第3页 / 共6页
文档描述:

《自定义动态扩展的暗网爬虫系统.pdf》由会员分享,可在线阅读,更多相关《自定义动态扩展的暗网爬虫系统.pdf(6页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910071997.2 (22)申请日 2019.01.25 (71)申请人 中国电子科技集团公司第三十研究 所 地址 610000 四川省成都市高新区创业路6 号 (72)发明人 徐进孙恩博刘义铭郭宇斌 吕泉池陈周国 (74)专利代理机构 成都九鼎天元知识产权代理 有限公司 51214 代理人 刘世权 (51)Int.Cl. G06F 16/951(2019.01) G06F 16/953(2019.01) G06F 16/958(2019.01) (54)发明名称 一种。

2、自定义动态扩展的暗网爬虫系统 (57)摘要 本发明公开了一种自定义动态扩展的暗网 爬虫系统, 包括: 网页解析插件模块, 对各类网页 页面进行解析并将下一级站点链接输入给爬虫 调度器; 爬虫线程模块,负责执行各类网页爬虫 过程; 爬虫调度器模块, 负责网页解析插件模块 与爬虫线程之间的交互; 并发模块, 并发代理连 接站点对网页页面进行下载,并且将网页页面数 据输送给爬虫线程; 负载均衡代理池管理模块: 动态代理服务加载与管理, 提供负载均衡功能。 本发明保证了爬虫系统可用可维护性。 动态加载 tor代理池方式实现多站点页面并行下载, 提高 了爬虫系统完成爬取任务的时间效率。 采用负载 均衡代。

3、理池管理模块, 对各tor代理的爬虫下载 网页任务数量进行实时监控与均衡分配, 实现了 各tor代理的最大化使用。 权利要求书1页 说明书3页 附图1页 CN 109902212 A 2019.06.18 CN 109902212 A 1.一种自定义动态扩展的暗网爬虫系统, 其特征在于, 包括: 网页解析插件模块, 对各类网页页面进行解析并将下一级站点链接输入给爬虫调度 器; 爬虫线程模块,负责执行各类网页爬虫过程; 爬虫调度器模块, 负责网页解析插件模块与爬虫线程之间的交互; 并发模块, 并发代理连接站点对网页页面进行下载,并且将网页页面数据输送给爬虫 线程; 负载均衡代理池管理模块: 动态。

4、代理服务加载与管理, 提供负载均衡功能。 2.根据权利要求1所述的一种自定义动态扩展的暗网爬虫系统, 其特征在于, 爬虫系统 的实现流程如下: S1: 启动爬虫系统; S2: 网页解析插件模块初始化获得初始爬虫站点; S3: 爬虫站点放入爬虫调度器模块中; S4: 爬虫调度器将站点分配给爬虫线程模块; S5: 爬虫线程模块的各爬虫线程经过并发模块并行对各自站点进行代理连接, 同时负 载均衡代理池管理模块将tor代理分配给各爬虫网页下载任务, 并监控各tor代理正在执行 的网页下载数量, 开始下载暗网网页页面; S6: 网页页面通过并发模块传给各自爬虫线程, 并经过爬虫调度器模块传给各自网页 解。

5、析插件模块进行网页解析。 3.根据权利要求2所述的一种自定义动态扩展的暗网爬虫系统, 其特征在于, 它还包括 步骤S7: 获得下一级爬虫站点链接。 4.根据权利要求3所述的一种自定义动态扩展的暗网爬虫系统, 其特征在于: 循环步骤 S3-S7, 直至网页全部爬取完毕。 5.根据权利要求2-4任一所述的一种自定义动态扩展的暗网爬虫系统, 其特征在于: 负 载均衡代理池管理模块根据各tor代理正在执行的网页下载数量, 实时调整tor代理分配的 爬虫网页下载任务, 保证各tor代理执行下载任务的均衡性。 权利要求书 1/1 页 2 CN 109902212 A 2 一种自定义动态扩展的暗网爬虫系统 。

6、技术领域 0001 本发明涉及一种自定义动态扩展的暗网爬虫系统。 背景技术 0002 暗网爬虫技术是挖掘暗网信息的一个关键技术, 现有暗网爬虫系统主要是针对具 体的站点页面, 采用不同的爬虫解析方式, 此种方法的爬虫系统固化, 无法迭代以适应类型 多变的网页数据的缺点, 拓展性较差, 站点变化时需要重新构造解析方法。 同时, 现有的暗 网爬虫系统较关注爬虫解析本身, 并未解决大量站点爬取的时间效率问题。 发明内容 0003 由于暗网站点页面信息量巨大, 对于爬虫系统来说, 一方面暗网采用的是隐匿通 信, 其页面链接速度较慢, 其爬取速度存在很大局限性, 因此爬虫系统需要解决多站点同时 高效率爬。

7、取的问题; 另一方面由于网页信息结构的多样性, 爬虫系统需要具有可维护性, 即 能够根据不同站点的爬虫要求, 对爬虫系统进行拓展。 实现暗网爬虫系统的执行效率和解 析方法可拓展具有重要的研究意义和应用价值, 本发明即解决了爬虫系统的高效以及易拓 展问题。 0004 本发明的目的是通过以下技术方案来实现的: 0005 一种自定义动态扩展的暗网爬虫系统, 包括: 0006 网页解析插件模块, 对各类网页页面进行解析并将下一级站点链接输入给爬虫调 度器; 0007 爬虫线程模块,负责执行各类网页爬虫过程; 0008 爬虫调度器模块, 负责网页解析插件模块与爬虫线程之间的交互; 0009 并发模块, 。

8、并发代理连接站点对网页页面进行下载,并且将网页页面数据输送给 爬虫线程; 0010 负载均衡代理池管理模块: 动态代理服务加载与管理, 提供负载均衡功能。 0011 作为优选方式, 爬虫系统的实现流程如下: 0012 S1: 启动爬虫系统; 0013 S2: 网页解析插件模块初始化获得初始爬虫站点; 0014 S3: 爬虫站点放入爬虫调度器模块中; 0015 S4: 爬虫调度器将站点分配给爬虫线程模块; 0016 S5: 爬虫线程模块的各爬虫线程经过并发模块并行对各自站点进行代理连接, 同 时负载均衡代理池管理模块将tor代理分配给各爬虫网页下载任务, 并监控各tor代理正在 执行的网页下载数。

9、量, 开始下载暗网网页页面; 0017 S6: 网页页面通过并发模块传给各自爬虫线程, 并经过爬虫调度器模块传给各自 网页解析插件模块进行网页解析。 0018 作为优选方式, 它还包括步骤S7: 获得下一级爬虫站点链接。 说明书 1/3 页 3 CN 109902212 A 3 0019 作为优选方式, 循环步骤S3-S7, 直至网页全部爬取完毕。 0020 作为优选方式, 负载均衡代理池管理模块根据各tor代理正在执行的网页下载数 量, 实时调整tor代理分配的爬虫网页下载任务, 保证各tor代理执行下载任务的均衡性。 0021 本发明的有益效果是: 0022 (1)在爬虫的网页解析插件化模。

10、块中采用了灵活的可拓展插件, 对于不同的网站 爬取任务, 无需重新修改爬虫系统的网页解析方法, 只需将当前站点的网页解析插件写入 接口, 即可实现该网站的爬取, 保证了爬虫系统的可用可维护性。 0023 (2)在爬取暗网站点网页时, 采用动态加载tor代理池方式, 实现多站点页面并行 下载, 相比单任务爬取方式, 此种方式大大提高了爬虫系统完成爬取任务的时间效率。 同 时, 采用负载均衡代理池管理模块, 对各tor代理的爬虫下载网页任务数量进行实时监控与 均衡分配, 实现了各tor代理的最大化使用。 附图说明 0024 图1为本方法中暗网爬虫框架实现流程; 0025 图2为一种自定义动态扩展的。

11、暗网爬虫系统框架图。 具体实施方式 0026 下面结合附图进一步详细描述本发明的技术方案, 但本发明的保护范围不局限于 以下所述。 0027 如图1所示, 一种自定义动态扩展的暗网爬虫系统, 包括: 0028 网页解析插件模块, 对各类网页页面进行解析并将下一级站点链接输入给爬虫调 度器; 0029 爬虫线程模块,负责执行各类网页爬虫过程; 0030 爬虫调度器模块, 负责网页解析插件模块与爬虫线程之间的交互; 0031 并发模块, 并发代理连接站点对网页页面进行下载,并且将网页页面数据输送给 爬虫线程; 0032 负载均衡代理池管理模块: 动态代理服务加载与管理, 提供负载均衡功能。 003。

12、3 在一个优选实施例中, 如图2所示, 爬虫系统的实现流程如下: 0034 S1: 启动爬虫系统; 0035 S2: 网页解析插件模块初始化获得初始爬虫站点; 0036 S3: 爬虫站点放入爬虫调度器模块中; 0037 S4: 爬虫调度器将站点分配给爬虫线程模块; 0038 S5: 爬虫线程模块的各爬虫线程经过并发模块并行对各自站点进行代理连接, 同 时负载均衡代理池管理模块将tor代理分配给各爬虫网页下载任务, 并监控各tor代理正在 执行的网页下载数量, 开始下载暗网网页页面; 每个爬虫线程在执行过程中, 通过并发模 块, 使用tor代理池将每个暗网站点进行并发连接, 下载网页页面数据; 。

13、0039 S6: 网页页面通过并发模块传给(爬虫线程模块的)各自爬虫线程, 并经过爬虫调 度器模块传给各自网页解析插件模块进行网页解析。 网页页面数据下载完毕后, 经过并发 模型, 网页数据并行分配给各自爬虫线程, 执行爬虫过程。 在爬虫过程中, 每个网页数据通 说明书 2/3 页 4 CN 109902212 A 4 过爬虫调度器分配给相应的网页解析插件, 开始执行网页解析过程。 0040 在一个优选实施例中, 本发明还包括步骤S7: 获得下一级爬虫站点链接(由网页解 析插件模块解析网页后获得, 如果没有则结束)。 0041 在一个优选实施例中, 循环步骤S3-S7, 直至网页全部爬取完毕。 解析后产生的下 一级站点又分配给爬虫调度器, 循环上述步骤, 直至网页全部爬取完毕。 0042 在一个优选实施例中, 负载均衡代理池管理模块根据各tor代理正在执行的网页 下载数量, 实时调整tor代理分配的爬虫网页下载任务, 保证各tor代理执行下载任务的均 衡性。 0043 以上所述仅为本发明的较佳实施例而已, 并不用以限制本发明, 应当指出的是, 凡 在本发明的精神和原则之内所作的任何修改、 等同替换和改进等, 均应包含在本发明的保 护范围之内。 说明书 3/3 页 5 CN 109902212 A 5 图1 图2 说明书附图 1/1 页 6 CN 109902212 A 6 。

展开阅读全文
内容关键字: 自定义 动态 扩展 爬虫 系统
关于本文
本文标题:自定义动态扩展的暗网爬虫系统.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/12128122.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1