自定义动态扩展的暗网爬虫系统.pdf
《自定义动态扩展的暗网爬虫系统.pdf》由会员分享,可在线阅读,更多相关《自定义动态扩展的暗网爬虫系统.pdf(6页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910071997.2 (22)申请日 2019.01.25 (71)申请人 中国电子科技集团公司第三十研究 所 地址 610000 四川省成都市高新区创业路6 号 (72)发明人 徐进孙恩博刘义铭郭宇斌 吕泉池陈周国 (74)专利代理机构 成都九鼎天元知识产权代理 有限公司 51214 代理人 刘世权 (51)Int.Cl. G06F 16/951(2019.01) G06F 16/953(2019.01) G06F 16/958(2019.01) (54)发明名称 一种。
2、自定义动态扩展的暗网爬虫系统 (57)摘要 本发明公开了一种自定义动态扩展的暗网 爬虫系统, 包括: 网页解析插件模块, 对各类网页 页面进行解析并将下一级站点链接输入给爬虫 调度器; 爬虫线程模块,负责执行各类网页爬虫 过程; 爬虫调度器模块, 负责网页解析插件模块 与爬虫线程之间的交互; 并发模块, 并发代理连 接站点对网页页面进行下载,并且将网页页面数 据输送给爬虫线程; 负载均衡代理池管理模块: 动态代理服务加载与管理, 提供负载均衡功能。 本发明保证了爬虫系统可用可维护性。 动态加载 tor代理池方式实现多站点页面并行下载, 提高 了爬虫系统完成爬取任务的时间效率。 采用负载 均衡代。
3、理池管理模块, 对各tor代理的爬虫下载 网页任务数量进行实时监控与均衡分配, 实现了 各tor代理的最大化使用。 权利要求书1页 说明书3页 附图1页 CN 109902212 A 2019.06.18 CN 109902212 A 1.一种自定义动态扩展的暗网爬虫系统, 其特征在于, 包括: 网页解析插件模块, 对各类网页页面进行解析并将下一级站点链接输入给爬虫调度 器; 爬虫线程模块,负责执行各类网页爬虫过程; 爬虫调度器模块, 负责网页解析插件模块与爬虫线程之间的交互; 并发模块, 并发代理连接站点对网页页面进行下载,并且将网页页面数据输送给爬虫 线程; 负载均衡代理池管理模块: 动态。
4、代理服务加载与管理, 提供负载均衡功能。 2.根据权利要求1所述的一种自定义动态扩展的暗网爬虫系统, 其特征在于, 爬虫系统 的实现流程如下: S1: 启动爬虫系统; S2: 网页解析插件模块初始化获得初始爬虫站点; S3: 爬虫站点放入爬虫调度器模块中; S4: 爬虫调度器将站点分配给爬虫线程模块; S5: 爬虫线程模块的各爬虫线程经过并发模块并行对各自站点进行代理连接, 同时负 载均衡代理池管理模块将tor代理分配给各爬虫网页下载任务, 并监控各tor代理正在执行 的网页下载数量, 开始下载暗网网页页面; S6: 网页页面通过并发模块传给各自爬虫线程, 并经过爬虫调度器模块传给各自网页 解。
5、析插件模块进行网页解析。 3.根据权利要求2所述的一种自定义动态扩展的暗网爬虫系统, 其特征在于, 它还包括 步骤S7: 获得下一级爬虫站点链接。 4.根据权利要求3所述的一种自定义动态扩展的暗网爬虫系统, 其特征在于: 循环步骤 S3-S7, 直至网页全部爬取完毕。 5.根据权利要求2-4任一所述的一种自定义动态扩展的暗网爬虫系统, 其特征在于: 负 载均衡代理池管理模块根据各tor代理正在执行的网页下载数量, 实时调整tor代理分配的 爬虫网页下载任务, 保证各tor代理执行下载任务的均衡性。 权利要求书 1/1 页 2 CN 109902212 A 2 一种自定义动态扩展的暗网爬虫系统 。
6、技术领域 0001 本发明涉及一种自定义动态扩展的暗网爬虫系统。 背景技术 0002 暗网爬虫技术是挖掘暗网信息的一个关键技术, 现有暗网爬虫系统主要是针对具 体的站点页面, 采用不同的爬虫解析方式, 此种方法的爬虫系统固化, 无法迭代以适应类型 多变的网页数据的缺点, 拓展性较差, 站点变化时需要重新构造解析方法。 同时, 现有的暗 网爬虫系统较关注爬虫解析本身, 并未解决大量站点爬取的时间效率问题。 发明内容 0003 由于暗网站点页面信息量巨大, 对于爬虫系统来说, 一方面暗网采用的是隐匿通 信, 其页面链接速度较慢, 其爬取速度存在很大局限性, 因此爬虫系统需要解决多站点同时 高效率爬。
7、取的问题; 另一方面由于网页信息结构的多样性, 爬虫系统需要具有可维护性, 即 能够根据不同站点的爬虫要求, 对爬虫系统进行拓展。 实现暗网爬虫系统的执行效率和解 析方法可拓展具有重要的研究意义和应用价值, 本发明即解决了爬虫系统的高效以及易拓 展问题。 0004 本发明的目的是通过以下技术方案来实现的: 0005 一种自定义动态扩展的暗网爬虫系统, 包括: 0006 网页解析插件模块, 对各类网页页面进行解析并将下一级站点链接输入给爬虫调 度器; 0007 爬虫线程模块,负责执行各类网页爬虫过程; 0008 爬虫调度器模块, 负责网页解析插件模块与爬虫线程之间的交互; 0009 并发模块, 。
8、并发代理连接站点对网页页面进行下载,并且将网页页面数据输送给 爬虫线程; 0010 负载均衡代理池管理模块: 动态代理服务加载与管理, 提供负载均衡功能。 0011 作为优选方式, 爬虫系统的实现流程如下: 0012 S1: 启动爬虫系统; 0013 S2: 网页解析插件模块初始化获得初始爬虫站点; 0014 S3: 爬虫站点放入爬虫调度器模块中; 0015 S4: 爬虫调度器将站点分配给爬虫线程模块; 0016 S5: 爬虫线程模块的各爬虫线程经过并发模块并行对各自站点进行代理连接, 同 时负载均衡代理池管理模块将tor代理分配给各爬虫网页下载任务, 并监控各tor代理正在 执行的网页下载数。
9、量, 开始下载暗网网页页面; 0017 S6: 网页页面通过并发模块传给各自爬虫线程, 并经过爬虫调度器模块传给各自 网页解析插件模块进行网页解析。 0018 作为优选方式, 它还包括步骤S7: 获得下一级爬虫站点链接。 说明书 1/3 页 3 CN 109902212 A 3 0019 作为优选方式, 循环步骤S3-S7, 直至网页全部爬取完毕。 0020 作为优选方式, 负载均衡代理池管理模块根据各tor代理正在执行的网页下载数 量, 实时调整tor代理分配的爬虫网页下载任务, 保证各tor代理执行下载任务的均衡性。 0021 本发明的有益效果是: 0022 (1)在爬虫的网页解析插件化模。
10、块中采用了灵活的可拓展插件, 对于不同的网站 爬取任务, 无需重新修改爬虫系统的网页解析方法, 只需将当前站点的网页解析插件写入 接口, 即可实现该网站的爬取, 保证了爬虫系统的可用可维护性。 0023 (2)在爬取暗网站点网页时, 采用动态加载tor代理池方式, 实现多站点页面并行 下载, 相比单任务爬取方式, 此种方式大大提高了爬虫系统完成爬取任务的时间效率。 同 时, 采用负载均衡代理池管理模块, 对各tor代理的爬虫下载网页任务数量进行实时监控与 均衡分配, 实现了各tor代理的最大化使用。 附图说明 0024 图1为本方法中暗网爬虫框架实现流程; 0025 图2为一种自定义动态扩展的。
11、暗网爬虫系统框架图。 具体实施方式 0026 下面结合附图进一步详细描述本发明的技术方案, 但本发明的保护范围不局限于 以下所述。 0027 如图1所示, 一种自定义动态扩展的暗网爬虫系统, 包括: 0028 网页解析插件模块, 对各类网页页面进行解析并将下一级站点链接输入给爬虫调 度器; 0029 爬虫线程模块,负责执行各类网页爬虫过程; 0030 爬虫调度器模块, 负责网页解析插件模块与爬虫线程之间的交互; 0031 并发模块, 并发代理连接站点对网页页面进行下载,并且将网页页面数据输送给 爬虫线程; 0032 负载均衡代理池管理模块: 动态代理服务加载与管理, 提供负载均衡功能。 003。
12、3 在一个优选实施例中, 如图2所示, 爬虫系统的实现流程如下: 0034 S1: 启动爬虫系统; 0035 S2: 网页解析插件模块初始化获得初始爬虫站点; 0036 S3: 爬虫站点放入爬虫调度器模块中; 0037 S4: 爬虫调度器将站点分配给爬虫线程模块; 0038 S5: 爬虫线程模块的各爬虫线程经过并发模块并行对各自站点进行代理连接, 同 时负载均衡代理池管理模块将tor代理分配给各爬虫网页下载任务, 并监控各tor代理正在 执行的网页下载数量, 开始下载暗网网页页面; 每个爬虫线程在执行过程中, 通过并发模 块, 使用tor代理池将每个暗网站点进行并发连接, 下载网页页面数据; 。
13、0039 S6: 网页页面通过并发模块传给(爬虫线程模块的)各自爬虫线程, 并经过爬虫调 度器模块传给各自网页解析插件模块进行网页解析。 网页页面数据下载完毕后, 经过并发 模型, 网页数据并行分配给各自爬虫线程, 执行爬虫过程。 在爬虫过程中, 每个网页数据通 说明书 2/3 页 4 CN 109902212 A 4 过爬虫调度器分配给相应的网页解析插件, 开始执行网页解析过程。 0040 在一个优选实施例中, 本发明还包括步骤S7: 获得下一级爬虫站点链接(由网页解 析插件模块解析网页后获得, 如果没有则结束)。 0041 在一个优选实施例中, 循环步骤S3-S7, 直至网页全部爬取完毕。 解析后产生的下 一级站点又分配给爬虫调度器, 循环上述步骤, 直至网页全部爬取完毕。 0042 在一个优选实施例中, 负载均衡代理池管理模块根据各tor代理正在执行的网页 下载数量, 实时调整tor代理分配的爬虫网页下载任务, 保证各tor代理执行下载任务的均 衡性。 0043 以上所述仅为本发明的较佳实施例而已, 并不用以限制本发明, 应当指出的是, 凡 在本发明的精神和原则之内所作的任何修改、 等同替换和改进等, 均应包含在本发明的保 护范围之内。 说明书 3/3 页 5 CN 109902212 A 5 图1 图2 说明书附图 1/1 页 6 CN 109902212 A 6 。
- 内容关键字: 自定义 动态 扩展 爬虫 系统
便于组装的铝单板及其成型加工装置.pdf
水藻打捞装置.pdf
无缝针织内衣机针盘弹性让位式导纱装置.pdf
自动化的农作物运输储存设备.pdf
应用于电缆井的边缘物联代理装置.pdf
机电一体化实训设备.pdf
双层折叠式无线充电设备.pdf
撬装式压裂液混合装置.pdf
适应地基不均匀沉降的支座.pdf
墙面打磨设备.pdf
适用于网条拉伸试验的夹具工装.pdf
污水处理过滤装置.pdf
干式变压器拉板.pdf
工业密集区空气粉尘检测装置.pdf
物料上下转运夹持机械手.pdf
具有收集结构的地质取样器.pdf
机车装配自动化车.pdf
燃气阀流量控制安全结构.pdf
可正反转的风扇灯.pdf
有效保护石墨鳞片特性的球磨系统.pdf
反渗透膜气密性检测装置.pdf
方便更换的除尘滤芯.pdf
棋类设备.pdf
秦皮甲素在提高水曲柳抗旱能力中的应用.pdf
针对Ceph文件的读取方法、装置、服务器及存储介质.pdf
分布式电表采集系统及采集方法.pdf
用于幼教的智慧教学管理系统及方法.pdf
具有硬质镀层的活塞环及其制备方法.pdf
对准标记及图形对准方法.pdf
输出功率的调整方法及美容仪、存储介质、电子设备.pdf
冷氢化生产系统装置及生产工艺.pdf
基于PLC和图像识别的电子围栏安全系统及其控制方法.pdf
一种重组糖苷水解酶用于生物转化制备人参二醇型皂苷的工艺.pdf
一种基于激光制造技术的随形冷却装置制造方法.pdf
用于提供基于实时通勤活动的应用引擎的方法和装置.pdf
一种低成本塑料容器.pdf
发泡酚醛树脂的制备方法.pdf
一种使植鞣革柔软的酶处理方法.pdf
ΑSUBL/SUBΒSUB2/SUB介导细胞粘连的抑制剂.pdf
一种具有有序遮光部分的通光板.pdf
用于净化被碳氢化合物液滴污染的水的设备.pdf
一种双组份油漆及其在电视机机壳上喷涂的工艺.pdf
改进的瓶盖.pdf
稀土掺杂钇铝石榴石荧光粉的共沉淀制备方法.pdf
一种牛肉酱香臭豆腐及其制备方法.pdf
硫代DCK类似物其合成方法及其应用.pdf
活体动物运输专用箱.pdf
固定钳床的精梳机.pdf
无线电接收器.pdf
疏水疏油剂组合物.pdf
一种磷化液.pdf