爬虫识别模型训练、爬虫识别方法、装置、系统、设备及介质.pdf
《爬虫识别模型训练、爬虫识别方法、装置、系统、设备及介质.pdf》由会员分享,可在线阅读,更多相关《爬虫识别模型训练、爬虫识别方法、装置、系统、设备及介质.pdf(21页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010114046.1 (22)申请日 2020.02.24 (71)申请人 支付宝 (杭州) 信息技术有限公司 地址 310000 浙江省杭州市西湖区西溪路 556号8层B段801-11 (72)发明人 宗志远 (74)专利代理机构 北京晋德允升知识产权代理 有限公司 11623 代理人 刘立升 (51)Int.Cl. G06F 16/951(2019.01) G06F 16/955(2019.01) G06K 9/62(2006.01) (54)发明名称 一种爬虫识别模。
2、型训练、 爬虫识别方法、 装 置、 系统、 设备及介质 (57)摘要 本说明书实施例公开了一种爬虫识别模型 训练、 爬虫识别方法、 装置、 系统、 设备及介质, 包 括确定指向预设隐私数据的目标行为数据及目 标行为数据对应的目标行为链路, 从目标行为链 路中确定第一爬虫链路, 将第一爬虫链路作为第 一类标记样本; 确定第二爬虫链路, 将第二爬虫 链路作为第二类标记样本; 其中, 第二爬虫链路 的确定方式异于第一爬虫链路; 确定未标记网络 行为链路, 将未标记网络行为链路作为未标记类 样本; 基于第一类标记样本、 第二类标记样本及 未标记类样本进行半监督学习的模型训练, 得到 爬虫识别模型。 将。
3、爬虫识别模型用于爬虫识别, 能够提高爬虫识别准确率和对隐私数据的保护 作用。 权利要求书3页 说明书15页 附图2页 CN 111368164 A 2020.07.03 CN 111368164 A 1.一种爬虫识别模型训练方法, 包括: 确定指向预设隐私数据的目标行为数据以及所述目标行为数据对应的目标行为链路, 从所述目标行为链路中确定第一数量个第一爬虫链路, 将所述第一数量个第一爬虫链路作 为第一类标记样本; 确定第二数量个第二爬虫链路, 将所述第二数量个第二爬虫链路作为第二类标记样 本; 其中, 所述第二爬虫链路的确定方式异于所述第一爬虫链路; 确定第三数量个未标记网络行为链路, 将所述。
4、第三数量个未标记网络行为链路作为未 标记类样本; 基于所述第一类标记样本、 第二类标记样本以及未标记类样本进行半监督学习的模型 训练, 得到爬虫识别模型。 2.如权利要求1所述的方法, 确定目标行为数据对应的目标行为链路包括: 对所述目标行为数据进行分类; 对任一类目标行为数据, 将该类中目标行为数据进行排序, 根据排序结果确定该类目 标行为数据对应的目标行为链路。 3.根据权利要求1所述的方法, 从所述目标行为链路中确定第一爬虫链路包括: 将各个目标行为链路进行聚合, 得到聚合结果; 将各个目标行为链路的聚合结果进行对比, 将对比结果满足预设条件的目标行为链路 作为第一爬虫链路。 4.根据权。
5、利要求3所述的方法, 将各个目标行为链路进行聚合, 得到聚合结果包括: 对任一目标行为链路, 将该目标行为链路对应的目标行为数据进行排序; 将该目标行为链路排序后的目标行为数据进行拼接, 将拼接结果作为该目标行为链路 的聚合结果。 5.根据权利要求3所述的方法, 所述预定条件为: 对任一目标行为链路, 与该目标行为链路相似度大于相似度阈值的目标行为链路数量 大于预定数量。 6.如权利要求1所述的方法, 所述第三数量大于所述第一数量; 和/或, 所述第三数量大于所述第一数量。 7.一种爬虫识别方法, 包括: 接收网络请求; 通过爬虫识别模型对所述网络请求进行爬虫识别, 确定爬虫识别结果, 所述爬。
6、虫识别 模型根据权利要求1至6中任一项所述的方法得到。 8.根据权利要求7所述的识别方法, 确定所述爬虫识别结果后, 还包括: 确定与所述爬虫识别结果对应的反馈信息, 所述反馈信息包括高危信息、 中危信息和 低危信息; 当所述反馈信息为高危信息时, 拦截所述网络请求; 当所述反馈信息为中危信息时, 对所述用户请求进行二次校验; 当所述反馈信息为低危信息时, 放行所述网络请求。 9.根据权利要求8所述的识别方法, 所述二次校验包括滑动验证和/或选字验证和/或 权利要求书 1/3 页 2 CN 111368164 A 2 计算结果验证; 若二次校验不通过, 则拦截所述网络请求。 10.根据权利要求。
7、7所述的识别方法, 确定所述爬虫识别结果后, 还包括: 更新标记样本; 基于更新后的标记样本进行半监督学习的模型训练, 得到更新后的爬虫识别模型。 11.根据权利要求10所述的识别方法, 所述更新标记样本包括: 将所述爬虫识别模型识别出的爬虫链路作为新标记样本, 用于训练爬虫识别模型。 12.一种爬虫识别模型训练装置, 包括: 第一标记样本确定模块, 用于确定指向预设隐私数据的目标行为数据以及所述目标行 为数据对应的目标行为链路, 从所述目标行为链路中确定第一数量个第一爬虫链路, 将所 述第一数量个第一爬虫链路作为第一类标记样本; 第二标记样本确定模块, 用于确定第二数量个第二爬虫链路, 将所。
8、述第二数量个第二 爬虫链路作为第二类标记样本; 其中, 所述第二爬虫链路的确定方式异于所述第一爬虫链 路; 未标记样本确定模块, 用于确定第三数量个未标记网络行为链路, 将所述第三数量个 未标记网络行为链路作为未标记类样本; 模型训练模块, 用于基于所述第一类标记样本、 第二类标记样本以及未标记类样本进 行半监督学习的模型训练, 得到爬虫识别模型。 13.一种爬虫识别装置, 包括: 请求接收模块, 用于接收网络请求; 爬虫识别模块, 用于通过爬虫识别模型对所述网络请求进行爬虫识别, 确定爬虫识别 结果, 所述爬虫识别模型根据权利要求1至6中任一项所述的方法或权利要求12所述的装置 得到。 14。
9、.一种网络请求处理系统, 包括: 业务前端、 业务后台、 人机校验前端和爬虫识别装 置, 所述爬虫识别装置如权利要求13所述; 所述业务前端用于可以接收网络请求, 以及将所述网络请求发送至所述业务后台; 所述业务后台用于接收所述网络请求, 并将所述网络请求发送至所述爬虫识别装置; 所述爬虫识别装置用于接收以及识别业务后台发送的网络请求, 确定爬虫识别结果以 及与识别结果对应的反馈信息, 并将反馈信息反馈至业务后台; 所述业务后台根据反馈信息确定是否需要校验; 若需要, 则向所述人机校验前端发送 校验指令; 人机校验前端用于执行校验。 15.一种爬虫识别模型训练设备, 包括: 至少一个处理器; 。
10、以及, 与所述至少一个处理器通信连接的存储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 使所述至少一个处理器能够执行权利要求1至6中任一项所述的爬虫识别模型训 权利要求书 2/3 页 3 CN 111368164 A 3 练方法。 16.一种爬虫识别设备, 包括: 至少一个处理器; 以及, 与所述至少一个处理器通信连接的存储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 使所述至少一个处理器能够执行权利要求7至11中任一项所述的爬虫识别方法。 17.一种计算机可读存储介质, 所述计。
11、算机可读存储介质存储有计算机可执行指令, 所 述计算机可执行指令被处理器执行时实现权利要求1至6中任一项所述的爬虫识别模型训 练方法。 18.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机可执行指令, 所 述计算机可执行指令被处理器执行时实现权利要求7至11中任一项所述的爬虫识别方法。 权利要求书 3/3 页 4 CN 111368164 A 4 一种爬虫识别模型训练、 爬虫识别方法、 装置、 系统、 设备及 介质 技术领域 0001 本说明书实施例涉及计算机领域, 尤其涉及一种爬虫识别模型训练、 爬虫识别方 法、 装置、 系统、 设备及介质。 背景技术 0002 现有技术中, 。
12、可以通过网络爬虫等手段来获取网络中的数据, 这也使得各种隐私 数据存在泄漏风险, 如何识别网络爬虫已是网络安全等领域的重要课题。 0003 有鉴于此, 需要更有效和更高效的网络爬虫识别方案。 发明内容 0004 本说明书实施例的主要目的在于提供一种爬虫识别模型训练、 爬虫识别方法、 装 置、 系统、 设备及介质, 以解决如何更有效和更高效地识别爬虫的技术问题。 0005 为解决上述技术问题, 本说明书实施例是这样实现的: 0006 本说明书实施例提供一种爬虫识别模型训练方法, 包括: 0007 确定指向预设隐私数据的目标行为数据以及所述目标行为数据对应的目标行为 链路, 从所述目标行为链路中确。
13、定第一数量个第一爬虫链路, 将所述第一数量个第一爬虫 链路作为第一类标记样本; 0008 确定第二数量个第二爬虫链路, 将所述第二数量个第二爬虫链路作为第二类标记 样本; 其中, 所述第二爬虫链路的确定方式异于所述第一爬虫链路; 0009 确定第三数量个未标记网络行为链路, 将所述第三数量个未标记网络行为链路作 为未标记类样本; 0010 基于所述第一类标记样本、 第二类标记样本以及未标记类样本进行半监督学习的 模型训练, 得到爬虫识别模型。 0011 本说明书实施例提供一种爬虫识别方法, 包括: 0012 接收网络请求; 0013 通过爬虫识别模型对所述网络请求进行爬虫识别, 确定爬虫识别结。
14、果, 所述爬虫 识别模型根据上述爬虫识别模型训练方法得到。 0014 本说明书实施例提供一种爬虫识别模型训练装置, 包括: 0015 第一标记样本确定模块, 用于确定指向预设隐私数据的目标行为数据以及所述目 标行为数据对应的目标行为链路, 从所述目标行为链路中确定第一数量个第一爬虫链路, 将所述第一数量个第一爬虫链路作为第一类标记样本; 0016 第二标记样本确定模块, 用于确定第二数量个第二爬虫链路, 将所述第二数量个 第二爬虫链路作为第二类标记样本; 其中, 所述第二爬虫链路的确定方式异于所述第一爬 虫链路; 0017 未标记样本确定模块, 用于确定第三数量个未标记网络行为链路, 将所述第。
15、三数 说明书 1/15 页 5 CN 111368164 A 5 量个未标记网络行为链路作为未标记类样本; 0018 模型训练模块, 用于基于所述第一类标记样本、 第二类标记样本以及未标记类样 本进行半监督学习的模型训练, 得到爬虫识别模型。 0019 本说明书实施例提供一种爬虫识别系统, 包括: 0020 请求接收模块, 用于接收网络请求; 0021 爬虫识别模块, 用于通过爬虫识别模型对所述网络请求进行爬虫识别, 确定爬虫 识别结果, 所述爬虫识别模型根据上述爬虫识别模型训练方法得到。 0022 本说明书实施例提供一种网络请求处理系统, 包括: 业务前端、 业务后台、 人机校 验前端和爬虫。
16、识别装置, 所述爬虫识别装置如上所述; 0023 所述业务前端用于可以接收网络请求, 以及将所述网络请求发送至所述业务后 台; 0024 所述业务后台用于接收所述网络请求, 并将所述网络请求发送至所述爬虫识别装 置; 0025 所述爬虫识别装置用于接收以及识别业务后台发送的网络请求, 确定爬虫识别结 果以及与识别结果对应的反馈信息, 并将反馈信息反馈至业务后台; 0026 所述业务后台根据反馈信息确定是否需要校验; 若需要, 则向所述人机校验前端 发送校验指令; 0027 人机校验前端用于执行校验。 0028 本说明书实施例提供一种爬虫识别模型训练设备, 包括: 0029 至少一个处理器; 0。
17、030 以及, 0031 与所述至少一个处理器通信连接的存储器; 0032 其中, 0033 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一 个处理器执行, 使所述至少一个处理器能够执行上述的爬虫识别模型训练方法。 0034 本说明书实施例提供一种爬虫识别设备, 包括: 0035 至少一个处理器; 0036 以及, 0037 与所述至少一个处理器通信连接的存储器; 0038 其中, 0039 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一 个处理器执行, 使所述至少一个处理器能够执行上述的爬虫识别方法。 0040 本说明书实施例提供一种计算机。
18、可读存储介质, 所述计算机可读存储介质存储有 计算机可执行指令, 所述计算机可执行指令被处理器执行时实现上述的爬虫识别模型训练 方法。 0041 本说明书实施例提供一种计算机可读存储介质, 所述计算机可读存储介质存储有 计算机可执行指令, 所述计算机可执行指令被处理器执行时实现上述的爬虫识别方法。 0042 本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果: 0043 确定第一爬虫链路所使用的网络行为数据既可以包括过往数据, 又可以包括新出 说明书 2/15 页 6 CN 111368164 A 6 现数据, 从而既能够涵盖过往的爬虫行为, 又能够适应新的爬虫模式, 丰富且时效性强。
19、; 第 二爬虫链路的确定方式不同于第一爬虫链路的确定方式, 能够充分利用已知的爬虫信息。 所使用的第一爬虫链路和第二爬虫链路兼顾了新爬虫与已知爬虫, 以此来得到爬虫识别模 型, 能够提高爬虫识别模型和爬虫识别方法的爬虫识别准确率和对隐私数据的保护作用。 附图说明 0044 为了更清楚地说明本说明书实施例或现有技术中的技术方案, 下面将对本说明书 实施例或现有技术描述中所需要使用的附图作简单地介绍, 显而易见地, 下面描述中的附 图仅仅是本说明书中记载的一些实施例, 对于本领域普通技术人员来讲, 在不付出创造性 劳动性的前提下, 还可以根据这些附图获得其他的附图。 0045 图1为本说明书第一个。
20、实施例中的爬虫识别模型训练方法的流程示意图。 0046 图2是本说明书第一个实施例的执行示意图。 0047 图3为本说明书第二个实施例中的爬虫识别方法的流程示意图。 0048 图4为本说明书的第一和/或第二个实施例的应用意图。 0049 图5是本说明书第四个实施例中的爬虫识别模型训练装置的结构示意图。 0050 图6是本说明书第五个实施例中的爬虫识别装置的结构示意图。 具体实施方式 0051 为了使本技术领域的人员更好地理解本说明书中的技术方案, 下面将结合本说明 书实施例中的附图, 对本说明书实施例中的技术方案进行清楚、 完整地描述, 显然, 所描述 的实施例仅仅是本申请一部分实施例, 而不。
21、是全部的实施例。 基于本说明书实施例, 本领域 普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例, 都应当属于本申请 保护的范围。 0052 现有技术中, 可以通过网络爬虫等手段来获取网络中的数据, 这也使得各种隐私 数据存在泄漏风险, 例如: 0053 目前有一些业务提供方(例如金融服务公司), 在用户办理相关业务时, 会要求用 户填写个人信息, 例如互联网账号和密码, 然后业务提供方就可以登录用户账户并通过网 络爬虫获取用户的数据, 例如用户资产、 消费、 联系方式等数据, 其中包括众多隐私数据。 同 样的, 这些业务提供方也可以成为其他人的数据爬取对象。 可见, 对于隐私数据。
22、的掌握方来 说, 需要有效识别网络爬虫或网络爬虫的数据爬取行为, 以保护其所掌握的隐私数据。 0054 现有的爬虫识别可分为两类: 0055 1)基于专家规则的爬虫识别: 所谓的专家规则是指根据专业人员的经验, 通过数 据分析和挖掘得到的一系列的识别规则, 例如满足某某条件执行某某操作等, 包括但不限 于基于无头浏览器特征、 基于爬虫UA特征(UA为User-agent的缩写, 即用户代理, 它是一个 特殊字符串头, 使得服务器能够识别用户使用的操作系统及版本、 CPU类型、 浏览器及版本、 浏览器渲染引擎、 浏览器语言、 浏览器插件等)、 基于IP访问频次等来指定一系列的执行规 则。 然而,。
23、 这种爬虫识别方法是基于爬虫的静态特征, 爬虫设计者可以轻易将其绕过(如不 断拨号换IP, 不断更换UA等), 并且操作成本很低。 。 0056 2)基于无监督学习的异常检测方法: 通过无监督学习的方式提取用户访问过程中 说明书 3/15 页 7 CN 111368164 A 7 的行为特征, 然后通过刻画正常访问的行为路径去识别异常访问行为。 但由于用来刻画正 常访问行为路径的行为样本数量有限, 故该方法准确率较低, 误报较多, 特别是一些新的业 务功能, 短时间之内无法精准刻画针对这些业务功能的正常访问行为。 此外, 该方法也没有 把已经识别的爬虫作标记。 0057 以下结合附图, 详细说。
24、明本说明书的一个或多个实施例提供的技术方案。 0058 如图1所示, 本说明书的第一个实施例提供了一种爬虫识别模型训练方法, 本实施 例的执行主体可以是终端或者服务器或者相应的爬虫识别模型训练系统, 即执行主体可以 是多种多样的, 可以根据实际情况进行设置或者变换。 另外, 也可以有第三方应用程序协助 所述执行主体执行本实施例, 例如, 可以由服务器来执行本实施例中的爬虫识别模型训练 方法, 并且还可以在终端(包括但不限于手机、 计算机)上安装相应的应用程序, 服务器与应 用程序对应, 服务器与终端之间可以进行数据传输, 通过终端或应用程序来进行页面或信 息展示或数据输入输出, 如图2所示。 。
25、0059 本实施例提供的爬虫识别模型训练方法包括: 0060 S100: 确定指向预设隐私数据的用户行为数据以及所述用户行为数据对应的用户 行为链路, 从所述用户行为链路中确定第一数量个第一爬虫链路, 将所述第一数量个第一 爬虫链路作为第一类标记样本。 0061 不管是用户或爬虫, 都可以通过网络操作发出网络请求, 网络请求一般都对应有 请求目标, 例如用户或爬虫向某些网络地址或网站或服务器发送网络请求, 则网络地址或 网站或服务器可以作为请求目标。 网络请求在计算机或者数据库或者网络中可以产生对应 的网络行为数据, 而网络请求对应有访问路径或访问地址, 访问路径或访问地址可以指向 请求目标,。
26、 故网络行为数据至少可以包括访问路径或访问地址(还可以包含时间等内容)。 网络行为数据可以是URL或其他形式的, 本实施例不作限定。 0062 网络行为数据在计算机或者数据库或者网络中都可以存储或记录, 例如计算机系 统日志可以记录网络请求数据, 数据库同样可以存储或记录网络请求数据, 当然还可以在 其他位置或通过其他方式记录和/或存储网络行为数据, 本实施例不作限定。 0063 本实施例中, 可以用终端ID, Mac地址或账户等来指代用户, 并对网络行为数据进 行分类, 例如基于同一终端的用户请求所对应的网络行为数据分为一类, 可以认为是同一 用户的操作; 或者若用户登陆了互联网账户, 那么。
27、可以用互联网账户来指代用户, 例如基于 同一互联网账户的用户请求所对应的网络行为数据分为一类, 可以认为是同一用户的操 作, 从而可以建立用户与网络行为数据之间的对应关系。 0064 本实施例中, 根据网络行为数据可以确定对应的网络行为链路, 网络行为链路可 以是一系列的网络行为数据(例如一系列的访问路径或访问地址)。 例如, 对任一类网络行 为数据, 将该类中网络行为数据进行排序(例如请求执行开始时间、 请求执行完成时间、 网 络行为数据对应的执行目标等排序), 根据排序结果确定该类网络行为数据对应的网络行 为链路。 当然还可以基于网络行为数据采用其他方式得到网络行为链路。 0065 以UR。
28、L格式的网络行为数据为例, 某一用户的网络行为数据(可看作一类) 0066 可以如下所示: 0067 URL1: /account/index.htm, 0068 URL2: /asset/assetItemQuery.json, 说明书 4/15 页 8 CN 111368164 A 8 0069 URL3: /certify/v3/personal/channel/entrance, 0070 URL4: /error.htm, 0071 URL5: /contacts/getContactUser.json, 0072 URL6: /gold/assetManage.htm, 0073 。
29、URL7: /asset/asset.htm, 0074 URL8: /asset/bankList.htm, 0075 URL9: /zhx/detail.htm, 0076 URL10: /asset/bindQuery.json, 0077 URL11: /contacts/tradeGroup.json, 0078 URL12: /home/accessDenied.htm, 0079 URL13: /market/chargeRemindInfoEntering.htm, 0080 URL14: /nav/getUniData.json, 0081 URL15: /record/ad。
30、vanced.htm, 0082 URL16: /record/statistic.json, 0083 URL17: /user/msgcenter/getMsgInfosNew.json, 0084 URL18: /yeb/index.htm, 0085 URL19: /yeb/asset.htm, 0086 URL20: /yeb/purchase.htm, 0087 URL21: /ua_personalweb_portal_account.js, 0088 URL22: /transfercore/withdraw/apply.htm, 0089 URL23: /record/sta。
31、ndard.htm, 0090 URL24: /login/index.htm, 0091 URL25: /portal/i.htm, 0092 URL26: /mservice/marketing/index.htm, 0093 URL27: /login/certCheck.htm, 0094 可见, 上述用户访问的URL序列为从URL1至URL27, 根据这些URL数据可以确定该用 户的网络行为链路。 例如将上述URL序列根据时间进行排序, 根据排序结果确定网络行为链 路, 所确定的网络行为链路代表了用户按照时间所进行的一系列访问行为, 每个URL可看作 网络行为链路的节点。 0095 。
32、有些数据可以预设为隐私数据, 例如用户的资金、 消费、 个人信息数据等, 若有网 络请求指向预设隐私数据(例如网络请求的访问地址指向预设隐私数据所在位置或服务 器), 则指向预设隐私数据的网络请求所对应的网络行为数据就是指向预设隐私数据的网 络行为数据, 这样的网络行为数据在本实施例中为目标行为数据。 0096 目标行为数据属于网络行为数据, 故采用前述的内容, 可以对目标行为数据进行 分类, 以及对任一类目标行为数据, 确定该类目标行为数据对应的网络行为链路。 目标行为 数据对应的网络行为链路不妨称为目标行为链路。 0097 通过以上内容可以确定多个或预定数量个目标行为链路(不妨称为目标行为。
33、链路 组)后, 可以从目标行为链路组中确定第一数量个第一爬虫链路, 将这第一数量个第一爬虫 链路作为第一类标记样本。 说明书 5/15 页 9 CN 111368164 A 9 0098 从目标行为链路中确定第一爬虫链路包括: 0099 S101: 将目标行为链路组中的各个目标行为链路进行聚合, 得到聚合结果。 0100 本实施例中, 将目标行为链路组中的各个目标行为链路进行聚合, 得到聚合结果 包括: 0101 S1011: 对目标行为链路组中任一目标行为链路, 将该目标行为链路对应的目标行 为数据进行排序(例如按字母排序)。 0102 S1013: 将该目标行为链路排序后的目标行为数据进行。
34、拼接(拼接结果可以为一个 字符串), 将拼接结果作为该目标行为链路的聚合结果。 当然还可以采用其他聚合方法, 本 实施例不作限定。 0103 仍以上述的URL为例, 假设上述URL都是指向预设隐私数据的, 在确定包括URL1 URL27的目标行为链路之后, 对这些URL进行排序。 其中, 排序规则可以是字母排序, 即先比 较URL中第一个字母在26个拼音字母中的排位, 第一个字母排位相同的比较第二个字母, 以 此类推, 从而将URL进行排序。 当然还可以采用其他排序规则, 本实施例不作限定。 0104 将按照预设排序规则排序后的URL进行拼接, 得到一个拼接后的字符串, 即为上述 URL对应的。
35、目标行为链路的聚合结果。 如下所示: 0105 排序结果: 0106 URL1: /account/index.htm, 0107 URL7: /asset/asset.htm, 0108 URL2: /asset/assetItemQuery.json, 0109 URL8: /asset/bankList.htm, 0110 URL10: /asset/bindQuery.json, 0111 URL3: /certify/v3/personal/channel/entrance, 0112 URL5: /contacts/getContactUser.json, 0113 URL11: 。
36、/contacts/tradeGroup.json, 0114 URL4: /error.htm, 0115 URL6: /gold/assetManage.htm, 0116 URL12: /home/accessDenied.htm, 0117 URL27: /login/certCheck.htm, 0118 URL24: /login/index.htm, 0119 URL13: /market/chargeRemindInfoEntering.htm, 0120 URL26: /mservice/marketing/index.htm, 0121 URL14: /nav/getUni。
37、Data.json, 0122 URL25: /portal/i.htm, 0123 URL15: /record/advanced.htm, 0124 URL23: /record/standard.htm, 0125 URL16: /record/statistic.json, 0126 URL22: /transfercore/withdraw/apply.htm, 0127 URL21: /ua_personalweb_portal_account.js, 0128 URL17: /user/msgcenter/getMsgInfosNew.json, 说明书 6/15 页 10 CN。
38、 111368164 A 10 0129 URL19: /yeb/asset.htm, 0130 URL18: /yeb/index.htm, 0131 URL20: /yeb/purchase.htm, 0132 URL9: /zhx/detail.htm。 0133 拼接结果(即聚合结果): 0134 /account/index.htm/asset/asset.htm/asset/assetItemQuery.json/asset/ bankList.htm/asset/bindQuery.json/certify/v3/personal/channel/entrance/ contac。
39、ts/getContactUser.json/contacts/tradeGroup.json/error.htm/gold/ assetManage.htm/home/accessDenied.htm/login/certCheck.htm/login/index.htm/ market/chargeRemindInfoEntering.htm/mservice/marketing/index.htm/nav/ getUniData.json/portal/i.htm/record/advanced.htm/record/standard.htm/record/ statistic.json。
40、/transfercore/withdraw/apply.htm/ua_personalweb_portal_ account.js/user/msgcenter/getMsgInfosNew.json/yeb/asset.htm/yeb/index.htm/ yeb/purchase.htm/zhx/detail.htm。 0135 S103: 将目标行为链路组中各个目标行为链路的聚合结果进行对比, 将对比结果 满足预设条件的目标行为链路作为第一爬虫链路。 0136 对目标行为链路组中的任一目标行为链路, 将该目标行为链路的聚合结果与目标 行为链路组中的其他目标行为链路的聚合结果分别进行相似。
41、度对比, 得到相似度(此处为 值)。 可以将URL和/或URL的排位作为对比内容, 例如同一个URL, 在两个目标行为链路中都 排第三, 这两个目标行为链路的相似度相对更高; 或者两个目标行为链路出现了相同的 URL, 这两个目标行为链路的相似度相对更高。 0137 当某两个目标行为链路的相似度值大于(或大于等于)相似度阈值时, 说明这两个 目标行为链路或这两个目标行为链路对应的用户行为相似, 属于同一团伙, 这两个目标行 为链路可以作为潜在目标; 当某两个目标行为链路的相似度值小于等于(或小于)相似度阈 值时, 说明这两个目标行为链路或这两个目标行为链路对应的用户行为不相似, 不属于同 一团。
42、伙。 0138 确定相似度值, 即对比结果后, 将对比结果满足预设条件的目标行为链路作为第 一爬虫对应的目标行为链路。 这里的预设条件可以是, 对任一目标行为链路, 目标行为链路 组中与该目标行为链路相似度值大于(或大于等于)相似度阈值的目标行为链路数量大于 (或大于等于)预定数量, 即与该目标行为链路相似的目标行为链路数量大于(或大于等于) 预定数量。 0139 由于目标行为链路组中的目标行为链路进行了两两对比, 对组内任一目标行为链 路, 若目标行为链路组中与该目标行为链路相似度值大于(或大于等于)相似度阈值的目标 行为链路数量大于(或大于等于)预定数量, 则该目标行为链路为第一爬虫链路。。
43、 0140 若目标行为链路组中确定的第一爬虫链路不足第一数量, 则可以适当增加目标行 为链路组中的目标行为链路数。 确定了第一数量个第一爬虫链路后, 可以将这第一数量个 第一爬虫链路作为第一类标记样本。 0141 本实施例中, 爬虫链路即为爬虫对应的网络行为链路, 能够代表爬虫的网络行为。 0142 上面通过目标行为数据确定目标行为链路, 从目标行为链路中确定第一爬虫链 说明书 7/15 页 11 CN 111368164 A 11 路, 将第一爬虫链路作为第一类标记样本, 能够充分利用已有的新出现的网络行为数据, 并 为得到爬虫识别模型提供更多的样本, 进而得到更好的爬虫识别模型。 0143。
44、 S300: 确定第二数量个第二爬虫链路, 将所述第二数量个第二爬虫链路作为第二 类标记样本; 其中, 所述第二爬虫链路的确定方式异于所述第一爬虫链路。 0144 本实施例中, 第二爬虫链路(第二爬虫链路也可以是指向预设隐私数据的)的确定 方式不同于第一爬虫链路的确定方式, 例如第二爬虫链路可以是通过前述的专家规则、 基 于无监督学习的异常检测方法等方法识别出来的爬虫对应的网络行为链路。 0145 S500: 确定第三数量个未标记用户行为链路, 将所述第三数量个未标记用户行为 链路作为未标记类样本。 0146 本实施例中, 未标记网络行为链路即未确定是或不是爬虫链路的网络行为链路, 或者说未标。
45、记网络行为链路可能是, 也可能不是爬虫链路。 0147 特别的, 第三数量可以远大于第一数量和/或第二数量。 0148 S700: 基于所述第一类标记样本、 第二类标记样本以及未标记类样本进行半监督 学习的模型训练, 得到爬虫识别模型。 0149 通过上述内容, 得到了第一类标记样本、 第二类标记样本和未标记类样本, 就可以 用这三类用本进行模型训练。 第一类标记样本不妨记为第一标记样本集合, 即第一数量个 第一爬虫链路形成第一标记样本集合; 第二类标记样本不妨记为第二标记样本集合, 即第 二数量个第二爬虫链路形成第二标记样本集合; 未标记类样本不妨记为未标记样本集合, 即第三数量个未标记网络。
46、行为链路形成未标记样本集合。 0150 用来训练的模型可以机器学习模型、 神经网络模型等, 所用的模型训练方式可以 是半监督学习。 半监督学习包括但不限于正样本无标签学习算法(positive unlabeled learning)、 生成模型算法(Generate semi-supervised models)、 自训练算法(Self- training)、 联合训练(Co-training)、 半监督支持向量机(S3VMs)、 基于图论的方法等等。 0151 以下以正样本无标签学习算法(PU Learnning)为例进行说明: 0152 样本无标签学习是一种半监督学习二元分类算法, 可以通。
47、过标注有标签的正样本 和大量未标注标签的样本训练得到一个二元分类器, 通过该二元分类器对输入样本进行分 类。 第一标记样本集合、 第二标记样本集合中的样本共同作为标注有标签的正例(爬虫), 这 里将第一标记样本集合和第二标记样本集合简称为P集合; 未标记样本集合中的样本作为 未标注标签的样本, 将未标记样本集合简称为U集合。 0153 模型训练可以包括两个阶段, 第一阶段: 从未标记样本集合中选择可靠的负例集 (正常请求)RN, 具体为: 0154 在P集合中随机选取一部分正例S加入U集合中, P集合变为P-S, 这里称为ps, U集合 变为和U+S, 这里称为us, 然后用ps和us训练一个。
48、模型g。 然后用g对未标记样本集合U做分 类, 得到U集合中每个样本的概率, 预先设定一个阈值a, 如果U集合中的未标记样本经过模 型g分类之后得到的概率低于a, 将该未标记样本作为一个可靠负例, 即正常请求(不是爬 虫), 将这些可靠负例作为一个可靠的负例集合RN。 0155 第二阶段: 利用正例集合P和可靠的负例集合RN, 训练一个传统的机器学习分类模 型, 用来预测新输入的样本。 0156 训练后的分类模型即为本实施例中的爬虫识别模型。 说明书 8/15 页 12 CN 111368164 A 12 0157 本实施例中, 确定第一爬虫链路所使用的网络行为数据既可以包括过往数据, 又 可。
49、以包括新出现数据, 从而既能够涵盖过往的爬虫行为, 又能够适应新的爬虫模式, 丰富且 时效性强; 第二爬虫链路的确定方式不同于第一爬虫链路的确定方式, 能够充分利用已知 的爬虫信息。 本实施例所使用的第一爬虫链路和第二爬虫链路兼顾了新爬虫与已知爬虫, 以此来得到爬虫识别模型, 能够提高所得到的爬虫识别模型的爬虫识别准确率和对隐私数 据的保护作用。 0158 如图3所示, 本说明书的第二个实施例提供了一种爬虫识别方法, 本实施例的执行 主体可以是终端或者服务器或者相应的爬虫识别系统, 即执行主体可以是多种多样的, 可 以根据实际情况进行设置或者变换。 另外, 也可以有第三方应用程序协助所述执行主。
50、体执 行本实施例, 例如, 可以由服务器来执行本实施例中的爬虫识别方法, 并且还可以在终端 (包括但不限于手机、 计算机)上安装相应的应用程序, 服务器与应用程序对应, 服务器与终 端之间可以进行数据传输, 通过终端或应用程序来进行页面或信息展示或数据输入输出。 0159 本实施例提供的爬虫识别方法包括: 0160 S200: 接收网络请求。 0161 网络请求参照第一个实施例。 0162 S400: 通过爬虫识别模型对所述网络请求进行爬虫识别, 确定爬虫识别结果, 所述 爬虫识别模型根据第一个实施例得到。 0163 在接收到网络请求之后, 网络请求对应有行为链路, 将网络请求或网络请求对应 。
- 内容关键字: 爬虫 识别 模型 训练 方法 装置 系统 设备 介质
农业育苗盘.pdf
污水厂处理用空气介入的药剂搅拌装置.pdf
选粉机.pdf
氧气管收纳装置.pdf
中频感应电炉冷炉装置.pdf
玩具变形车.pdf
复合纤维的快速烘干装置.pdf
可折叠伸缩式电井盖板提升转运装置.pdf
过滤元件旋转焊接装置的接电模块.pdf
漂染废水处理和中水回用设备.pdf
具有旋转装饰部件的玩具泡泡棒.pdf
LED光源模组.pdf
用于标液精确取样装置.pdf
用于制备二氧化碳吸附储存材料的装置.pdf
节能保温断桥铝合金型材.pdf
多节联动节距机构.pdf
气体防倾倒运输装置.pdf
条装食品的整理机.pdf
石墨型钛合金底注式浇注排气系统.pdf
大挠度伸缩闸阀.pdf
薄膜吹塑用冷却装置.pdf
红外图像超分辨重建系统及方法.pdf
数码云相框智能照片优化处理系统.pdf
玄武岩纤维管材检测装置及方法.pdf
桥梁梁板加固焊接设备.pdf
宽范围任意频点的时频参数综合测方法.pdf
高分子颗粒筛选系统.pdf
纳米硅复合隔热材料及其制备方法.pdf
气浮轴承刚度测试装置.pdf
金属软管与燃气灶的连接结构.pdf
基于点云深度学习的机械零部件装配特征测量方法.pdf
基于车身颜色的车辆事故预测方法、设备和存储介质.pdf