《一种用户特征信息的确定方法、装置及系统.pdf》由会员分享,可在线阅读,更多相关《一种用户特征信息的确定方法、装置及系统.pdf(17页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102855248 A (43)申请公布日 2013.01.02 C N 1 0 2 8 5 5 2 4 8 A *CN102855248A* (21)申请号 201110180252.3 (22)申请日 2011.06.29 G06F 17/30(2006.01) (71)申请人中国移动通信集团广西有限公司 地址 530000 广西壮族自治区南宁市金湖路 55号 (72)发明人刘晓峰 甘雯 王涛 罗鹏 (74)专利代理机构北京同达信恒知识产权代理 有限公司 11291 代理人郭润湘 (54) 发明名称 一种用户特征信息的确定方法、装置及系统 (57) 摘要 本发明公。
2、开了一种用户特征信息的确定方 法、装置及系统,包括:确定用户使用用户终端已 访问的网页的URL;并生成与确定的该URL对应的 网络爬虫抓取任务;并执行生成的该网络爬虫抓 取任务,抓取网页的页面内容;并对抓取的该页 面内容进行分析,得到表征用户网络行为特征的 第一类信息;以及根据得到的该第一类信息,确 定该用户的特征信息。采用本发明实施例提供的 方案,使得基于用户网络行为分析所确定的用户 特征信息更全面。 (51)Int.Cl. 权利要求书3页 说明书10页 附图3页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 3 页 说明书 10 页 附图 3 页 1/3页 2 1。
3、.一种用户特征信息的确定方法,其特征在于,包括: 确定用户使用用户终端已访问的网页的统一资源定位符URL; 生成与确定的所述URL对应的网络爬虫抓取任务; 执行生成的所述网络爬虫抓取任务,抓取网页的页面内容; 对抓取的所述页面内容进行分析,得到表征用户网络行为特征的第一类信息; 根据得到的所述第一类信息,确定所述用户的特征信息。 2.如权利要求1所述的方法,其特征在于,根据得到的所述第一类信息,确定所述用户 的特征信息,具体包括: 将得到的所述第一类信息,确定为所述用户的特征信息;或者 将表征所述用户的通信行为特征的第二类信息、表征所述用户的消费行为特征的第三 类信息和所述用户的身份信息中的至。
4、少一种信息,与得到的所述第一类信息相结合,确定 所述用户的特征信息。 3.如权利要求1所述的方法,其特征在于,对抓取的所述页面内容进行分析,具体为: 对抓取的所述页面内容进行文本分析。 4.如权利要求3所述的方法,其特征在于,在生成与确定的所述URL对应的网络爬虫抓 取任务前,还包括: 对确定的所述URL进行过滤,保留文本类网页对应的URL; 生成与确定的所述URL对应的网络爬虫抓取任务,具体为: 生成与保留的文本类网页对应的URL对应的网络爬虫抓取任务。 5.如权利要求1所述的方法,其特征在于,确定用户使用用户终端已访问的网页的 URL,具体包括: 获取网关保存的用户访问日志文件; 对所述用。
5、户访问日志文件的内容进行分析,提取用户信息; 从所述用户访问日志文件的内容中,确定所述用户信息对应的用户已访问的网页的 URL。 6.如权利要求1所述的方法,其特征在于,在生成与确定的所述URL对应的网络爬虫抓 取任务后,还包括: 基于所述URL的页面重要性指标值、抓取频率指标值和页面深度指标值中的至少一种 指标值,确定生成的所述网络爬虫抓取任务的优先级; 执行生成的所述网络爬虫抓取任务,具体为: 按照所述优先级从高到低的顺序,执行生成的所述网络爬虫抓取任务。 7.如权利要求6所述的方法,其特征在于,基于所述URL的页面重要性指标值、抓取频 率指标值和页面深度指标值中的至少一种指标值,确定生成。
6、的所述网络爬虫抓取任务的优 先级,具体包括: 确定所述网络爬虫抓取任务的优先级权重值为所述URL的页面重要性评价因子、抓取 频率评价因子和页面深度评价因子的负数中至少两项的和值,所述优先级权重值越大,所 述URL对应的网络爬虫抓取任务的优先级越高; 其中,所述页面重要性评价因子采用如下公式计算: 权 利 要 求 书CN 102855248 A 2/3页 3 其中, i 为当前已生成且未执行的各网络爬虫抓取任务分别 对应的各URL中第i个URL的页面重要性评价因子,PR i 为所述第i个URL的页面重要性指 标值,min(PR)为所述各URL的页面重要性指标值中的最小值,max(PR)为所述各U。
7、RL的页 面重要性指标值中的最大值; 所述抓取频率评价因子采用如下公式计算: 或其中, i 为当前已生成且未执行的各网 络爬虫抓取任务分别对应的各URL中第i个URL的抓取频率评价因子,F i 为所述第i个URL 的抓取频率指标值,min(F)为所述各URL的抓取频率指标值中的最小值,max(F)为所述各 URL的抓取频率指标值中的最大值,a基于 i 所需的取值范围进行确定; 所述页面深度评价因子采用如下公式计算: 其中, i 为当前已生成且未执行的各网络爬虫抓取任务分别对 应的各URL中第i个URL的页面深度评价因子,D i 为所述第i个URL的页面深度指标值, min(D)为所述各URL的。
8、页面重要性指标值中的最小值,max(D)为所述各URL的页面重要性 指标值中的最大值。 8.如权利要求1所述的方法,其特征在于,执行生成的所述网络爬虫抓取任务,具体包 括: 采用如下公式计算用于执行网络爬虫抓取任务的一爬虫组服务器中各爬虫服务器的 调度参考值: 其中,S Si 为爬虫服务器Si的调度参考值,C Si 为爬虫服务器Si执行网 络爬虫抓取任务的当前连接数,C S 为各爬虫服务器的当前连接数的和值,W Si 为爬虫服务 器S Si 的当前负载指标值; 从所述各爬虫服务器中选择所述调度参考值最小的爬虫服务器,执行当前待分配的网 络爬虫抓取任务。 9.一种用户特征信息的确定装置,其特征在。
9、于,包括: 第一确定单元,用于确定用户使用用户终端已访问的网页的统一资源定位符URL; 生成单元,用于生成与确定的所述URL对应的网络爬虫抓取任务; 执行单元,用于执行生成的所述网络爬虫抓取任务,抓取所述URL对应网页的页面内 容; 分析单元,用于对抓取的所述页面内容进行分析,得到表征用户网络行为特征的第一 类信息; 第二确定单元,用于根据得到的所述第一类信息,确定所述用户的特征信息。 10.如权利要求9所述的装置,其特征在于,所述生成单元,还用于基于所述URL的页面 重要性指标值、抓取频率指标值和页面深度指标值中的至少一种指标值,确定生成的所述 网络爬虫抓取任务的优先级; 所述执行单元,具体。
10、用于按照所述优先级从高到低的顺序,执行生成的所述网络爬虫 权 利 要 求 书CN 102855248 A 3/3页 4 抓取任务。 11.如权利要求9所述的装置,其特征在于,所述执行单元,具体用于采用如下公式计 算用于执行网络爬虫抓取任务的一组爬虫服务器中各爬虫服务器的调度参考值,并从所述 各爬虫服务器中选择所述调度参考值最小的爬虫服务器,执行当前待分配的网络爬虫抓取 任务: 其中,S Si 为爬虫服务器Si的调度参考值,C Si 为爬虫服务器Si执行网 络爬虫抓取任务的当前连接数,C S 为各爬虫服务器的当前连接数的和值,W Si 为爬虫服务 器S Si 的当前负载指标值。 12.一种用户特。
11、征信息的确定系统,其特征在于,包括分析服务器和爬虫服务器,其 中: 分析服务器,用于确定用户使用用户终端已访问的网页的统一资源定位符URL;并生 成与确定的所述URL对应的网络爬虫抓取任务;以及对爬虫服务器执行所述网络爬虫抓取 任务后抓取的页面内容进行分析,得到表征用户网络行为特征的第一类信息;并根据得到 的所述第一类信息,确定所述用户的特征信息; 爬虫服务器,用于执行所述分析服务器生成的所述网络爬虫抓取任务,抓取所述URL 对应网页的所述页面内容。 13.如权利要求12所述的系统,其特征在于,还包括: ETL调度中心,用于获取网关保存的用户访问日志文件; 数据库服务器,用于存储所述ETL调度。
12、中心获取的所述用户访问日志文件; 所述分析服务器,具体用于对所述数据库服务器中存储的所述用户访问日志文件的内 容进行分析,提取用户信息;并从所述用户访问日志文件的内容中,确定所述用户信息对应 的用户已访问的网页的URL。 权 利 要 求 书CN 102855248 A 1/10页 5 一种用户特征信息的确定方法、 装置及系统 技术领域 0001 本发明涉及通信技术领域,尤其涉及一种用户特征信息的确定方法、装置及系统。 背景技术 0002 目前针对于移动用户使用用户终端享有网络服务行为的分析,主要包括基于用户 通信行为的分析和用户消费行为的分析,并根据两者的分析结果确定用户的特征信息。例 如,基。
13、于通信行为的分析得到的分析结果可以包括通话时长、主叫时长、上行短信量、入网 时长等,基于消费行为的分析得到的分析结果可以包括总费用、数据业务费用、通话费等。 相应的,基于这些分析结果确定出用户的特征信息,例如,可以包括用户消费能力信息、用 户倾向的网络服务类型信息、用户享有网络服务的趋势等。在确定用户特征信息的基础上, 可以基于用户的这些特征信息,有针对性的进行营销。 0003 然而,随着3G时代的到来,用户可享有的网络服务更加丰富,所以传统的针对用 户通信行为以及用户消费行为的分析,已经不足以全面的反应用户的网络行为习惯,从而 所确定的用户特征信息也不能够全面的表征用户的特征。 发明内容 0。
14、004 本发明实施例提供一种用户特征信息的确定方法、装置及系统,用以使得基于用 户网络行为分析所确定的用户特征信息更全面。 0005 本发明实施例提供一种用户特征信息的确定方法,包括: 0006 确定用户使用用户终端已访问的网页的统一资源定位符URL; 0007 生成与确定的所述URL对应的网络爬虫抓取任务; 0008 执行生成的所述网络爬虫抓取任务,抓取网页的页面内容; 0009 对抓取的所述页面内容进行分析,得到表征用户网络行为特征的第一类信息; 0010 根据得到的所述第一类信息,确定所述用户的特征信息。 0011 本发明实施例还提供一种用户特征信息的确定装置,包括: 0012 第一确定。
15、单元,用于确定用户使用用户终端已访问的网页的统一资源定位符 URL; 0013 生成单元,用于生成与确定的所述URL对应的网络爬虫抓取任务; 0014 执行单元,用于执行生成的所述网络爬虫抓取任务,抓取所述URL对应网页的页 面内容; 0015 分析单元,用于对抓取的所述页面内容进行分析,得到表征用户网络行为特征的 第一类信息; 0016 第二确定单元,用于根据得到的所述第一类信息,确定所述用户的特征信息。 0017 本发明实施例提供的方法中,首先确定用户使用用户终端已访问的网页的统一资 源定位符(URL,Uniform Resource Locator),并生成与确定的该URL对应的网络爬虫。
16、抓取 任务,执行生成的该网络爬虫抓取任务,抓取网页的页面内容,并对抓取的页面内容进行分 说 明 书CN 102855248 A 2/10页 6 析,得到表征用户网络行为特征的第一类信息,以及根据得到的该第一类信息,确定用户的 特征信息。由于上述方案中得到的表征用户网络行为特征的第一类信息,是通过对用户已 访问网页的页面内容的分析得到的,所以该第一类信息不同于现有技术通过对用户通信行 为和用户消费行为进行分析得到的信息,所以,根据得到的该第一类信息所确定的用户特 征信息,也不同于现有技术中得到的用户特征信息,因此,采用本发明实施例提供的方案, 能够使得基于用户网络行为分析所确定的用户特征信息更全。
17、面。 附图说明 0018 图1为本发明实施例提供的用户特征信息的确定方法的流程图; 0019 图2为本发明实施例1中提供的用户特征信息的确定方法的流程图; 0020 图3为本发明实施例2中提供的用户特征信息的确定装置的结构示意图; 0021 图4为本发明实施例3中提供的用户特征信息的确定系统的结构示意图。 具体实施方式 0022 为了给出使得基于用户网络行为分析所确定的用户特征信息更全面的实现方案, 本发明实施例提供了一种用户特征信息的确定方法、装置及系统,以下结合说明书附图对 本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本 发明,并不用于限定本发明。并且在不冲。
18、突的情况下,本申请中的实施例及实施例中的特征 可以相互组合。 0023 本发明实施例提供一种用户特征信息的确定方法,如图1所示,包括: 0024 步骤S101、确定用户使用用户终端已访问的网页的URL。 0025 步骤S102、生成与确定的该URL对应的网络爬虫抓取任务。 0026 步骤S103、执行生成的该网络爬虫抓取任务,抓取网页的页面内容。 0027 步骤S104、对抓取的该页面内容进行分析,得到表征用户网络行为特征的第一类 信息。 0028 步骤S105、根据得到的该第一类信息,确定该用户的特征信息。 0029 下面结合附图,用具体实施例对本发明提供的方法及装置和相应系统进行详细描 述。
19、。 0030 实施例1: 0031 本实施例1提供一种用户特征信息的确定方法,如图2所示,具体包括如下步骤: 0032 步骤S201、用户使用用户终端能够访问网络,针对用户访问网络的这一行为,本步 骤中,确定出用户使用用户终端已访问的网页的URL。 0033 由于用户终端在访问网络时,将在网关留下用户访问日志文件,对于移动用户,是 在无线应用协议(WAP,Wireless Application Protocol)网关留下用户访问日志文件,用 户访问日志文件中则存在用户信息及对应用户已访问的网页的URL,所以,本实施例具体可 以采用如下方式: 0034 首先获取网关保存的用户访问日志文件,然后。
20、对获取的该用户访问日志文件的内 容进行分析,提取其中的用户信息,并从该用户访问日志文件的内容中,确定提取的该用户 信息对应的用户已访问的网页的URL。 说 明 书CN 102855248 A 3/10页 7 0035 步骤S202、本步骤对已确定出的用户已访问的网页的URL进行过滤处理,具体的 过滤策略可根据实际需要进行设置。例如,当后续对抓取的页面内容进行分析是进行文本 分析时,则可在此设置过滤策略为:保留本文类网页对应的URL,丢弃非文本类网页的URL。 0036 较佳的,本实施例1中,在后续生成URL对应的网络爬虫抓取任务后,还可保存已 对应生成网络爬虫抓取任务的URL,并在本步骤的UR。
21、L过滤处理中,保留未对应生成过网络 爬虫抓取任务的URL,丢弃已对应生成过网络爬虫抓取任务的URL。但对于这类已对应生成 过网络爬虫抓取任务的URL,可直接获取对应的网络爬虫抓取任务的执行结果,以便进行后 续处理,或者也可以直接获取针对该对应的网络爬虫抓取任务所得到的表征用户网络行为 特征的第一类信息,或者所确定的用户的特征信息。 0037 执行本步骤S202的目的是为了后续有选择的生成网络爬虫抓取任务,以便提高 本实施例1方案的处理效率,所以,本步骤S202为可选步骤,当不执行本步骤时,可在执行 完上述步骤S201后直接进入后续步骤S203。 0038 步骤S203、在确定出用户已访问的网页。
22、的URL后,即可对应该用户,生成与确定的 该URL对应的网络爬虫抓取任务。 0039 如果方案中包括上述步骤S202中的过滤处理步骤,则相应的,生成与过滤处理后 保留的URL对应的网络爬虫抓取任务,例如,生成与保留的文本类网页对应的URL对应的网 络爬虫抓取任务。 0040 步骤S204、在生成网络爬虫抓取任务后,即可执行生成的网络爬虫抓取任务,抓 取网页的页面内容。目前现有技术中,分布式爬虫系统多采用基于二级散列映射的任务分 割调度策略,主要是基于均匀分配的策略进行爬虫任务的分配,没有考虑爬虫任务优先级 的影响和执行爬虫任务的爬虫服务器的负载情况,从而使得爬虫系统的爬虫任务调度不合 理,进而。
23、导致整个爬虫系统处理爬虫任务的效率较低。 0041 本实施例1中,为解决这一问题,在上述步骤S203中生成网络爬虫抓取任务后,在 本步骤S204中还确定生成的网络爬虫抓取任务的优先级,具体可基于URL的页面重要性指 标值、抓取频率指标值和页面深度指标值这三个指标值之一,或三个指标值中的任意组合, 确定生成的该网络爬虫抓取任务的优先级。 0042 优先级设置策略为:当其它指标值相同时,页面重要性指标值越大,所设置的优先 级越高;当其它指标值相同时,抓取频率指标值越大,所设置的优先级越高;当其它指标值 相同时,页面深度指标值越小,所设置的优先级越高。较佳的,具体可采用如下方式确定: 0043 确定。
24、网络爬虫抓取任务的优先级权重值为URL的页面重要性评价因子、抓取频率 评价因子和页面深度评价因子的负数中至少两项的和值,优先级权重值越大,该URL对应 的网络爬虫抓取任务的优先级越高; 0044 其中,页面重要性评价因子采用如下公式计算: 0045 其中, i 为当前已生成且未执行的各网络爬虫抓取任务 分别对应的各URL中第i个URL的页面重要性评价因子,该各URL可保存在URL队列中,PR i 为第i个URL的页面重要性指标值,min(PR)为队列中各URL的页面重要性指标值中的最 小值,max(PR)为队列中各URL的页面重要性指标值中的最大值。本实施例中,URL页面重 要性指标值,即pa。
25、gerank值可采用现有技术中的基于网络拓扑的PageRank算法确定,在此 说 明 书CN 102855248 A 4/10页 8 不再进行详细描述。 0046 抓取频率评价因子采用如下公式计算: 0047 其中, i 为第i个URL的抓取频率评价因子,F i 为第i个 URL的抓取频率指标值,min(F)为队列中各URL的抓取频率指标值中的最小值,max(F)为 队列中各URL的抓取频率指标值中的最大值。 0048 本实施例中,URL的页面抓取频率是对应于URL的抓取策略的指标值,内容分析为 了保持对URL对应网页更新的追踪,需要按照一定频率对URL进行重新抓取,上述抓取频率 指标值即当前。
26、重新抓取该URL的抓取频率,具体可采用如下公式计算F i : 0049 F i F B *f i (T),其中,F i 为第i个URL的当前抓取频率指标值,F B 为预设的基准抓 取频率,f i (T)为在上一个抓取频率调整周期T内第i个URL对应网页存在更新的比率统 计,即在上一个抓取频率调整周期T内,采用上一个抓取频率抓取该第i个URL时对应网页 发生更新的次数与抓取该第i个URL的总次数的比值。本实施例中,抓取频率调整周期T 和基准抓取频率F B 可根据实际需要进行设置。 0050 通过实际验证,发现抓取频率较另外两个指标值而言,其取值的分布差异较大,存 在分布不均的情况,如果单采用上述。
27、计算 i 的公式做线性归一化处理,可能会造成衰减过 急而使得到的 i 成为决定性因子的问题。因此,较佳的,本实施例1中可基于线性归一化 函数处理后得到结果,然后经过Sigmoid函数处理,以使得 i 的分布区间更平滑,具体如 下: 0051 a基于 i 所需的取值范围进行确定,例如,a取值为4。 0052 页面深度评价因子采用如下公式计算: 0053 其中, i 为第i个URL的页面深度评价因子,D i 为第i个 URL的页面深度指标值,min(D)为队列中各URL的页面重要性指标值中的最小值,max(D) 为队列中各URL的页面重要性指标值中的最大值。 0054 本实施例中,当第i个URL为。
28、一级URL时,即该第i个URL不包含子目录结构,且 非其他网页中的导航组件所指向的目标页面对应的URL,D i 取值为0; 0055 当第i个URL为非一级URL时,分两种情况确定D i ,其中,第一种情况是第i个URL 包含子目录结构,此时D i 为第i个URL中子目录的层数;第二种情况是第i个URL不包含 子目录结构,但为其他网页中的导航组件所指向的目标页面对应的URL,假设第i个URL对 应的网页是由其他网页中的导航组件经过N次指向后的页面,则此时D i 可取N值,但由于 实际中N值难以确定,所以,本实施例可根据当前实际网络拓扑的特点,D i 取设定值,例如, 取值为3。 0056 在采。
29、用上述公式计算出 i 、 i 和 i 后,第i个URL对应网络爬虫抓取任务的优 先级权重值Q i 为:Q i i + i - i ,Q i 值越大,对应的网络爬虫抓取任务的优先级越高。 0057 步骤S205、通过上述步骤S204中的方案确定出当前已生成且未执行的各网络爬 虫抓取任务的优先级后,即可按照优先级从高到低的顺序,执行已生成的网络爬虫抓取任 务,例如,从队列中优先提取优先级高的网路爬虫抓取任务,分配给执行任务的爬虫服务 说 明 书CN 102855248 A 5/10页 9 器。 0058 为了提高网络爬虫抓取任务的处理效率,本实施例1中采用分布式爬虫系统,即 使用多个爬虫服务器组成。
30、一组爬虫服务器,并行的处理网络爬虫抓取任务。 0059 本步骤中,可采用加权最小连接调度算法分配网络爬虫抓取任务,即在将已生成 的各网络爬虫抓取任务分配给这多个爬虫服务器时,可基于各爬虫服务器的当前负载情况 和执行网络爬虫抓取任务与网络的连接情况,选择一个爬虫服务器,并将当前待分配的网 络爬虫抓取任务分配给选择的该爬虫服务器,由该爬虫服务器执行该网络爬虫抓取任务, 具体方案如下: 0060 采用如下公式计算用于执行网络爬虫抓取任务的一组爬虫服务器中各爬虫服务 器的调度参考值: 0061 其中,S Si 为爬虫服务器Si的调度参考值,C Si 为爬虫服务器Si执 行网络爬虫抓取任务的当前连接数,。
31、C S 为各爬虫服务器的当前连接数的和值,W Si 为爬虫 服务器S Si 的当前负载指标值; 0062 从各爬虫服务器中选择调度参考值最小的爬虫服务器,执行当前待分配的网络爬 虫抓取任务。 0063 本步骤中,爬虫服务器执行分配到的网络爬虫抓取任务,具体可以为:确定该网络 爬虫抓取任务对应的URL,该URL也可称作种子URL,然后访问该种子URL对应的网页,从网 页中抓取页面内容,并根据抓取的内容解析出其中包含的URL链接,再访问包含的该URL链 接对应的网页,从网页中抓取页面内容,依次类推,并可将所抓取的页面内容进行保存,以 便后续进行分析。 0064 本实施例中,在执行网络爬虫抓取任务的。
32、过程中,可预先设置任务终止执行的条 件,例如,可在抓取的页面所对应的URL相比种子URL的深度值达到设定最大值时,终止该 网络爬虫抓取任务的执行;或者,当抓取的页面内容未包含URL链接时,即可停止该网络 爬虫抓取任务的执行;或者,考虑到抓取页面内容的目的是在后续步骤S104中对其进行分 析,并得到表征用户网络行为特征的信息,所以,只需要抓取的页面内容足够用于后续得到 用户网络行为特征的信息即可,如抓取的页面内容满足设定内容数量即可。 0065 本实施例1中,可将通过执行网络爬虫抓取任务所抓取到的网页的页面内容进行 存储,用于后续对其进行分析时使用。 0066 步骤S206、对上述步骤S205中。
33、抓取的页面内容进行分析,得到表征用户网络行为 特征的信息(为描述方便,将得到的该类信息称作第一类信息)。 0067 具体的,本步骤中可以对抓取的页面内容进行文本分析,例如采用分词、关键词挖 掘等文本分析技术进行分析,具体如下: 0068 获取抓取的页面内容,并对页面内容中包括的头文件区域(html语法head区域)、 页面标题区域(html语法title标签)、正文区域(html语法body区域或手工配置模板获 取的指定内容区域)、网页导航区、交互区(搜索框、登录框等)、广告区(页面投放各类广 告的区域)等进行识别,并对选定区域所包含的文本内容进行分词分析,即按照设定词过 滤策略过滤掉干扰词,。
34、如去除采用JS语法、CSS语法或系统定义的干扰词,并利用词语映射 表规则、语义结构表对文本内容进行量化,得到各词语,并通过关键词挖掘技术区分出网页 说 明 书CN 102855248 A 6/10页 10 的主题信息和关键词,最后与本地训练的知识库匹配,标注出该页面内容对应网页的内容 特征信息,将该内容特征信息作为表征用户网络行为特征的第一类信息。 0069 例如,通过执行网路爬虫抓取任务得到的页面内容所包含的网页头文件中,包含 “” 信息,说明这是简体中文类内容,需要以分析中文内容为主。若网页标题为“菜贱伤农,菜贵 伤民”,同时正文区域内容中出现一定频率的“蔬菜滞销”、“农民损失”等词语,则。
35、将该页面 内容特征信息确定为“民生时事类”;若正文区域内容中出现较多体育类词语,可将该页面 内容特征信息确定为“体育竞技类”,其中“民生时事类”和“体育竞技类”可为预先设置的 信息集合所包括的特征信息,该页面内容特征信息一定程度上表征了该用户所关注的网页 内容类别信息,所以该页面内容特征信息可以作为表征用户网络行为特征的信息。 0070 步骤S207、根据得到的上述第一类信息,确定该用户的特征信息。 0071 较简单的,可将上述得到的第一类信息,直接确定为该用户的特征信息,例如,将 上述步骤S206中页面内容特征信息,确定为该用户所关注的网页内容类别信息。 0072 还可以根据上述第一类信息,。
36、间接确定出该用户的特征信息,例如,确定出用户的 网站偏好信息、内容偏好信息、上网时段偏好信息等。 0073 较佳的,本步骤中,还可以获取表征用户的通信行为特征的第二类信息,以及表征 用户的消费行为特征的第三类信息,以及用户的身份信息,并将这三种信息之一或者这三 种信息中任意至少两种信息的组合,与上述步骤S206中得到的第一类信息相结合,确定出 用户的特征信息。 0074 其中,表征用户的通信行为特征的第二类信息具体可以包括:通话时长、主叫时 长、短信量、上行点对点短信量、GPRS流量等信息;表征用户的消费行为特征的第三类信息 具体可以包括:总费用、固定费用、通话费用、点对点短信费、数据业务费等。
37、;用户的身份信 息具体可以包括:用户性别、年龄、以及用户所使用用户终端的终端类型等。 0075 将这三种信息与第一类信息相结合,确定出用户的特征信息,具体可以包括用户 消费能力信息、用户倾向的网络服务类型信息、用户享有网络服务的趋势等。 0076 本发明上述实施例1提供的用户特征信息确定方法中,由于所确定的表征用户 网络行为特征的第一类信息,是通过对用户已访问网页的页面内容的分析得到的,所以该 第一类信息不同于现有技术通过对用户通信行为和用户消费行为进行分析得到的信息,所 以,根据得到的该第一类信息所确定的用户特征信息,也不同于现有技术中得到的用户特 征信息,因此,采用本发明实施例提供的方案,。
38、能够使得基于用户网络行为分析所确定的用 户特征信息更全面。 0077 并且,对于生成的网络爬虫抓取任务,基于URL的页面重要性指标值、抓取频率指 标值和/或页面深度指标值,确定了对应的优先级,相应的,按照优先级从高到低的顺序, 执行已生成的网络爬虫抓取任务,从而使得爬虫系统的爬虫任务调度更合理,进而提高了 处理爬虫任务的效率。 0078 并且,在执行网络爬虫抓取任务时,基于分布式爬虫系统,并采用上述加权最小连 接调度算法,为各爬虫服务器分配网络爬虫抓取任务,因此进一步提高了处理爬虫任务的 效率。 0079 实施例2: 说 明 书CN 102855248 A 10 7/10页 11 0080 基。
39、于同一发明构思,根据本发明上述实施例提供的用户特征信息的确定方法,相 应地,本发明实施例2还提供了一种用户特征信息的确定装置,其结构示意图如图3所示, 具体包括: 0081 第一确定单元301,用于确定用户使用用户终端已访问的网页的统一资源定位符 URL; 0082 生成单元302,用于生成与确定的所述URL对应的网络爬虫抓取任务; 0083 执行单元303,用于执行生成的所述网络爬虫抓取任务,抓取所述URL对应网页的 页面内容; 0084 分析单元304,用于对抓取的所述页面内容进行分析,得到表征用户网络行为特征 的第一类信息; 0085 第二确定单元305,用于根据得到的所述第一类信息,确。
40、定所述用户的特征信息。 0086 较佳的,生成单元302,还用于基于所述URL的页面重要性指标值、抓取频率指标 值和页面深度指标值中的至少一种指标值,确定生成的所述网络爬虫抓取任务的优先级; 0087 所述执行单元303,具体用于按照所述优先级从高到低的顺序,执行生成的所述网 络爬虫抓取任务。 0088 较佳的,生成单元302,具体用于确定所述网络爬虫抓取任务的优先级权重值为所 述URL的页面重要性评价因子、抓取频率评价因子和页面深度评价因子的负数中至少两项 的和值,所述优先级权重值越大,所述URL对应的网络爬虫抓取任务的优先级越高; 0089 其中,所述页面重要性评价因子采用如下公式计算: 。
41、0090 其中, i 为当前已生成且未执行的各网络爬虫抓取任务 分别对应的各URL中第i个URL的页面重要性评价因子,PR i 为所述第i个URL的页面重要 性指标值,min(PR)为所述各URL的页面重要性指标值中的最小值,max(PR)为所述各URL 的页面重要性指标值中的最大值; 0091 所述抓取频率评价因子采用如下公式计算: 0092 或其中, i 为当前已生成且未执行的 各网络爬虫抓取任务分别对应的各URL中第i个URL的抓取频率评价因子,F i 为所述第i 个URL的抓取频率指标值,min(F)为所述各URL的抓取频率指标值中的最小值,max(F)为 所述各URL的抓取频率指标值。
42、中的最大值,a基于 i 所需的取值范围进行确定; 0093 所述页面深度评价因子采用如下公式计算: 0094 其中, i 为当前已生成且未执行的各网络爬虫抓取任务分 别对应的各URL中第i个URL的页面深度评价因子,D i 为所述第i个URL的页面深度指标 值,min(D)为所述各URL的页面重要性指标值中的最小值,max(D)为所述各URL的页面重 要性指标值中的最大值。 0095 较佳的,所述执行单元303,具体用于采用如下公式计算用于执行网络爬虫抓取任 务的一组爬虫服务器中各爬虫服务器的调度参考值,并从所述各爬虫服务器中选择所述调 度参考值最小的爬虫服务器,执行当前待分配的网络爬虫抓取任。
43、务: 说 明 书CN 102855248 A 11 8/10页 12 0096 其中,S Si 为爬虫服务器Si的调度参考值,C Si 为爬虫服务器Si执 行网络爬虫抓取任务的当前连接数,C S 为各爬虫服务器的当前连接数的和值,W Si 为爬虫 服务器S Si 的当前负载指标值。 0097 较佳的,第二确定单元305,具体用于将得到的所述第一类信息,确定为所述用户 的特征信息;或者将表征所述用户的通信行为特征的第二类信息、表征所述用户的消费行 为特征的第三类信息和/或所述用户的身份信息,与得到的所述第一类信息相结合,确定 所述用户的特征信息。 0098 较佳的,分析单元304,具体用于对抓取。
44、的所述页面内容进行文本分析。 0099 较佳的,生成单元302,还用于在生成单元302生成与确定的所述URL对应的网络 爬虫抓取任务前,对确定的所述URL进行过滤,保留文本类网页对应的URL;并具体用于生 成与保留的文本类网页对应的URL对应的网络爬虫抓取任务。 0100 第一确定单元301,具体用于获取网关保存的用户访问日志文件;并对所述用户 访问日志文件的内容进行分析,提取用户信息;以及从所述用户访问日志文件的内容中,确 定所述用户信息对应的用户已访问的网页的URL。 0101 实施例3: 0102 基于同一发明构思,根据本发明上述实施例提供的用户特征信息的确定方法,相 应地,本发明实施例。
45、2还提供了一种用户特征信息的确定系统,其结构示意图如图4所示, 具体包括:分析服务器401和爬虫服务器402,其中: 0103 分析服务器401,用于确定用户使用用户终端已访问的网页的统一资源定位符 URL;并生成与确定的所述URL对应的网络爬虫抓取任务;以及对爬虫服务器402执行所 述网络爬虫抓取任务后抓取的页面内容进行分析,得到表征用户网络行为特征的第一类信 息;并根据得到的所述第一类信息,确定所述用户的特征信息; 0104 爬虫服务器402,用于执行分析服务器401生成的所述网络爬虫抓取任务,抓取所 述URL对应网页的所述页面内容。 0105 较佳的,上述系统,还包括:ETL(Extra。
46、ction-Transformation-Loading,数据提 取、转换和加载)调度中心403; 0106 ETL调度中心403,用于获取无线应用协议WAP网关保存的用户访问日志文件; 0107 数据库服务器404,用于存储ETL调度中心403获取的所述用户访问日志文件;还 可以用于存储爬虫服务器402抓取的页面内容,以及还可以存储确定的用户的特征信息。 0108 分析服务器401,具体用于对数据库服务器404中存储的所述用户访问日志文件 的内容进行分析,提取用户信息;并从所述用户访问日志文件的内容中,确定所述用户信息 对应用户已访问的网页的URL。 0109 较佳的,分析服务器401,具体。
47、用于将得到的所述第一类信息,确定为所述用户的 特征信息;或者将表征所述用户的通信行为特征的第二类信息、表征所述用户的消费行为 特征的第三类信息和/或所述用户的身份信息,与得到的所述第一类信息相结合,确定所 述用户的特征信息。 0110 较佳的,分析服务器401,具体用于对抓取的所述页面内容进行文本分析。 0111 较佳的,分析服务器401,还用于在生成与确定的所述URL对应的网络爬虫抓取任 说 明 书CN 102855248 A 12 9/10页 13 务前,对确定的所述URL进行过滤,保留文本类网页对应的URL,丢弃非文本类网页对应的 URL;并具体用于生成与保留的文本类网页对应的URL对应。
48、的网络爬虫抓取任务。 0112 较佳的,分析服务器401,还用于在生成与确定的所述URL对应的网络爬虫抓取 任务后,基于所述URL的页面重要性指标值、抓取频率指标值和/或页面深度指标值,确定 生成的所述网络爬虫抓取任务的优先级,所述页面重要性指标值和所述抓取频率指标值越 大,所述优先级越高,所述页面深度指标值越小,所述优先级越高;并按照所述优先级从高 到低的顺序,将网络爬虫抓取任务分配给所述爬虫服务器。 0113 较佳的,分析服务器401,具体用于确定所述网络爬虫抓取任务的优先级权重值为 所述URL的页面重要性评价因子、抓取频率评价因子和页面深度评价因子的负数中至少两 项的和值,所述优先级权重。
49、值越大,所述URL对应的网络爬虫抓取任务的优先级越高; 0114 其中,所述页面重要性评价因子采用如下公式计算: 0115 其中, i 为当前已生成且未执行的各网络爬虫抓取任务 分别对应的各URL中第i个URL的页面重要性评价因子,PR i 为所述第i个URL的页面重要 性指标值,min(PR)为所述各URL的页面重要性指标值中的最小值,max(PR)为所述各URL 的页面重要性指标值中的最大值; 0116 所述抓取频率评价因子采用如下公式计算: 0117 或其中, i 为当前已生成且未执行的 各网络爬虫抓取任务分别对应的各URL中第i个URL的抓取频率评价因子,F i 为所述第i 个URL的抓取频率指标值,min(F)为所述各URL的抓取频率指标值中的最小值,m。