专线用户的识别方法及装置.pdf
《专线用户的识别方法及装置.pdf》由会员分享,可在线阅读,更多相关《专线用户的识别方法及装置.pdf(15页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010285794.6 (22)申请日 2020.04.13 (71)申请人 中国联合网络通信集团有限公司 地址 100033 北京市西城区金融大街21号 申请人 中讯邮电咨询设计院有限公司 (72)发明人 班瑞李彤马季春白海龙 陈泉霖郝宇飞王鹏邹雨佳 王佳 (74)专利代理机构 北京中博世达专利商标代理 有限公司 11274 代理人 申健 (51)Int.Cl. H04L 12/28(2006.01) G06K 9/62(2006.01) (54)发明名称 一种专线用户的。
2、识别方法及装置 (57)摘要 本申请提供一种专线用户的识别方法及装 置, 涉及通信技术领域, 用于对专线用户进行高 效率的自动识别。 该方法包括: 服务器通过深度 报文检测DPI获取待识别用户的业务特征数据, 业务特征数据包括以下一项或多项: 待识别用户 的业务偏好标签、 设备连接类型、 设备连接数量、 业务时间属性、 地理位置标签; 服务器将待识别 用户的业务特征数据输入到专线用户识别模型 中, 确定待识别用户是否为专线用户; 若待识别 用户是专线用户, 则服务器为待识别用户设置专 线标签, 该专线标签用于指示待识别用户是专线 用户。 本申请应用于服务器识别专线用户。 权利要求书2页 说明书。
3、10页 附图2页 CN 111585851 A 2020.08.25 CN 111585851 A 1.一种专线用户的识别方法, 其特征在于, 所述方法包括: 通过深度报文检测DPI获取待识别用户的业务特征数据, 所述业务特征数据包括以下 一项或多项: 待识别用户的业务偏好标签、 设备连接类型、 设备连接数量、 业务时间属性、 或 地理位置标签; 将所述待识别用户的所述业务特征数据输入到预先训练好的专线用户识别模型中, 确 定所述待识别用户是否为专线用户; 若所述待识别用户是所述专线用户, 则为所述待识别用户设置专线标签, 所述专线标 签用于指示所述待识别用户是专线用户。 2.根据权利要求1所。
4、述的专线用户的识别方法, 其特征在于, 通过DPI获取用户的业务 特征数据, 具体包括: 通过DPI采集所述待识别用户的业务流量数据, 生成DPI话单; 其中, 所述DPI话单包括 以下一项或多项: IP的使用时段、 使用位置、 设备类型、 协议类型分布、 或http请求关键字集 合; 根据所述DPI话单, 获取所述待识别用户的业务特征数据。 3.根据权利要求1或2所述的专线用户的识别方法, 其特征在于, 所述方法包括: 根据支持向量机SVM分类器, 构建所述专线用户识别模型。 4.根据权利要求3所述的专线用户的识别方法, 其特征在于, 根据支持向量机SVM分类 器, 构建所述专线用户识别模型。
5、具体包括: 获取学习数据集, 所述学习数据集包括多个样本数据, 每一个样本数据包括一个样本 用户的所述业务特征数据; 对所述业务特征数据进行数据预处理, 所述数据预处理包括对存在无效值和缺失值的 数据的过滤; 根据所述数据预处理后的业务特征数据, 构建所述专线用户识别模型。 5.一种服务器, 其特征在于, 所述服务器包括: 获取模块, 用于通过深度报文检测DPI获取待识别用户的业务特征数据, 所述业务特征 数据包括以下一项或多项: 待识别用户的业务偏好标签、 设备连接类型、 设备连接数量、 业 务时间属性、 地理位置标签; 处理模块, 用于将所述待识别用户的所述业务特征数据输入到训练完成的专线。
6、用户识 别模型中, 确定所述待识别用户是否为专线用户; 用于在所述待识别用户是所述专线用户 时, 为所述待识别用户设置专线标签, 所述专线标签用于指示所述待识别用户是专线用户。 6.根据权利要求5所述的服务器, 其特征在于, 所述处理模块, 还用于通过DPI采集所述待识别用户的业务流量数据, 生成DPI话单; 其 中, 所述DPI话单包括以下一项或多项: IP的使用时段、 使用位置、 设备类型、 协议类型分布、 http请求关键字集合; 所述获取模块, 还用于根据所述DPI话单, 获取所述待识别用户的业务特征数据。 7.根据权利要求5时或6所述的服务器, 其特征在于, 所述处理模块, 还用于根。
7、据支持向量机SVM分类器, 构建所述专线用户识别模型。 8.根据权利要求7所述的服务器, 其特征在于, 所述获取模块, 还用于获取学习数据集, 所述学习数据集包括多个样本数据, 每一个样 权利要求书 1/2 页 2 CN 111585851 A 2 本数据包括一个样本用户的所述业务特征数据; 所述处理模块, 还用于对所述业务特征数据进行数据预处理, 所述数据预处理包括对 存在无效值和缺失值的数据的过滤; 还用于根据所述数据预处理后的业务特征数据, 构建 所述专线用户识别模型。 9.一种服务器, 其特征在于, 包括: 处理器和通信接口; 所述通信接口和所述处理器耦 合, 所述处理器用于运行计算机。
8、程序或指令, 以实现上述权利要求1-4任一项中所述的专线 用户的识别方法。 10.一种计算机可读存储介质, 所述计算机可读存储介质中存储有指令, 其特征在于, 当计算机执行所述指令时, 所述计算机执行上述权利要求1-4任一项中所述的专线用户的 识别方法。 权利要求书 2/2 页 3 CN 111585851 A 3 一种专线用户的识别方法及装置 技术领域 0001 本申请涉及通信领域, 尤其涉及一种专线用户的识别方法及装置。 背景技术 0002 在现代运营中, 运营商经常把一些长期固定占有网络IP地址资源的客户配置成静 态专线用户(Internet protocol host, IPHOST)。
9、, 简称专线用户。 这些专线用户在运营网络 中具有许多特权, 例如, 只要在宽带接入服务器(broadband remote access server, BRAS) 中学习到物理MAC地址, 就可以成为在线用户, 长期享受网络资源。 即使专线用户没有学习 到MAC地址, 已经配置存在的IP地址也不能提供给其他用户。 也就是说, 专线用户无论是否 真正在线, 都独占IP地址和一些网络资源。 0003 基于上述情况, 运营商在提供通信业务过程中, 需要对专线用户进行识别。 目前, 专线用户的识别主要依靠与专线资源信息进行关联进行识别。 但是这种方法存在许多缺 点: 在专线资源信息不全或无法提供相。
10、关资源信息时, 存在漏识别或无法识别的情况; 该专 线资源信息需要人力进行定时数据同步, 存在一定的时间差。 进而, 这些缺点导致该方法的 识别准确率无法达到运营商的需求。 0004 因此, 现阶段需要一种合适的解决方案, 用以解决如何实现高效率的对专线用户 进行自动识别的问题。 发明内容 0005 本申请提供一种专线用户的识别方法及装置, 用以解决现阶段如何实现高效率的 对专线用户进行自动识别的问题。 0006 为达到上述目的, 本申请采用如下方案: 0007 第一方面, 本申请提供了一种专线用户的识别方法, 包括: 服务器通过深度报文检 测DPI获取待识别用户的业务特征数据, 业务特征数据。
11、包括以下一项或多项: 待识别用户的 业务偏好标签、 设备连接类型、 设备连接数量、 业务时间属性、 地理位置标签。 服务器将待识 别用户的业务特征数据输入到预先训练好的专线用户识别模型中, 确定待识别用户是否为 专线用户。 若待识别用户是专线用户, 则服务器为该待识别用户设置专线标签, 专线标签用 于指示该待识别用户是专线用户。 0008 基于上述技术方案, 服务器通过DPI获取待识别用户的业务特征数据, 该业务特征 数据包括以下一项或多项: 待识别用户的业务偏好标签、 设备连接类型、 设备连接数量、 业 务时间属性、 地理位置标签。 之后, 服务器根据多个待识别用户在历史时间内的业务特征数 。
12、据, 利用机器学习方式构建专线用户识别模型。 在构建专线用户识别模型的过程中, 待识别 用户的业务特征数据为专线用户识别模型的构建提供了业务属性、 设备类型及数目、 地理 位置三方面的特征数据, 提高了专线用户识别模型对专线用户的识别率和准确性。 最后, 服 务器将待识别用户的当前业务特征数据输入至专线用户识别模型中, 实现高效率的对专线 用户进行自动识别的效果。 说明书 1/10 页 4 CN 111585851 A 4 0009 一种可能的设计中, 服务器通过DPI获取用户的业务特征数据, 包括: 服务器通过 DPI对原始流量进行采集, 生成DPI话单; 其中, 所述DPI话单包括以下一项。
13、或多项: IP的使用 时段、 使用位置、 设备类型、 协议类型分布、 http请求关键字集合。 0010 一种可能的设计中, 服务器根据支持向量机SVM分类器, 构建专线用户识别模型。 0011 一种可能的设计中, 专线用户识别模型的构建具体包括: 获取学习数据集, 学习数 据集包括多个样本数据, 每一个样本数据包括一个样本用户的业务特征数据。 对业务特征 数据进行数据预处理, 数据预处理包括对存在无效值和缺失值的数据的过滤。 根据数据预 处理后的业务特征数据, 构建专线用户识别模型。 0012 第二方面, 本申请提供了一种服务器, 包括: 获取模块, 用于通过深度报文检测DPI 获取待识别用。
14、户的业务特征数据, 业务特征数据包括以下一项或多项: 待识别用户的业务 偏好标签、 设备连接类型、 设备连接数量、 业务时间属性、 地理位置标签。 处理模块, 用于将 待识别用户的业务特征数据输入到训练完成的专线用户识别模型中, 确定待识别用户是否 为专线用户; 用于在待识别用户是专线用户时, 为待识别用户设置专线标签, 专线标签用于 指示待识别用户是专线用户。 0013 一种可能的设计中, 处理模块, 还用于通过DPI采集待识别用户的业务流量数据, 生成DPI话单; 其中, DPI话单包括以下一项或多项: IP的使用时段、 使用位置、 设备类型、 协 议类型分布、 http请求关键字集合。 。
15、获取模块, 还用于根据DPI话单, 获取待识别用户的业务 特征数据。 0014 一种可能的设计中, 处理模块, 还用于根据支持向量机SVM分类器, 构建专线用户 识别模型。 0015 一种可能的设计中, 获取模块, 还用于获取学习数据集, 学习数据集包括多个样本 数据, 每一个样本数据包括一个样本用户的业务特征数据。 处理模块, 还用于对业务特征数 据进行数据预处理, 数据预处理包括对存在无效值和缺失值的数据的过滤; 还用于根据数 据预处理后的业务特征数据, 构建专线用户识别模型。 0016 第三方面, 本申请提供了一种服务器, 包括: 处理器和通信接口; 通信接口和处理 器耦合, 处理器用于。
16、运行计算机程序或指令, 以实现如第一方面和第一方面的任一种可能 的实现方式中所描述的专线用户的识别方法。 0017 第四方面, 本申请提供了一种计算机可读存储介质, 计算机可读存储介质中存储 有指令, 当指令在计算机上运行时, 使得计算机执行上述第一方面和第一方面的任一种可 能的实现方式中所描述的专线用户的识别方法。 0018 第五方面, 本申请提供一种包含指令的计算机程序产品, 当计算机程序产品在计 算机上运行时, 使得计算机执行上述第一方面和第一方面的任一种可能的实现方式中所描 述的专线用户的识别方法。 0019 第六方面, 本申请提供一种芯片, 芯片包括处理器和通信接口, 通信接口和处理。
17、器 耦合, 处理器用于运行计算机程序或指令, 以实现如第一方面和第一方面的任一种可能的 实现方式中所描述的专线用户的识别方法。 附图说明 0020 图1为本申请实施例提供的一种专线用户的识别方法的流程示意图; 说明书 2/10 页 5 CN 111585851 A 5 0021 图2为本申请实施例提供的另一种专线用户的识别方法的流程示意图; 0022 图3为本申请实施例提供的一种服务器的结构示意图; 0023 图4为本申请实施例提供的另一种服务器的结构示意图。 具体实施方式 0024 下面将结合本申请实施例中的附图, 对本申请实施例中的技术方案进行清楚、 完 整地描述, 显然, 所描述的实施例。
18、仅仅是本申请一部分实施例, 而不是全部的实施例。 基于 本申请中的实施例, 本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它 实施例, 都属于本申请保护的范围。 0025 本文中字符 “/” , 一般表示前后关联对象是一种 “或者” 的关系。 例如, A/B可以理解 为A或者B。 0026 本申请的说明书和权利要求书中的术语 “第一” 和 “第二” 是用于区别不同的对象, 而不是用于描述对象的特定顺序。 例如, 第一边缘服务节点和第二边缘服务节点是用于区 别不同的边缘服务节点, 而不是用于描述边缘服务节点的特征顺序。 0027 此外, 本申请的描述中所提到的术语 “包括” 和 “具。
19、有” 以及它们的任何变形, 意图 在于覆盖不排他的包含。 例如包含了一系列步骤或模块的过程、 方法、 系统、 产品或设备没 有限定于已列出的步骤或模块, 而是可选地还包括其他没有列出的步骤或模块, 或可选地 还包括对于这些过程、 方法、 产品或设备固有的其它步骤或模块。 0028 另外, 在本申请实施例中,“示例性的” 、 或者 “例如” 等词用于表示作例子、 例证或 说明。 本申请中被描述为 “示例性的” 或 “例如” 的任何实施例或设计方案不应被解释为比其 它实施例或设计方案更优选或更具优势。 确切而言, 使用 “示例性的” 、 或者 “例如” 等词旨在 以具体方式呈现概念。 0029 为。
20、了便于理解本申请的技术方案, 下面对一些技术术语进行介绍。 0030 1、 深度报文检测 0031 深度报文检测(deep packet inspection, DPI), 是一种基于数据包的深度检测技 术, 针对不同的网络应用层载荷(例如HTTP、 DNS等)进行深度检测, 通过对报文的有效载荷 检测决定其合法性。 0032 在本申请中, 服务器通过DPI对源始流量进行采集, 获取DPI话单。 0033 2、 支持向量机分类器 0034 支持向量机(support vector machine, SVM)分类器, 是一类按监督学习 (supervised learning)方式对数据进行二元。
21、分类的广义线性分类器(generalized linear classifier), 其决策边界是对学习样本求解的最大边距超平面(maximum-margin hyperplane)。 0035 SVM使用铰链损失函数(hinge loss)计算经验风险(empirical risk)并在求解系 统中加入了正则化项以优化结构风险(structural risk), 是一个具有稀疏性和稳健性的 分类器。 SVM可以通过核方法(kernel method)进行非线性分类, 是常见的核学习(kernel learning)方法之一。 下面对SVM分类器的步骤进行简介: 0036 给定训练样本集: D。
22、(x1, y1),(x2,y2),.,(xm,ym),yi-1,1。 0037 SVM线性分类器基于训练样本D在二维空间中找到一个超平面来分开二类样本。 说明书 3/10 页 6 CN 111585851 A 6 0038 在样本空间中划分超平面可通过如下线性方程来描述: 0039 wTxi+b0 0040 其中w(w1; w2; .; wd)为法向量, 决定超平面的方向, b为位移项, 决定超平面与 原始点的距离。 下面我们将该超平面记为(w,b)。 样本空间任意点x到超平面的距离可写为: 0041 0042 若超平面能将训练样本正确分类, 则: 0043 0044 距离超平面最近的训练样本。
23、使上式成立, 它们被称为支持向量, 两个异类支持向 量到超平面的距离之和为: 0045 0046 上式被称为间隔, 欲找到具有最大间隔的划分超平面, 也就是要找到满足约束参 数w和b, 使最大。 通过推导可知, 为了最大化异类间隔, 仅需最大化|w|-1, 可得svm的基 本型: 0047 0048 s.t.yi(wTxi+b)1,i1,2,.,m 0049 其目的是得到最大间隔超平面所对应的模型为: 0050 f(x)wTxi+b 0051 由上面的基本型可以看出, 目标函数是二次的, 约束条件是线性的。 这是一个凸二 次规划问题, 可以直接用现成的优化计算包求解, 也可利用 “对偶问题” 。
24、来求解, 这里不再详 述。 另外若训练结果仍然呈现线性不可分性, 可加入核函数进一步优化。 0052 本申请实施例提供的技术方案可以应用于专线用户识别, 主要用于在专线资源信 息不全或无法提供相关资源表情况下专线用户无法识别的问题。 在现有技术中, 主要依靠 与专线资源信息进行关联进行识别, 这种识别方法快速高效, 但是对于专线资源信息不全 或无法提供相关资源下存在漏识别或无法识别的情况。 例如, 当专线资源信息表出现不完 整或不同步时, 会出现无法识别或误识别的情况。 此时, 为解决上述情况所带来的影响, 需 要人工进行定时同步, 更新专线资源信息表, 但是这样会存在时间差问题, 不能及时准。
25、确的 识别专线用户, 也增加了人力资源的消耗。 0053 本申请实施例通过建立专线用户识别模型实现对专线用户的识别, 根据多个样本 用户的历史业务特征数据获取学习数据集, 并对学习数据集进行数据处理和数据分析, 以 降低专线用户识别模型的学习难度。 之后, 将学习数据集结合SVM分类器构建专线用户识别 模型, 并进行迭代训练与算法调整, 最终得到能用于实践的专线用户识别模型。 本申请实施 说明书 4/10 页 7 CN 111585851 A 7 例致力于解决目前专线用户识别效率低下的问题, 为后续运营商对专线用户的维护与管 理, 提供良好的基础。 0054 下面结合说明书附图, 对本申请所提。
26、供的技术方案进行具体阐述。 0055 如图1所示, 为本申请实施例提供的一种专线用户的识别方法, 该方法包括以下步 骤: 0056 S101、 服务器通过DPI获取待识别用户的业务特征数据。 0057 其中, 业务特征数据可以包括以下一项或多项: 待识别用户的设备型号、 业务账 号、 业务访问类型、 业务访问时间、 操作系统编号、 IMEI、 GPS位置信息。 0058 可选的, 服务器通过DPI采集待识别用户的业务流量数据, 生成DPI话单。 其中, DPI 话单包括以下一项或多项: IP的使用时段、 使用位置、 设备类型、 协议类型分布、 http请求关 键字集合。 0059 S102、 。
27、服务器将待识别用户的业务特征数据输入到预先训练好的专线用户识别模 型中。 0060 可选的, 服务器根据SVM分类器进行构建专线用户识别模型。 0061 可以理解的是, 服务器在将待识别用户的业务特征数据输入到训练完成的专线用 户识别模型后, 专线用户识别模型输出识别结果。 其中, 识别结果包括: 待识别用户为专线 用户或待识别用户为普通用户。 0062 S103、 服务器根据专线用户识别模型输出的识别结果, 对待识别用户进行标记。 0063 可选的, 服务器根据专线标签和普通标签对待识别用户进行标记。 其中, 专线标签 用于指示被标记的用户是专线用户, 普通标签用于指示被标记的用户是普通用户。
28、。 若专线 用户识别模型输出的识别结果为待识别用户是专线用户, 则服务器用专线标签对该待识别 用户进行标记; 若专线用户识别模型输出的识别结果为待识别用户是普通用户, 则服务器 用普通标签对该待识别用户进行标记。 例如, 专线用户标记为 “1” , 普通用户标记为 “-1” 。 0064 基于上述技术方案, 服务器通过DPI获取待识别用户的业务特征数据, 之后, 服务 器将该业务特征数据输入到训练完成的专线用户识别模型中, 确定该待识别用户是否为专 线用户, 最后, 服务器对识别出的专线用户进行标记, 使得运营商对专线用户进行便捷的维 护与管理。 这样一来, 服务器能够利用待识别用户的业务特征。
29、数据和训练完成的专线用户 识别模型, 对专线用户进行自动识别, 同时提高了在专线用户识别过程中的识别率和准确 性。 0065 如图2所示, 为本申请实施例提供的另一种专线用户的识别方法, 该方法包括构建 专线用户识别模型, 在步骤S101之后还包括以下步骤: 0066 S201、 服务器获取学习数据集。 0067 其中, 学习数据集包括多个样本用户的业务特征数据。 0068 例如, 服务器选取至少五千名样本用户的业务特征数据作为数据源, 之后对该数 据源进行数据标准化构造, 得出学习数据集。 其中, 数据源包含一定比例的专线用户的业务 特征数据。 0069 可选的, 服务器对数据源进行数据标准。
30、化构造包括从数据源中提取有效数据特 征, 以单个IP地址为单位, 构造样本集合; 并以专线标签对专线用户进行标记, 以普通标签 对普通用户进行标记。 其中, 专线标签用于指示被标记的用户是专线用户, 普通标签用于指 说明书 5/10 页 8 CN 111585851 A 8 示被标记的用户是普通用户。 0070 可以理解的是, 选取多名样本用户的业务特征数据作为数据源, 是为了保证用于 训练专线用户识别模型的数据的丰富度, 并且降低训练专线用户识别模型在识别用户类型 的过程中的偶然性, 提高专线用户识别模型在识别用户类型时的准确率。 0071 可选的, 学习数据集还包括专线用户资源信息表。 专。
31、线用户资源信息表用于指示 该表中的业务特征数据来自于专线用户。 0072 可选的, 服务器选取学习数据集的70作为训练数据集, 选取学习数据集的30 作为测试数据集。 其中, 训练数据集用于初步构建和训练专线用户识别模型; 测试数据集用 于对初步构建和训练后的专线用户识别模型进行测试, 判断其准确率是否符合准确阈值的 要求。 准确阈值可以根据实际需求设定, 例如95。 0073 可以理解的是, 将学习数据集按照一定比例划分为训练数据集合测试数据集, 是 为了保证专线用户识别模型在识别用户类型时的可靠性, 如果训练和测试使用相同的业务 特征数据, 避免出现当专线用户识别模型对学习数据集过拟合时无。
32、法检测出来的情况。 0074 S202、 服务器对学习数据集进行数据预处理。 0075 可选的, 服务器对学习数据集进行数据预处理包括: 过滤掉包含无效值的数据和 包含缺失值的数据。 0076 需要说明的是, 通过前述的数据标准化操作后, 就会把数据格式化成固定的格式, 这个时候可能就会有一些无效的数据出现, 例如: 关键字段为空, 数据值不在筛选范围内的 数据。 因此, 需要服务器对包含无效值的数据和包含缺失值的数据进行过滤。 0077 S203、 服务器对学习数据集进行分析, 获取有效特征值。 0078 可选的, 服务器以专线用户和普通用户作为统计单位, 对学习数据集进行统计分 析, 获取。
33、特征值。 其中, 特征值可以包括以下一项或多项: 专线用户群体和普通用户群体下 各会话端口号分布、 会话业务类型分布、 会话请求的中英词汇关键词分布等。 0079 示例性的, 特征值满足以下公式的特征点为较大差异特征点, 服务器将该较大差 异特征点的特征值设置为有效特征值: 0080 0081 0082 0083 其中, ni和Ni分别为产生某i特征的总用户数以及总产生的会话数量, 下标h表示该 统计值为普通用户的统计值, 下标s表示该统计值为专线用户的统计值; 专线用户在各个特 征点i上的热度值为Si, 普通用户为Hi; 特征点差异大小阈值为T。 0084 可以理解的是, 判断专线用户用和普。
34、通用户之间的较大差异特征点, 并将该较大 差异特征点的特征值设置为有效特征值, 是为了提取有效数据, 以降低专线用户识别模型 说明书 6/10 页 9 CN 111585851 A 9 的学习难度。 例如, 某政府机关与一住宅小区位于同一地理区域范围内, 政府机关的宽带使 用高峰时间通常是8点30分至17点30分, 而住宅小区的住户的宽带使用高峰时间通常是19 点30分至23点30分。 在这种情况下, 选取上网峰值时间这一特征点作为较大差异特征点, 提 取其时间特征值作为有效特征值, 就可以降低专线用户识别模型的学习难度。 0085 S204、 服务器根据SVM分类器, 构建专线用户识别模型。。
35、 0086 可选的, 服务器设定初始模型参数列表。 例如, SVM分类器可从Sklearn库中选取配 置多种参数。 0087 可选的, 根据交叉验证网格搜索方法从初始模型参数列表中寻找模型构建的最优 参数。 示例性的, 寻找过程如下: 从可选参数列表中选取一组参数用来构造专线用户识别模 型; 输入训练数据开始训练; 达到既定的训练目标后, 将模型保存到模型库里进行模型优劣 比较; 继续循环第一步操作, 直至将初始模型参数列表遍历完全; 最后, 选定最优的一组参 数, 以及根据该组参数训练好的专线用户识别模型。 0088 示例性的, SVM分类器可从Sklearn库中选取的参数有如下几种: 00。
36、89 (1)惩罚系数C 0090 错误项的惩罚系数C越大, 即对分错样本的惩罚程度越大, 因此在训练样本中准确 率越高, 但是泛化能力降低; 相反, 减小惩罚系数C的话, 就会允许训练样本中有一些误分类 错误样本, 泛化能力强。 0091 (2)Kernel参数 0092 该参数用于选择模型所使用的核函数, 算法中常用的核函数有: linear线性核函 数; poly多项式核函数; rbf径像核函数/高斯核; sigmod核函数; precomputed核矩阵。 0093 (3)gamma参数 0094 该参数为核函数系数, 只对rbf、 poly、 以及sigmod有效。 如果gamma设置。
37、为auto, 代 表其值为样本特征数的倒数, 即1/n_features。 同时, 也有其他值可设定。 0095 (4)degree参数 0096 该参数只对kernelpoly(多项式核函数)有用, 是指多项式核函数的阶数n, 如 果给的核函数参数是其他核函数, 则会自动忽略该参数。 0097 (5)coef0参数 0098 该参数表示核函数中的独立项, 只有对poly和sigmod核函数有用, 是指其中的参 数c。 0099 可以理解的是, 在SVM分类器选取配置多种参数时, 可以根据训练数据集中的有效 特征值进行选取。 在SVM分类器选取配置多种参数并建立初始模型参数列表之后, SVM分。
38、类 器根据训练数据集, 初步建立专线用户识别模型。 这样一来, SVM分类器在建立专线用户识 别模型时, 选取训练数据集中的有效特征值, 就降低了专线用户识别模型的学习难度。 0100 S205、 服务器确认专线用户识别模型能否用于实际专线用户的识别。 0101 可选的, 服务器预设达标阈值, 并根据该达标阈值与F值判断专线用户识别模型的 识别能力是否达标, 能否用于实际专线用户的识别。 其中, F值用于反应专线用户识别模型 的识别能力的强弱。 0102 可选的, 选取统计学分类领域的两个度量值: 准确率和召回率, 来作为计算F值的 参数。 在本申请中, 利用准确率和召回率计算F值的方法如下:。
39、 说明书 7/10 页 10 CN 111585851 A 10 0103 0104 0105 0106 需要说明的是, 上述准确率和召回率是根据测试数据集计算的。 其中, 在测试数据 集用于对初步构建和训练后的专线用户识别模型进行测试后, 根据测试结果, 统计准确率 和召回率。 0107 示例性的, 服务器可以将达标阈值设置为80, 当专线用户识别模型的F值达到 80时, 则认为此时专线用户识别模型的识别能力足够强, 能够用于实际专线用户的识别。 0108 基于上述技术方案, 服务器根据多个样本用户的历史业务特征数据获取学习数据 集, 并对学习数据集进行数据处理和数据分析, 以降低专线用户识。
40、别模型的学习难度。 之 后, 将学习数据集结合SVM分类器构建专线用户识别模型, 并进行迭代训练与算法调整, 最 终得到能用于实践的专线用户识别模型。 最后, 当专线用户识别模型的识别能力达到预设 标准时, 将其用于实际专线用户的识别。 本申请实施例利用机器学习方式构造专线用户识 别模型, 提高了专线用户识别模型的识别能力。 0109 本申请实施例可以根据上述方法示例对服务器进行功能模块或者功能单元的划 分, 例如, 可以对应各个功能划分各个功能模块或者功能单元, 也可以将两个或两个以上的 功能集成在一个处理模块中。 上述集成的模块既可以采用硬件的形式实现, 也可以采用软 件功能模块或者功能单。
41、元的形式实现。 其中, 本申请实施例中对模块或者单元的划分是示 意性的, 仅仅为一种逻辑功能划分, 实际实现时可以有另外的划分方式。 0110 如图3所示, 为本申请实施例提供的一种服务器30的结构示意图, 用于执行上述专 线用户的识别方法, 所述服务器30包括: 0111 获取模块301, 用于通过深度报文检测DPI获取待识别用户的业务特征数据, 业务 特征数据包括以下一项或多项: 待识别用户的业务偏好标签、 设备连接类型、 设备连接数 量、 业务时间属性、 地理位置标签。 0112 处理模块302, 用于将待识别用户的业务特征数据输入到训练完成的专线用户识 别模型中, 确定待识别用户是否为。
42、专线用户; 用于在待识别用户是专线用户时, 为待识别用 户设置专线标签, 专线标签用于指示待识别用户是专线用户。 0113 可选的, 处理模块302, 还用于通过DPI采集待识别用户的业务流量数据, 生成DPI 话单; 其中, DPI话单包括以下一项或多项: IP的使用时段、 使用位置、 设备类型、 协议类型分 布、 http请求关键字集合。 0114 可选的, 获取模块301, 还用于根据DPI话单, 获取待识别用户的业务特征数据。 0115 可选的, 处理模块302, 还用于根据支持向量机SVM分类器, 构建专线用户识别模 型。 0116 可选的, 获取模块301, 还用于获取学习数据集,。
43、 学习数据集包括多个样本数据, 每 一个样本数据包括一个样本用户的业务特征数据。 说明书 8/10 页 11 CN 111585851 A 11 0117 可选的, 处理模块302, 还用于对业务特征数据进行数据预处理, 数据预处理包括 对存在无效值和缺失值的数据的过滤; 还用于根据数据预处理后的业务特征数据, 构建专 线用户识别模型。 0118 图4示出了上述实施例中所涉及的服务器的又一种可能的结构示意图。 该装置包 括: 处理器402和通信接口403。 0119 在图3所示的服务器以图4所示的服务器来实现的情况下, 处理器402用于对装置 的动作进行控制管理, 例如, 执行上述处理模块30。
44、2执行的步骤, 和/或用于执行本文所描述 的技术的其它过程。 通信接口403用于支持该服务器与其他网络实体的通信。 例如执行获取 模块301执行的步骤。 服务器还可以包括存储器401和总线404, 存储器401用于存储装置的 程序代码和数据。 0120 其中, 上述处理器402可以实现或执行结合本申请公开内容所描述的各种示例性 的逻辑方框, 单元和电路。 该处理器可以是中央处理器, 通用处理器, 数字信号处理器, 专用 集成电路, 现场可编程门阵列或者其他可编程逻辑器件、 晶体管逻辑器件、 硬件部件或者其 任意组合。 其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框, 单元 和电。
45、路。 所述处理器也可以是实现计算功能的组合, 例如包含一个或多个微处理器组合, DSP和微处理器的组合等。 0121 存储器401可以包括易失性存储器, 例如随机存取存储器; 该存储器也可以包括非 易失性存储器, 例如只读存储器, 快闪存储器, 硬盘或固态硬盘; 该存储器还可以包括上述 种类的存储器的组合。 0122 总线404可以是扩展工业标准结构 (Extended Industry Standard Architecture, EISA)总线等。 总线404可以分为地址总线、 数据总线、 控制总线等。 为便于表 示, 图4中仅用一条粗线表示, 但并不表示仅有一根总线或一种类型的总线。 0。
46、123 通过以上的实施方式的描述, 所属领域的技术人员可以清楚地了解到, 为描述的 方便和简洁, 仅以上述各功能模块的划分进行举例说明, 实际应用中, 可以根据需要而将上 述功能分配由不同的功能模块完成, 即将装置的内部结构划分成不同的功能模块, 以完成 以上描述的全部或者部分功能。 上述描述的系统, 装置和模块的具体工作过程, 可以参考前 述方法实施例中的对应过程, 在此不再赘述。 0124 本申请实施例提供一种包含指令的计算机程序产品, 当所述计算机程序产品在计 算机上运行时, 使得所述计算机执行上述方法实施例所述的物联网节点的标识方法。 0125 本申请实施例还提供一种计算机可读存储介质。
47、, 计算机可读存储介质中存储有指 令, 当网络设备执行该指令时, 该网络设备执行上述方法实施例所示的方法流程中网络设 备执行的各个步骤。 0126 其中, 计算机可读存储介质, 例如可以是但不限于电、 磁、 光、 电磁、 红外线、 或半导 体的系统、 装置或器件, 或者任意以上的组合。 计算机可读存储介质的更具体的例子(非穷 举的列表)包括: 具有一个或多个导线的电连接、 便携式计算机磁盘、 硬盘。 随机存取存储器 (Random Access Memory, RAM)、 只读存储器(Read-Only Memory, ROM)、 可擦式可编程只读 存储器(Erasable Programma。
48、ble Read Only Memory, EPROM)、 寄存器、 硬盘、 光纤、 便携式 紧凑磁盘只读存储器(Compact Disc Read-Only Memory, CD-ROM)、 光存储器件、 磁存储器 件、 或者上述的人以合适的组合、 或者本领域数值的任何其他形式的计算机可读存储介质。 说明书 9/10 页 12 CN 111585851 A 12 一种示例性的存储介质耦合至处理器, 从而使处理器能够从该存储介质读取信息, 且可向 该存储介质写入信息。 当然, 存储介质也可以是处理器的组成部分。 处理器和存储介质可以 位于特定用途集成电路(Application Specifi。
49、c Integrated Circuit, ASIC)中。 在本申请 实施例中, 计算机可读存储介质可以是任何包含或存储程序的有形介质, 该程序可以被指 令执行系统、 装置或者器件使用或者与其结合使用。 0127 以上所述, 仅为本申请的具体实施方式, 但本申请的保护范围并不局限于此, 任何 在本申请揭露的技术范围内的变化或替换, 都应涵盖在本申请的保护范围之内。 因此, 本申 请的保护范围应该以权利要求的保护范围为准。 说明书 10/10 页 13 CN 111585851 A 13 图1 图2 说明书附图 1/2 页 14 CN 111585851 A 14 图3 图4 说明书附图 2/2 页 15 CN 111585851 A 15 。
- 内容关键字: 专线 用户 识别 方法 装置
一体式安全吊钳.pdf
漂浮电缆.pdf
线缆托架.pdf
防腐防潮的海洋监测设备固定装置.pdf
超声波布面预湿分解设备.pdf
道路边坡结构.pdf
多工位伺服系统.pdf
智慧采油装备.pdf
油气分离滤芯.pdf
公路裂缝修补装置.pdf
电解槽的极距测量装置.pdf
混凝土抗裂检测装置.pdf
多相流泵.pdf
高电压高倍率球形锰酸锂球磨混料机.pdf
卷扬机卷筒结构.pdf
防尘防砂式排气嘴结构.pdf
外科临床管路固定装置.pdf
免维护激振器.pdf
流延机自动对刀装置.pdf
全氢强对流罩式炉.pdf
表演机器人模型控制系统.pdf
亚跨超声速流场可控喷管的设计方法、装置、设备和介质.pdf
区块链协助搜索的物联网数据共享方法.pdf
油侧膜头装置及隔膜式压缩机.pdf
自动化PCB板测试系统.pdf
海洋藻类污染治理作业装备.pdf
抗鸡PML单克隆抗体及其应用.pdf
矿用液压油缸的定时养护装置.pdf
射频复电容率测量装置及方法.pdf
便携式一体化海水淡化器.pdf
快速定位及自动退料的冲压模具.pdf
基于灰水足迹的减污降碳协同度分析方法.pdf
一种水杨甙的提取方法.pdf
一种刺参海水养殖的咖啡形双眉藻休眠孢子配合剂及其制备方法.pdf
一种翻糟机.pdf
一种光伏逆变器型箱.pdf
一种融合细胞及其制备方法和其作为肿瘤疫苗的应用.pdf
一种新型建筑防腐材料及其制备方法.pdf
一种硫酸粘杆菌素的生产方法.pdf
一种塑料配方.pdf
一种水基钻井液用双亲淀粉降滤失剂及其制备方法.pdf
三嗪三苯基次膦酸异丙酯化合物及其制备方法.pdf
一种镨镱共掺杂锆镓硫化物玻璃上转换发光材料、制备方法及其应用.pdf
一种环化金属铱配合物及其应用.pdf
一种综合性能高环保型改性水性聚氨酯的制备方法.pdf
吡咯并喹啉醌的钠盐结晶.pdf
甲醇或二甲醚和甲苯制备二甲苯的方法.pdf
一种环保高强耐寒电缆护套料.pdf
制造头孢喹肟颗粒的方法.pdf
一种由苯生产环己醇的方法.pdf
侧孢短芽孢杆菌和枯草芽孢杆菌混合培养的发酵培养基及其发酵方法.pdf