用户实体行为分析中分组异常检测方法及装置、终端.pdf
《用户实体行为分析中分组异常检测方法及装置、终端.pdf》由会员分享,可在线阅读,更多相关《用户实体行为分析中分组异常检测方法及装置、终端.pdf(16页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010231369.9 (22)申请日 2020.03.27 (71)申请人 南京聚铭网络科技有限公司 地址 210000 江苏省南京市雨花台区软件 大道180号7幢4层406室 (72)发明人 陈虎唐开达 (74)专利代理机构 北京卓唐知识产权代理有限 公司 11541 代理人 卜荣丽崔金 (51)Int.Cl. H04L 29/06(2006.01) G06K 9/62(2006.01) G06F 17/16(2006.01) (54)发明名称 用户实体行为分析中分组异。
2、常检测方法及 装置、 终端 (57)摘要 本发明公开一种用户实体行为分析中分组 异常检测方法及装置、 终端, 其中方法主要包括: 采用改进的Jaccard算法学习用户访问不同网段 的历史数据, 确定不同用户对于网段访问的相似 度; 根据用户对网段访问的相似度形成的网段访 问相似度矩阵聚类得到用户分组集合; 当任一网 段的待检测分组与用户分组集合存在不同元素 时, 确定待检测分组为异常分组。 采用本发明, 通 过利用网段划分将用户访问记录进行分层处理, 再利用Jaccard算法对相似性进行计算, 在网段 部分直接对验证数据进行筛选, 可以极大地减少 CPU计算量, 提高相似性分析的速率, 避免因。
3、环境 数据量较大影响用户实体行为分析中分组异常 检测的性能。 权利要求书2页 说明书11页 附图2页 CN 111431909 A 2020.07.17 CN 111431909 A 1.一种用户实体行为分析中分组异常检测方法, 其特征在于, 包括: 采用改进的Jaccard算法学习用户访问不同网段的历史数据, 确定不同用户对于网段 访问的相似度; 根据用户对网段访问的相似度形成的网段访问相似度矩阵聚类得到用户分组集合; 当任一网段的待检测分组与所述用户分组集合存在不同元素时, 确定所述待检测分组 为异常分组。 2.根据权利要求1所述的检测方法, 其特征在于, 所述采用改进的Jaccard算法。
4、学习用 户访问不同网段的历史数据, 确定不同用户对于网段访问的相似度, 包括: 根据用户访问不同网段的历史数据形成网段访问关系矩阵A, 其中, Aa1,a2,anT, ai0,1m, n为用户的个数, m为网段内的子网数, 向量0,1m表示用户对网段内子网的访 问情况, 访问过该子网标志值为1, 否则为0; 基于任两个用户访问同一网段的交集和所有用户访问总体网段的并集, 计算两个用户 对于同一网段访问的相似度, 其中, S(ui,uj)代表两用户网段访问的相似度。 3.根据权利要求2所述的检测方法, 其特征在于, 所述根据用户对网段访问的相似度形 成的网段访问相似度矩阵聚类得到用户分组集合, 。
5、包括: 根据用户对网段访问的相似度生成网段访问相似度矩阵, 该矩阵为一个实对称矩阵, 矩阵中的元素代表对用户的划分; 初始化用户分组集合G0; 根据预设相似度阈值确定待分组用户向量所属的同组用户向量, 并将所述待分组用户 向量加入分组集合中所述同组用户向量对应的元素。 4.根据权利要求3所述的检测方法, 其特征在于, 所述方法还包括: 若未检测到所述待分组用户向量所属的同组用户向量, 将所述待分组用户向量直接加 入所述用户分组集合中的元素。 5.根据权利要求4所述的检测方法, 其特征在于, 最终形成的用户分组集合G0表示为: u1,u2, u1,u2,u3,, 所有用户组成的全集U表示为: 且。
6、Ui,UjG0 其中, Ui表示一个用户分组集合, 即G0中划分的一个元素。 6.根据权利要求5所述的检测方法, 其特征在于, 所述方法还包括: 计算每个网段内m个子网的n个用户分组集类Gi, i1,m。 7.根据权利要求6所述的检测方法, 其特征在于, 所述方法还包括: 当但时, 确定待检测分组与所述用户分组集合存在不同 权利要求书 1/2 页 2 CN 111431909 A 2 元素, 其中G0为待检测数据的分组集合即待检测分组。 8.根据权利要求7所述的检测方法, 其特征在于, 所述方法还包括: 当所述待检测分组为异常分组时, 计算任一用户在所述异常分组中的异常分组比例, 计算公式为:。
7、 上式中, 分子为一个指标函数的求和, 求和内容为当前用户ui出现在分组异常的子网数 量, 分母表示历史分组集合和当前分组集合中规模较大的一方。 9.一种用户实体行为分析中分组异常检测装置, 其特征在于, 包括: 相似度学习模块, 用于采用改进的Jaccard算法学习用户访问不同网段的历史数据, 确 定不同用户对于网段访问的相似度; 分组聚类模块, 用于根据用户对网段访问的相似度形成的网段访问相似度矩阵聚类得 到用户分组集合; 异常分组检测模块, 用于当任一网段的待检测分组与所述用户分组集合存在不同元素 时, 确定所述待检测分组为异常分组。 10.一种终端, 其特征在于, 包括: 处理器和存储。
8、器; 其中, 所述存储器存储有计算机程 序, 所述计算机程序适于由所述处理器加载并执行以下步骤: 采用改进的Jaccard算法学习用户访问不同网段的历史数据, 确定不同用户对于网段 访问的相似度; 根据用户对网段访问的相似度形成的网段访问相似度矩阵聚类得到用户分组集合; 当任一网段的待检测分组与所述用户分组集合存在不同元素时, 确定所述待检测分组 为异常分组。 权利要求书 2/2 页 3 CN 111431909 A 3 用户实体行为分析中分组异常检测方法及装置、 终端 技术领域 0001 本发明涉及信息安全技术领域, 尤其涉及一种用户实体行为分析中分组异常检测 方法及装置、 终端。 背景技术。
9、 0002 在现代安全信息事件管理系统中, 针对用户行行为异常的分析是最重要的方面, 特别是用户实体行为异常的分析。 用户实体行为分析(User Entity Behavior Analysis, UEBA)是现代安全信息事件管理系统(Security Information Event Management System, SIEMS)中对于安全事件进行二次分析的重要手段。 分析的主要目标是检测主体(即用户或 可与实际用户即进行关联的账号、 主机等) 对客体(即实体)进行相关操作中是否存在异 常, 其中, 实体可以是主机、 服务/端口、 文件夹/文件、 系统定时任务、 Windows主机的注。
10、册表 等。 一般而言, 这种分析的方法包括特征匹配、 流式计算以及基于机器学习的分析, 其中基 于机器学习的分析是用户实体行为分析中比较重要的手段, 而且对于无法使用特征分析的 未知威胁则可以利用机器学习的方法进行检测。 0003 在实际应用中, 分组异常或用户分组异常也是一种特别需要关注的未知威胁, 而 且是非常重要的一种威胁, 其主要判断依据是根据历史数据(主要是用户对于系统的访问 日志或者是主机之间的访问记录)对当前需要检测的数据进行判断; 在实际分析中, 系统将 收集各类访问日志, 根据主体之间访问的相似程度划分为若干组, 当对相关数据进行验证 时, 计算其行为是否存在跨组访问。 00。
11、04 由于在实际环境中, 可以收集到的访问日志中最多的就是主机之间的连接信息, 系统可以比较方便地从诸如网络流量探针或者如路由器、 交换机等网络设备的Netflow/ sFlow统计信息中较为容易地获得, 故分组异常分析的焦点一般也集中于对于主机之间的 访问关系, 换言之可以对主机间访问进行画像, 找出其中存在的异常行为。 但由于一般在一 个大型企业或学校网络中, 存在超大量的IP地址(对于一些特殊的大型企业级用户而言, 可 能超过20万个), 采用一般的聚类算法无法做到快速分析, 导致检测的实时性较差, 影响用 户实体行为分析中分组异常检测的性能。 发明内容 0005 本发明实施例提供一种用。
12、户实体行为分析中分组异常检测方法及装置、 终端, 通 过改进的Jaccard算法对IP地址形成的数据向量进行相似性处理, 可以提高分析的速率, 避 免因环境数据量较大影响用户实体行为分析中分组异常检测的性能。 0006 本发明实施例第一方面提供了一种用户实体行为分析中分组异常检测方法, 可包 括: 0007 采用改进的Jaccard算法学习用户访问不同网段的历史数据, 确定不同用户对于 网段访问的相似度; 0008 根据用户对网段访问的相似度形成的网段访问相似度矩阵聚类得到用户分组集 说明书 1/11 页 4 CN 111431909 A 4 合; 0009 当任一网段的待检测分组与用户分组集。
13、合存在不同元素时, 确定待检测分组为异 常分组。 0010 进一步的, 采用改进的Jaccard算法学习用户访问不同网段的历史数据, 确定不同 用户对于网段访问的相似度, 包括: 0011 根据用户访问不同网段的历史数据形成网段访问关系矩阵A, 其中, Aa1, a2,anT,ai0,1m, n为用户的个数, m为网段内的子网数, 向量 0,1m表示用户对网段 内子网的访问情况, 访问过该子网标志值为1, 否则为0; 0012 基于任两个用户访问同一网段的交集和所有用户访问总体网段的并集, 计算两个 用户对于同一网段访问的相似度, 其中, 0013 0014 S(ui,uj)代表两用户网段访问。
14、的相似度。 0015 进一步的, 根据用户对网段访问的相似度形成的网段访问相似度矩阵聚类得到用 户分组集合, 包括: 0016 根据用户对网段访问的相似度生成网段访问相似度矩阵, 该矩阵为一个实对称矩 阵, 矩阵中的元素代表对用户的划分; 0017 初始化用户分组集合G0; 0018 根据预设相似度阈值确定待分组用户向量所属的同组用户向量, 并将待分组用户 向量加入分组集合中同组用户向量对应的元素; 0019 进一步的, 方法还包括: 0020 若未检测到待分组用户向量所属的同组用户向量, 将待分组用户向量直接加入用 户分组集合中的元素。 0021 进一步的, 最终形成的用户分组集合G0表示为。
15、: 0022 u1,u2, u1,u2,u3,, 0023 所有用户组成的全集U表示为: 0024且Ui,UjG0 0025 其中, Ui表示一个用户分组集合, 即G0中划分的一个元素。 0026 进一步的, 方法还包括: 0027 计算每个网段内m个子网的n个用户分组集类Gi, i1,m。 0028 进一步的, 方法还包括: 0029当但时, 确定待检测分组与用户分组集合存在不同 元素, 其中G0为待检测数据的分组集合即待检测分组。 0030 进一步的, 方法还包括: 0031 当待检测分组为异常分组时, 计算任一用户在异常分组中的异常分组比例, 计算 公式为: 说明书 2/11 页 5 C。
16、N 111431909 A 5 0032 0033 上式中, 分子为一个指标函数的求和, 求和内容为当前用户ui出现在分组异常的 子网数量, 分母表示历史分组集合和当前分组集合中规模较大的一方。 0034 本发明实施例第二方面提供了一种用户实体行为分析中分组异常检测装置, 可包 括: 0035 相似度学习模块, 用于采用改进的Jaccard算法学习用户访问不同网段的历史数 据, 确定不同用户对于网段访问的相似度; 0036 分组聚类模块, 用于根据用户对网段访问的相似度形成的网段访问相似度矩阵聚 类得到用户分组集合; 0037 异常分组检测模块, 用于当任一网段的待检测分组与用户分组集合存在不。
17、同元素 时, 确定待检测分组为异常分组。 0038 进一步的, 相似度学习模块包括: 0039 历史数据学习单元, 用于根据用户访问不同网段的历史数据形成网段访问关系矩 阵A, 其中, Aa1,a2,anT,ai0,1m, n为用户的个数, m为网段内的子网数, 向量0,1 m表示用户对网段内子网的访问情况, 访问过该子网标志值为1, 否则为0; 0040 相似度计算单元, 用于基于任两个用户访问同一网段的交集和所有用户访问总体 网段的并集, 计算两个用户对于同一网段访问的相似度, 其中, 0041 0042 S(ui,uj)代表两用户网段访问的相似度。 0043 进一步的, 分组聚类模块包括。
18、: 0044 相似度矩阵生成单元, 用于根据用户对网段访问的相似度生成网段访问相似度矩 阵, 该矩阵为一个实对称矩阵, 矩阵中的元素代表对用户的划分; 0045 集合初始化单元, 用于初始化用户分组集合G0; 0046 分组聚类单元, 用于根据预设相似度阈值确定待分组用户向量所属的同组用户向 量, 并将待分组用户向量加入分组集合中同组用户向量对应的元素; 0047 进一步的, 分组聚类单元还用于若未检测到待分组用户向量所属的同组用户向 量, 将待分组用户向量直接加入用户分组集合中的元素。 0048 进一步的, 最终形成的用户分组集合G0表示为: 0049 u1,u2, u1,u2,u3,, 0。
19、050 所有用户组成的全集U表示为: 0051且Ui,UjG0 0052 其中, Ui表示一个用户分组集合, 即G0中划分的一个元素。 0053 进一步的, 装置还包括: 0054 分组集类计算模块, 用于计算每个网段内m个子网的n个用户分组集类Gi, i 说明书 3/11 页 6 CN 111431909 A 6 1,m。 0055进一步的, 异常分组检测模块, 具体用于当但时, 确 定待检测分组与用户分组集合存在不同元素, 其中G0为待检测数据的分组集合即待检测 分组。 0056 进一步的, 装置还包括: 0057 异常比例计算模块, 用于当待检测分组为异常分组时, 计算任一用户在异常分组。
20、 中的异常分组比例, 计算公式为: 0058 0059 上式中, 分子为一个指标函数的求和, 求和内容为当前用户ui出现在分组异常的 子网数量, 分母表示历史分组集合和当前分组集合中规模较大的一方。 0060 本发明实施例第三方面提供了一种计算机存储介质, 计算机存储介质存储有多条 指令, 指令适于由处理器加载并执行以下步骤: 0061 采用改进的Jaccard算法学习用户访问不同网段的历史数据, 确定不同用户对于 网段访问的相似度; 0062 根据用户对网段访问的相似度形成的网段访问相似度矩阵聚类得到用户分组集 合; 0063 当任一网段的待检测分组与用户分组集合存在不同元素时, 确定待检测。
21、分组为异 常分组。 0064 本发明实施例第四方面提供了一种终端, 可包括: 处理器和存储器; 其中, 存储器 存储有计算机程序, 计算机程序适于由处理器加载并执行以下步骤: 0065 采用改进的Jaccard算法学习用户访问不同网段的历史数据, 确定不同用户对于 网段访问的相似度; 0066 根据用户对网段访问的相似度形成的网段访问相似度矩阵聚类得到用户分组集 合; 0067 当任一网段的待检测分组与用户分组集合存在不同元素时, 确定待检测分组为异 常分组。 0068 本发明的有益效果: 通过采用Jaccard算法学习用户访问不同网段的历史数据, 确 定不同用户对于网段访问的相似度, 进而通。
22、过网段访问相似度矩阵聚类得到用户分组集 合, 再综合对比待检测的分组与聚类得到的用户分组集合中是否存在不同元素的基础上, 确定异常分组。 通过利用网段划分将用户访问记录进行分层处理, 再利用Jaccard算法对相 似性进行计算, 在网段部分直接对验证数据进行筛选, 极大地减少了CPU计算量, 提高了相 似性分析的速率, 避免了因环境数据量较大影响用户实体行为分析中分组异常检测的性 能。 附图说明 0069 为了更清楚地说明本发明实施例或现有技术中的技术方案, 下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍, 显而易见地, 下面描述中的附图仅仅是本 说明书 4/11 页 7 CN 。
23、111431909 A 7 发明的一些实施例, 对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下, 还可以 根据这些附图获得其他的附图。 0070 图1是本发明实施例提供的一种用户实体行为分析中分组异常检测方法的流程示 意图; 0071 图2是本发明实施例提供的一种用户实体行为分析中分组异常检测装置的结构示 意图; 0072 图3是本发明实施例提供的相似度学习模块的结构示意图; 0073 图4是本发明实施例提供的分组聚类模块的结构示意图; 0074 图5是本发明实施例提供的一种终端的结构示意图。 具体实施方式 0075 下面将结合本发明实施例中的附图, 对本发明实施例中的技术方案进行清。
24、楚、 完 整地描述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而不是全部的实施例。 基于 本发明中的实施例, 本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例, 都属于本发明保护的范围。 0076 本发明的说明书和权利要求书及上述附图中的术语 “包括” 和 “具有” 以及它们任 何变形, 意图在于覆盖不排他的包含。 例如包含了一系列步骤或单元的过程、 方法、 系统、 产 品或设备没有限定于已列出的步骤或单元, 而是可选地还包括没有列出的步骤或单元, 或 可选地还包括对于这些过程、 方法、 产品或设备固有的其他步骤或单元。 0077 此外, 术语 “安装” 、“设置。
25、” 、“设有” 、“连接” 、“相连” 、“套接” 应做广义理解。 例如, 可以是固定连接, 可拆卸连接, 或整体式构造; 可以是机械连接, 或电连接; 可以是直接相 连, 或者是通过中间媒介间接相连, 又或者是两个装置、 元件或组成部分之间内部的连通。 对于本领域普通技术人员而言, 可以根据具体情况理解上述术语在本发明中的具体含义。 0078 需要说明的是, 在不冲突的情况下, 本申请中的实施例及实施例中的特征可以相 互组合。 下面将参考附图并结合实施例来详细说明本申请。 0079 本发明实施例涉及的终端可以是大型计算机、 PC机、 平板电脑、 掌上电脑以及移动 互联网设备(MID)等其他具。
26、备数据处理能力的终端设备。 0080 如图1所示, 在本申请的第一个实施例中, 用户实体行为分析中分组异常检测方法 至少包括以下步骤: 0081 S101, 采用改进的Jaccard算法学习用户访问不同网段的历史数据, 确定不同用户 对于网段访问的相似度。 0082 需要说明的是, 在对IP主机的访问关系进行分析前, 可以对数据进行一些分层处 理, 并对分层的数据进行预处理。 优选的, 可以根据各主机访问目标机器的网段情况, 使用 0,1m向量来表示其访问的目标网段内子网的访问情况, 其中, m为网段内的子网数, 访问 过该子网标志值为1, 否则为0。 例如, 对于一个192.168子网网段,。
27、 其包含了256子网, 在实际 实现时, 使用32个字节的数组以表示, 故可以覆盖这256个子网, 如某用户(实际上是主机) 对某个子网的数据进行访问则将其标志值1, 否则为0, 对于存在n个用户的系统而言, 可以 形式化地表示为如下方式: Aa1,a2,anT,ai0,1256。 其中, 矩阵A表示不同用户的网 段访问关系矩阵, 其中每个向量的维度均为256(即可以认为是32个字节)。 说明书 5/11 页 8 CN 111431909 A 8 0083 进一步的, 可以基于任两个用户访问同一网段的交集和所有用户访问总体网段的 并集, 计算两个用户对于同一网段访问的相似度, 其中, 0084。
28、 0085 S(ui,uj)代表两用户网段访问的相似度。 需要说明的是, 为了更加快速的进行计 算, 上式中的分母可以直接修改为网段内的子网数即256, 从而加速整体计算, 分子的交集 计算部分可以采用二进制位与方式, 做到最大程度优化。 0086 另外, 为了充分发挥CPU指令集的并发能力, 可以采用x86平台的 AVX2/AVX512向 量指令集并发地进行位与运算, 如_mm256_and_pd或 _mm512_and_pd等, 位与运算的结果中 包含有多少个1即说明两个用户都访问的网段有多少个; 为获取某个变量包含1的数量, 可 以采用查表法。 0087 S102, 根据用户对网段访问的。
29、相似度形成的网段访问相似度矩阵聚类得到用户分 组集合。 0088 具体实现中, 设备可以根据不同用户对网段访问的相似度计算形成网段访问相似 度矩阵, 该矩阵是一个实对称矩阵, 矩阵中的元素代表对用户的划分, 例如, u1un, 中的ui 就代表一个用户, 其行、 列均为用户数量, 其对角线均为 1, 矩阵的值是介于0和1之间的浮 点数。 0089 进一步的, 可以基于上述矩阵进行网段访问聚类得到用户分组集合, 通过预先设 定一个用户间的相似度阈值tu, 判断上述矩阵的值与该阈值的大小, 超过 tu则认为是同组 用户, 否则不是同组用户, 因此最终的分组数量不定。 0090 在一种具体的实现方式。
30、中, 可以先初始化用户分组集合, 该集合中的元素是对用 户的划分, 一个元素也是一个小的集合是划分为同一组的多个用户的集合。 进一步的, 可以 将网段访问相似度矩阵中待分组的用户向量与相似度阈值进行比较, 将大于等于相似度阈 值的用户向量确定为同一组, 并将上述待分组的向量加入用户分组集合中与之同组的元素 中。 可以理解的是, 如果集合为空, 即未检测到待分组用户向量所属的同组用户向量, 则可 以将该用户向量直接加入用户分组集合中的元素。 每次分组后, 可以检测是否还存在未分 组的用户向量, 如存在则按照上述聚类方法继续分类直至不存在未分组的用户向量。 0091 进一步的, 通过上述聚类分组方。
31、式, 最终形成的用户分组集合G0可以表示为: 0092 u1,u2, u1,u2,u3, 0093 所有用户或者源主机组成的全集U表示为: 0094且Ui,UjG0 0095 S103, 当任一网段的待检测分组与用户分组集合存在不同元素时, 确定待检测分 组为异常分组。 0096 具体实现中, 与上述网段访问分析类似, 具体到某个C类网段而言(如是 A类或者B 类网段也可以最终分解到C类网段), 需要计算的最多只是254个主机地址(去除子网地址和 广播地址), 可以采用改进的Jaccard相似性算法进行与上述计算方法一致的计算, 但此时 主要是针对不同的主机, 即其向量中的每一维都是是否访问了。
32、某台主机, 如访问则为1, 否 说明书 6/11 页 9 CN 111431909 A 9 则为0。 通过对于各个C类子网的访问记录计算, 可以得到256个用户分组集类Gi(下标i的 取值范围在1 到256之间), 每个Gi都是在不同子网下对于同一个用户集合的划分, 对于用 户分组异常的判断也基于这个集类以及对于网段访问分组情况: 0097在综合判断用户是否存在分组异常时, 遵循如下判断方式, 如存在:但 时, 则认为有分组异常访问行为, 上述公式的涵义为用户通过历史数据 学习后, 其网段用户分组集合为G0, 对于需要检测的数据而言, 其分组集合为G0, 只要其中 存在分组不同的, 即可认为存。
33、在分组异常, 则算法可以停止, 否则继续对各个网段的主机访 问分组情况进行计算。 0098 在一种优选的实现方式中, 在确定网段主机访问分组异常的情况下, 对于某个具 体的用户而言, 可以采用异常分组比例来判断: 0099 0100 上述中, 对于某一网段而言, 其分子部分是对一个指示函数的求和, 其求和内容主 要为当前用户ui出现在分组异常的子网数量, 而分母部分的含义则表示取历史分组集合规 模和当前分组集合规模的大者, 可选的, 分母也可以取别的形式, 如仅历史分组或当前分组 数量等。 可以理解的是的, 分组异常是一个介于0和1 之间的浮点数, 在实际应用时, 可以设 定阈值ta来评判异常。
34、分组的程度, 一般可以设置为0.5。 0101 在本发明实施例中, 通过采用Jaccard算法学习用户访问不同网段的历史数据, 确 定不同用户对于网段访问的相似度, 进而通过网段访问相似度矩阵聚类得到用户分组集 合, 再综合对比待检测的分组与聚类得到的用户分组集合中是否存在不同元素的基础上, 确定异常分组。 通过利用网段划分将用户访问记录进行分层处理, 再利用Jaccard算法对相 似性进行计算, 在网段部分直接对验证数据进行筛选, 极大地减少了CPU计算量, 提高了相 似性分析的速率, 避免了因环境数据量较大影响用户实体行为分析中分组异常检测的性 能; 通过使用基于二进制位与操作的并行处理方。
35、法和用固定数值替代集合并集运算, 也在 很大程度上对整体算法进行了加速, 从而做到了对超大规模的数据处理; 通过采用二进制 位方法表示访问情况集合, 在相关数据的存储上为节省了空间, 在对威胁进行回溯时, 方便 了对获取的相关异常源的展示。 0102 下面将结合附图2-附图4, 对本发明实施例提供的用户实体行为分析中分组异常 检测装置进行详细介绍。 需要说明的是, 附图2-附图4所示的分组异常检测装置, 用于执行 本发明图1所示实施例的方法, 为了便于说明, 仅示出了与本发明实施例相关的部分, 具体 技术细节未揭示的, 请参照本发明图1所示的实施例。 0103 请参见图2, 为本发明实施例提供。
36、了一种用户实体行为分析中分组异常检测装置 的结构示意图。 如图2所示, 本发明实施例的所述分组异常检测装置10可以包括: 相似度学 习模块101、 分组聚类模块102、 异常分组检测模块103、 分组集类计算模块104和异常比例计 算模块105。 其中, 相似度学习模块101如图 3所示, 包括历史数据学习单元1011和相似度计 算单元1012; 分组聚类模块102 如图4所示, 包括相似度矩阵生成单元1021、 集合初始化单 元1022和分组聚类单元1023。 0104 相似度学习模块101, 用于采用改进的Jaccard算法学习用户访问不同网段的历史 说明书 7/11 页 10 CN 11。
37、1431909 A 10 数据, 确定不同用户对于网段访问的相似度。 0105 在可选实施例中, 相似度学习模块101可以包括以下单元: 0106 历史数据学习单元1011, 用于根据用户访问不同网段的历史数据形成网段访问关 系矩阵A, 其中, Aa1,a2,anT,ai0,1m, n为用户的个数, m为网段内的子网数, 向量 0,1m表示用户对网段内子网的访问情况, 访问过该子网标志值为1, 否则为0。 0107 相似度计算单元1012, 用于基于任两个用户访问同一网段的交集和所有用户访问 总体网段的并集, 计算两个用户对于同一网段访问的相似度, 其中, 0108 0109 S(ui,uj)。
38、代表两用户网段访问的相似度。 0110 分组聚类模块102, 用于根据用户对网段访问的相似度形成的网段访问相似度矩 阵聚类得到用户分组集合。 0111 在可选实施例中, 分组聚类模块102可以包括以下单元: 0112 相似度矩阵生成单元1021, 用于根据用户对网段访问的相似度生成网段访问相似 度矩阵, 该矩阵为一个实对称矩阵, 矩阵中的元素代表对用户的划分。 0113 集合初始化单元1022, 用于初始化用户分组集合G0。 0114 分组聚类单元1023, 用于根据预设相似度阈值确定待分组用户向量所属的同组用 户向量, 并将待分组用户向量加入分组集合中同组用户向量对应的元素。 0115 进一。
39、步的, 分组聚类单元1023还用于若未检测到待分组用户向量所属的同组用户 向量, 将待分组用户向量直接加入用户分组集合中的元素。 0116 需要说明的是, 最终形成的用户分组集合G0表示为: 0117 u1,u2, u1,u2,u3,, 0118 所有用户组成的全集U表示为: 0119且Ui,UjG0 0120 其中, Ui表示一个用户分组集合, 即G0中划分的一个元素。 0121 异常分组检测模块103, 用于当任一网段的待检测分组与用户分组集合存在不同 元素时, 确定待检测分组为异常分组。 0122在一种具体的实现方式中, 异常分组检测模块103, 具体用于当但 时, 确定待检测分组与用户。
40、分组集合存在不同元素, 其中G0为待检测数据 的分组集合即待检测分组。 0123 分组集类计算模块104, 用于计算每个网段内m个子网的n个用户分组集类 Gi, i 1,m。 0124 异常比例计算模块105, 用于当待检测分组为异常分组时, 计算任一用户在异常分 组中的异常分组比例, 计算公式为: 0125 说明书 8/11 页 11 CN 111431909 A 11 0126 上式中, 分子为一个指标函数的求和, 求和内容为当前用户ui出现在分组异常的 子网数量, 分母表示历史分组集合和当前分组集合中规模较大的一方。 0127 需要说明的是, 上述系统中各模块、 单元的详细执行过程可以参。
41、见上述方法实施 例中的描述, 处不再赘述。 0128 在本发明实施例中, 通过采用Jaccard算法学习用户访问不同网段的历史数据, 确 定不同用户对于网段访问的相似度, 进而通过网段访问相似度矩阵聚类得到用户分组集 合, 再综合对比待检测的分组与聚类得到的用户分组集合中是否存在不同元素的基础上, 确定异常分组。 通过利用网段划分将用户访问记录进行分层处理, 再利用Jaccard算法对相 似性进行计算, 在网段部分直接对验证数据进行筛选, 极大地减少了CPU计算量, 提高了相 似性分析的速率, 避免了因环境数据量较大影响用户实体行为分析中分组异常检测的性 能。 0129 本发明实施例还提供了一。
42、种计算机存储介质, 所述计算机存储介质可以存储有多 条指令, 所述指令适于由处理器加载并执行如上述图1所示实施例的方法步骤, 具体执行过 程可以参见图1所示实施例的具体说明, 在此不进行赘述。 0130 请参见图5, 为本发明实施例提供了一种终端的结构示意图。 如图5所示, 所述终端 1000可以包括: 至少一个处理器1001, 例如CPU, 至少一个网络接口1004, 用户接口1003, 存 储器1005, 至少一个通信总线1002。 其中, 通信总线1002用于实现这些组件之间的连接通 信。 其中, 用户接口1003可以包括显示屏(Display)、 键盘(Keyboard), 可选用户接。
43、口1003还 可以包括标准的有线接口、 无线接口。 网络接口1004可选的可以包括标准的有线接口、 无线 接口 (如WI-FI接口)。 存储器1005可以是高速RAM存储器, 也可以是非不稳定的存储器 (non-volatile memory), 例如至少一个磁盘存储器。 存储器1005可选的还可以是至少一个 位于远离前述处理器1001的存储装置。 如图5所示, 作为一种计算机存储介质的存储器1005 中可以包括操作系统、 网络通信模块、 用户接口模块以及分组异常检测应用程序。 0131 在图5所示的终端1000中, 用户接口1003主要用于为用户提供输入的接口, 获取用 户输入的数据; 网络。
44、接口1004用于与用户终端进行数据通信; 而处理器1001可以用于调用 存储器1005中存储的分组异常检测应用程序, 并具体执行以下操作: 0132 采用改进的Jaccard算法学习用户访问不同网段的历史数据, 确定不同用户对于 网段访问的相似度; 0133 根据用户对网段访问的相似度形成的网段访问相似度矩阵聚类得到用户分组集 合; 0134 当任一网段的待检测分组与用户分组集合存在不同元素时, 确定待检测分组为异 常分组。 0135 在一些实施例中, 处理器1001在执行采用改进的Jaccard算法学习用户访问不同 网段的历史数据, 确定不同用户对于网段访问的相似度时, 具体执行以下操作: 。
45、0136 根据用户访问不同网段的历史数据形成网段访问关系矩阵A, 其中, Aa1, a2,anT,ai0,1m, n为用户的个数, m为网段内的子网数, 向量 0,1m表示用户对网段 内子网的访问情况, 访问过该子网标志值为1, 否则为0; 0137 基于任两个用户访问同一网段的交集和所有用户访问总体网段的并集, 计算两个 用户对于同一网段访问的相似度, 其中, 说明书 9/11 页 12 CN 111431909 A 12 0138 0139 S(ui,uj)代表两用户网段访问的相似度。 0140 在一些实施例中, 处理器1001在执行根据用户对网段访问的相似度形成的网段访 问相似度矩阵聚类。
46、得到用户分组集合时, 具体执行以下操作: 0141 根据用户对网段访问的相似度生成网段访问相似度矩阵, 该矩阵为一个实对称矩 阵, 矩阵中的元素代表对用户的划分; 0142 初始化用户分组集合G0; 0143 根据预设相似度阈值确定待分组用户向量所属的同组用户向量, 并将待分组用户 向量加入分组集合中同组用户向量对应的元素; 0144 在一些实施例中, 处理器1001还用于执行以下操作: 0145 若未检测到待分组用户向量所属的同组用户向量, 将待分组用户向量直接加入用 户分组集合中的元素。 0146 在一些实施例中, 最终形成的用户分组集合G0表示为: 0147 u1,u2, u1,u2,u。
47、3,, 0148 所有用户组成的全集U表示为: 0149且Ui,UjG0 0150 其中, Ui表示一个用户分组集合, 即G0中划分的一个元素。 0151 在一些实施例中, 处理器1001还用于执行以下操作: 0152 计算每个网段内m个子网的n个用户分组集类Gi, i1,m。 0153 在一些实施例中, 处理器1001还用于执行以下操作: 0154当但时, 确定待检测分组与用户分组集合存在不同 元素, 其中G0为待检测数据的分组集合即待检测分组。 0155 在一些实施例中, 处理器1001还用于执行以下操作: 0156 当待检测分组为异常分组时, 计算任一用户在异常分组中的异常分组比例, 计。
48、算 公式为: 0157 0158 上式中, 分子为一个指标函数的求和, 求和内容为当前用户ui出现在分组异常的 子网数量, 分母表示历史分组集合和当前分组集合中规模较大的一方。 0159 在本发明实施例中, 通过采用Jaccard算法学习用户访问不同网段的历史数据, 确 定不同用户对于网段访问的相似度, 进而通过网段访问相似度矩阵聚类得到用户分组集 合, 再综合对比待检测的分组与聚类得到的用户分组集合中是否存在不同元素的基础上, 确定异常分组。 通过利用网段划分将用户访问记录进行分层处理, 再利用Jaccard算法对相 似性进行计算, 在网段部分直接对验证数据进行筛选, 极大地减少了CPU计算。
49、量, 提高了相 似性分析的速率, 避免了因环境数据量较大影响用户实体行为分析中分组异常检测的性 说明书 10/11 页 13 CN 111431909 A 13 能。 0160 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以 通过计算机程序来指令相关的硬件来完成, 所述的程序可存储于计算机可读取存储介质 中, 该程序在执行时, 可包括如上述各方法的实施例的流程。 其中, 所述的存储介质可为磁 碟、 光盘、 只读存储记忆体(Read-Only Memory, ROM)或随机存储记忆体(Random Access Memory, RAM)等。 0161 以上所揭露的仅为本发明较佳实施例而已, 当然不能以此来限定本发明之权利范 围, 因此依本发明权利要求所作的等同变化, 仍属本发明所涵盖的范围。 说明书 11/11 页 14 CN 111431909 A 14 图1 图2 图3 说明书附图 1/2 页 15 CN 111431909 A 15 图4 图5 说明书附图 2/2 页 16 CN 111431909 A 16 。
- 内容关键字: 用户 实体 行为 分析 分组 异常 检测 方法 装置 终端
废弃物焚烧装置.pdf
板框过滤器.pdf
建筑外立面绿化安装架.pdf
防反抽气动快速接头.pdf
适用于线末自动装框的上下料运输系统.pdf
地下水灌溉农业深度节水装置.pdf
耐磨板堆焊冷却平台装置.pdf
晶圆承载装置.pdf
预应力混凝土管桩模具用打磨装置.pdf
煤粉制备系统.pdf
适用不同飞机机型的垂尾维修平台.pdf
散热器侧板的管孔冲压机.pdf
风力输送撒盐系统.pdf
高效率的清废装置及专用吸头组件.pdf
化工污水处理装置.pdf
各向异性微滤膜及其制备方法和应用.pdf
稳定面可调的盾构管片拼装方位检测装置.pdf
异构双模冗余定时器、芯片以及车辆.pdf
静轴肩穿透焊搅拌头.pdf
颈动脉斑块易损性分级方法、装置、电子设备及存储介质.pdf
基于计算机视觉的自动化点云定向方法、设备及存储介质.pdf
婴童奶制品核心营养成分的膜分离重组方法及其应用.pdf
安全生产的双重预防管理方法、系统、设备及存储介质.pdf
用于滤波器的浮点数据处理系统.pdf
易调平的冲压设备工作台及冲压设备.pdf
车辆的相机位姿确定方法、装置、计算机设备和存储介质.pdf
钢厂板坯智能倒垛方法与系统.pdf
纱线捻线机.pdf
用于配电柜的操作机器人的分体式地刀结构.pdf
双核设备的数据处理方法和双核设备.pdf
氮化硼钝化增强的砷化镓基半导体器件及其制备方法.pdf
网络模型的转换方法、装置、终端及计算机可读存储介质.pdf