基于网络安全设备日志数据的用户画像分组及行为分析方法和系统.pdf
![基于网络安全设备日志数据的用户画像分组及行为分析方法和系统.pdf_第1页](https://img.zhuanlichaxun.net/fileroot5/2021-8/5/7a5fd63d-739d-466e-b505-65903d00e6d7/7a5fd63d-739d-466e-b505-65903d00e6d71.gif)
![基于网络安全设备日志数据的用户画像分组及行为分析方法和系统.pdf_第2页](https://img.zhuanlichaxun.net/fileroot5/2021-8/5/7a5fd63d-739d-466e-b505-65903d00e6d7/7a5fd63d-739d-466e-b505-65903d00e6d72.gif)
![基于网络安全设备日志数据的用户画像分组及行为分析方法和系统.pdf_第3页](https://img.zhuanlichaxun.net/fileroot5/2021-8/5/7a5fd63d-739d-466e-b505-65903d00e6d7/7a5fd63d-739d-466e-b505-65903d00e6d73.gif)
《基于网络安全设备日志数据的用户画像分组及行为分析方法和系统.pdf》由会员分享,可在线阅读,更多相关《基于网络安全设备日志数据的用户画像分组及行为分析方法和系统.pdf(16页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910971176.4 (22)申请日 2019.10.14 (71)申请人 西安交通大学 地址 710049 陕西省西安市碑林区咸宁西 路28号 (72)发明人 周亚东胡博文朱星宇管晓宏 (74)专利代理机构 西安智大知识产权代理事务 所 61215 代理人 段俊涛 (51)Int.Cl. G06K 9/62(2006.01) H04L 29/06(2006.01) (54)发明名称 一种基于网络安全设备日志数据的用户画 像分组及行为分析方法和系统 (57)摘要 本发明公。
2、开了一种基于网络安全设备日志 数据的用户画像分组及行为分析方法和系统, 主 要步骤为: 1)从网络安全设备用户日志等数据中 提取特征; 2)对特征进行预处理和数据分析, 获 得特征之间以及特征与用户行为之间的关系; 3) 根据用户特征构建用户分组的聚类模型; 4)根据 聚类模型建立用户画像, 并根据用户特征和用户 画像的匹配结果决定用户是否存在行为异常; 本 发明实现简单、 计算复杂度低, 可以有效减少用 户日志中行为分析的计算资源开销, 不需要任何 额外标记, 仅需要网络安全设备自动记录的数 据, 具有实际应用的优势, 提供了具有不同行为 模式的用户分组方法和画像匹配方法, 同时对用 户行为。
3、是否存在异常进行了决策性判断。 权利要求书4页 说明书7页 附图4页 CN 110781930 A 2020.02.11 CN 110781930 A 1.一种基于网络安全设备日志数据的用户画像分组及行为分析方法, 其特征在于, 包 括: 步骤1, 以网络安全设备用户权限数据为数据源, 从用户权限数据中提取所有用户的权 限信息, 包括各用户允许登录的服务器IP以及各用户授权使用的系统账号ID; 步骤2, 以网络安全设备一段时间内的用户日志数据为数据源, 从用户操作日志的有效 字段中提取30个用户特征, 包括操作频次特征、 账号与设备使用特征、 操作指令使用特征以 及结合步骤1中的用户权限信息提。
4、取到的用户越权操作特征共四类特征; 步骤3, 根据步骤2中提取到的用户特征, 使用特征标准化预处理方法对用户特征进行 标准化处理, 得到标准化后的用户特征, 并记录所有的标准化时用到的信息, 即所有特征的 平均值与标准差; 步骤4, 使用聚类方法, 对步骤3中得到的全部用户特征进行聚类, 获得聚类模型, 并得 到具有不同行为特点的用户分组; 步骤5, 根据步骤4中的用户分组结果, 绘制用户特征在每个特征维度上的累计分布图, 并根据累计分布图对每个用户分组的典型特点进行分析, 从而产生各个用户分组的用户画 像, 并将违规特征显著的用户组标记为高危用户组; 步骤6, 获取网络安全设备的近期用户日志。
5、数据, 从其中的用户操作日志有效字段中提 取用户实时行为特征, 根据步骤4中得到的聚类模型以及各个用户的当前实时特征, 对每个 用户进行分组匹配, 然后结合用户的历史匹配结果计算每位用户的跳跃度及违规度, 对是 否发出用户异常警告做出决策。 2.根据权利要求1所述基于网络安全设备日志数据的用户画像分组及行为分析方法, 其特征在于, 所述步骤1中, 网络安全设备用户权限数据是指网络安全设备上的包含所有用 户的服务器登录权限、 系统账号授权以及权限有效期信息在内的数据。 3.根据权利要求1所述基于网络安全设备日志数据的用户画像分组及行为分析方法, 其特征在于, 所述步骤2中网络安全设备一段时间内的。
6、用户日志数据是指150天内的历史日 志数据, 所述步骤6中近期用户日志数据是指最近一周内的用户日志数据, 均为网络安全设 备上包含用户操作时的操作时间、 所在服务器、 所用账号以及操作指令在内的有效字段的 日志数据, 有效字段是指经过指令解析后的用户日志中包含的与用户行为特征相关的九个 字段, 包括: 操作时间、 进程ID、 系统账号ID、 真实姓名即堡垒机账号ID、 通过堡垒机连接的 服务器IP、 完整命令字符串、 命令参数部分、 命令指令部分、 命令中出现的远程连接地址。 4.根据权利要求1或3所述基于网络安全设备日志数据的用户画像分组及行为分析方 法, 其特征在于, 所述步骤2和步骤6中。
7、, 特征提取包括: (1)依据用户日志数据中的 “操作时间” 字段提取操作频次类特征: 将单日内的24小时 划分为0点8点、 8点12点、 12点14点、 14点18点、 18点24点五个时段, 8点12点和 14点18点这两个时段上记作 “工作时间” 进行后序统计, 0点8点、 12点14点、 18点24 点这三个时段记作 “休息时间” 进行后序统计; 然后, 通过统计历史日志中, 每个用户每日工 作时间、 休息时间的操作次数, 分别对其求取平均值, 获得工作时间日均操作次数、 休息时 间日均操作次数两个用户特征; 采取同样方法, 将周一至周五记作 “工作日” 进行后序统计, 将周六与周日的。
8、用户操作作为 “休息日” 进行后序统计; 通过统计历史日志中, 每个用户每 个工作日、 休息日的操作次数, 分别对其求取平均值, 得到工作日均操作次数、 休息日日均 权利要求书 1/4 页 2 CN 110781930 A 2 操作次数两个用户特征; (2)依据用户日志数据中的 “进程ID” 、“系统账号ID” 以及 “服务器IP” 三个有效字段提 取账号与设备使用类特征: 通过统计历史日志中, 每位用户每天所使用过的服务器数目、 系 统账号数目以及进程ID数目, 分别对其按日求取平均值, 得到该用户平均每日使用的服务 器IP数目、 平均每日使用的系统账号ID数目、 平均每日使用的进程ID数目。
9、3个用户特征; (3)依据用户日志数据中的 “命令指令部分” 有效字段提取操作指令使用类特征: 通过 识别历史日志中每个用户的指令类别, 统计每个用户在各类指令下的操作频次, 并计算出 各类指令在用户使用过的全部指令中的占比, 从而得到使用的各类指令占比, 指令类别包 括: Linux指令中文件管理类、 文档编辑类、 文件传输类、 磁盘管理类、 磁盘维护类、 网络通讯 类、 系统管理类、 系统设置类、 备份压缩类、 设备管理类指令的占比, 使用的Hadoop指令中用 户命令、 管理命令的占比, 使用的SQL指令中数据操作、 数据定义、 数据控制、 事务控制、 程序 化SQL的占比以及未识别指令。
10、的占比, 最后获得共18个用户特征; (4)依据用户日志数据中的 “命令参数部分” 、“命令指令部分” 以及 “命令中出现的远程 连接地址” 三个有效字段以及用户权限数据中提取所有用户的权限信息, 提取越权操作类 特征: 通过提取历史日志中每个用户登录其他系统账号、 使用高级权限即 “root” 权限、 远程 登录其他服务器的行为信息, 并将其与该用户的权限数据进行对照, 统计每个用户越权登 录他人账号、 服务器, 以及私自提权为 “root” 的次数, 从而得到越权登录他人账号频次、 越 权登录他人账号个数、 私自提权频次、 越权登录其他服务器频次、 越权登录其他服务器的个 数5个用户特征。。
11、 5.根据权利要求1所述基于网络安全设备日志数据的用户画像分组及行为分析方法, 其特征在于, 所述步骤3中, 特征标准化具体包括: 步骤3.1, 针对全部用户的每一个特征维度, 计算并记录每一个特征值的均值 与方差 2; 步骤3.2, 对每个用户的每个特征x使用公式进行换算, 并用所得的x*进行步 骤4中模型构建运算。 6.根据权利要求1所述基于网络安全设备日志数据的用户画像分组及行为分析方法, 其特征在于, 所述步骤4具体包括: 步骤4.1, 使用K-means聚类算法, 选取不同的分组数K, 对得到的用户特征集进行聚类, 然后计算所有特征向量到其所属类的类中心的欧式距离之和 , 使用所有K。
12、值与其对应 值 绘制横轴为K、 纵轴为 的曲线, 选取曲线斜率绝对值变化程度最大的一点, 该点对应的K*值 即为应选择的分组数; 步骤4.2, 确定分组数K*后, 使用K-means聚类算法对从用户历史日志数据中提取到并进 行标准化处理后的用户特征集进行聚类, 得到用户的K*个分组, 并按照每个用户特征向量 的类标记将其分入各个特征向量组, 从而得到分组后的用户画像特征库, 并保留该K-means 聚类算法模型。 7.根据权利要求1所述基于网络安全设备日志数据的用户画像分组及行为分析方法, 其特征在于, 所述步骤5具体包括: 步骤5.1, 根据用户特征集的聚类分组结果, 绘制每个特征维度上每个。
13、用户组特征值的 权利要求书 2/4 页 3 CN 110781930 A 3 累计分布图, 具体方法是: 针对每个特征维度构建累积分布图, 累计分布图的横坐标X代表 了一个阈值, 并根据该维度上全部特征值的具体大小选择合适的横轴取值范围; 纵坐标y (X)代表累计分布值, 记录了所有用户中该特征下取值小于阈值X的用户占比; 设此时有K个 用户分组, 将这K个用户组在该特征下可能的取值标记为x1,x2,xK, 并且设各分组内用户 个数为1,2,K, 那么该累计分布图中第k组的累计分布曲线纵坐标为 其中X为横坐标的取值; num(xkX)表示的是第k组用户中, 在该特征下, 取值小 于X的用户数目。
14、; 因此yk(X)代表了第k组用户中, 在该特征下, 取值小于取值小于X的用户在 第k组用户中的占比, 由此得到不同分组用户特征在该维度上的累计分布曲线y1,y2,yk; 步骤5.2, 根据各特征维度的累计分布图, 获得各组用户的典型用户画像, 具体方法为: 首先将步骤2和步骤6中提到的30个特征进行划分, 将这30个特征映射至8个用户画像维度, 每个特征属于某一个用户画像维度, 分别为: 工作时间活跃度、 休息时间活跃度、 工作复杂 度、 Linux指令使用偏好、 Hadoop命令使用偏好、 SQL指令使用偏好、 账号越权频繁度、 服务器 越权频繁度; 通过分析步骤5.1中获得的各个特征的累。
15、积分布图, 将每个用户画像维度的分 布划分为低、 较低、 中、 较高、 高5个等级, 表示为Llow,medium low,medium,medium high,high, 并简化为L0,1,2,3,4,5, 用以描述各组用户在这8个用户画像维度上的行 为特点, 进而第k个分组的用户的画像表示成UPkL1,L2,L8, 其中Li代表该分组在第i 个用户画像维度的等级; 步骤5.3, 将在账号越权频繁度、 服务器越权频繁度这两个画像特征上具有 “高” 或 “较 高” 数值水平的用户画像标记为高危用户画像, 符合该画像的用户组即为高危用户组。 8.根据权利要求1所述基于网络安全设备日志数据的用户画。
16、像分组及行为分析方法, 其特征在于, 所述步骤6具体包括: 步骤6.1, 获取网络安全设备最近N周内的用户日志数据, 以 “周” 为单位提取用户特征, 并同样利用步骤3中获得的各个特征的平均值和标准差, 按相同方法对这些特征进行标准 化处理; 步骤6.2, 使用步骤4中获得的K-means聚类算法模型对每个用户特征向量与用户画像 进行匹配, 确定每个用户特征的分组标记; 步骤6.3, 将每位用户最近一周的用户组标记与N周内的历史标记进行对比, 其中被标 记为高危用户组的次数与周数N的比值为违规度I, N周内用户组标记的变化次数与N-1的比 值为跳变度H, 用户在相邻两周的用户组标记不同即为一次。
17、变化; 步骤6.4, 基于每位用户的跳变度H与违规度I, 设置综合预警阈值, 对是否针对跳变度 和违规度超过综合阈值的用户发出预警做出决策。 9.根据权利要求8所述基于网络安全设备日志数据的用户画像分组及行为分析方法, 其特征在于, 分析所用用户日志数据的周数N以及预警的概率阈值由人工设定, 或通过机器 学习模型得到。 10.一种基于网络安全设备日志数据的用户画像分组及行为分析系统, 包括数据获取 模块、 特征提取模块、 分析模块、 警告和可视化模块四个模块, 可分析出云平台用户的行为 特征与用户画像, 通过警告决策和可视化展示对高危用户发出警告, 其特征在于: 数据获取模块, 从网络安全设备。
18、获取用户权限数据与用户日志数据; 权利要求书 3/4 页 4 CN 110781930 A 4 特征提取模块, 从用户权限数据中提取与用户权限相关的服务器权限、 系统账号权限, 从用户日志数据中提取与用户行为相关的操作频次特征、 账号与设备使用特征、 操作指令 使用特征、 越权操作特征; 分析模块, 基于特征提取模块得到的各项特征使用聚类算法得到用户组分类标签, 并 根据类标签建立各组用户画像特征库, 绘制各个特征维度上的累计分布图, 根据图中各组 的特征值数值分布特点获得各组的用户画像, 并对高危用户画像进行标记; 警告和可视化模块, 根据分析模块中获得的用户画像, 对最近数周的用户特征进行。
19、匹 配, 并计算用户跳变度和违规度, 从而对是否发出高危用户预警做出自动决策, 并且对各用 户分组匹配结果进行可视化呈现。 权利要求书 4/4 页 5 CN 110781930 A 5 一种基于网络安全设备日志数据的用户画像分组及行为分析 方法和系统 技术领域 0001 本发明属于数据挖掘技术领域, 特别涉及一种基于网络安全设备日志数据的用户 画像分组及行为分析方法和系统。 背景技术 0002 由于企业云平台的重要性, 各企业在搭建云平台时都会选择将其部署在安全设备 之后从而保障其不受到来自外网的攻击。 但安全设备对于已获准进入的内部用户的异常访 问行为并不能很好的检查出来, 比如用户账户滥用。
20、、 用户越权访问, 以及用户私自获取、 修 改重要数据等行为。 这些异常行为对于企业云平台而言具有极高的风险, 一旦发生就会给 企业带来不可估量的严重后果和经济损失。 0003 虽然网络安全设备无法检测到内部用户的行为异常, 但可以较为全面的记录所有 云平台用户的操作信息与账户信息。 通过这些数据我们可以利用技术手段提取出用户的行 为特征, 从而尝试对用户进行行为分析并实现对异常用户的识别预警。 发明内容 0004 为了克服上述现有技术的缺点, 本发明的目的在于提供一种基于网络安全设备日 志数据的用户画像分组及行为分析方法和系统, 从网络安全设备用户权限数据中提取用户 权限信息, 然后通过统计。
21、海量用户日志数据获得用户的操作频次、 账号设备使用、 指令操 作、 越权行为等特征; 使用聚类方法获取用户分组标记, 并通过绘制各特征维度的用户特征 值累计分布图分析各用户组典型行为特征, 从而构建各组用户画像; 通过用户画像匹配用 户特征, 并根据匹配结果对异常用户作出预警, 从而达到准确预警并节省人力和财力的目 的。 本发明不仅考虑了用户的历史日志数据, 同时也考虑了用户的实时数据, 具有获取成本 低、 信息内容丰富、 覆盖用户广、 针对用户的行为分析更全面等优点, 使得本申请与传统的 方法和系统相比, 具有明显优势。 0005 为了实现上述目的, 本发明采用的技术方案是: 0006 一种。
22、基于网络安全设备日志数据的用户画像分组及行为分析方法, 包括: 0007 步骤1, 以网络安全设备用户权限数据为数据源, 从用户权限数据中提取所有用户 的权限信息, 包括各用户允许登录的服务器IP以及各用户授权使用的系统账号ID。 0008 步骤2, 以网络安全设备一段时间(例如一个月)内的用户日志数据为数据源, 从用 户操作日志的有效字段中提取30个用户特征, 包括操作频次特征、 账号与设备使用特征、 操 作指令使用特征以及结合步骤1中的用户权限信息提取到的用户越权操作特征共四类特 征, 具体可采取: 0009 步骤2.1, 依据历史日志数据中的 “操作时间” 字段提取操作频次类特征: 将单。
23、日内 的24小时划分为0点8点、 8点12点、 12点14点、 14点18点、 18点24点五个时段, 8点 12点和14点18点这两个时段上记作 “工作时间” 进行后序统计, 0点8点、 12点14点、 说明书 1/7 页 6 CN 110781930 A 6 18点24点这三个时段记作 “休息时间” 进行后序统计。 然后, 通过统计历史日志中, 每个用 户每日工作时间、 休息时间的操作次数, 分别对其求取平均值, 可以获得工作时间日均操作 次数、 休息时间日均操作次数两个用户特征。 相似地, 将周一至周五记作 “工作日” 进行后序 统计, 将周六与周日的用户操作作为 “休息日” 进行后序统。
24、计。 通过统计历史日志中, 每个用 户每个工作日、 休息日的操作次数, 分别对其求取平均值, 又可以得到工作日均操作次数、 休息日日均操作次数两个用户特征; 0010 步骤2.2, 依据历史日志数据中的 “进程ID” 、“系统账号ID” 以及 “服务器IP” 三个有 效字段提取账号与设备使用类特征: 通过统计历史日志中, 每位用户每天所使用过的服务 器数目、 系统账号数目以及进程ID数目, 分别对其按日求取平均值, 可以得到该用户平均每 日使用的服务器IP数目、 平均每日使用的系统账号ID数目、 平均每日使用的进程ID数目3个 用户特征; 0011 步骤2.3, 依据历史日志数据中的 “命令指。
25、令部分” 有效字段提取操作指令使用类 特征: 通过识别历史日志中每个用户的指令类别, 统计每个用户在各类指令下的操作频次, 并计算出各类指令在用户使用过的全部指令中的占比, 从而得到使用的各类指令占比, 指 令类别包括: Linux指令中文件管理类、 文档编辑类、 文件传输类、 磁盘管理类、 磁盘维护类、 网络通讯类、 系统管理类、 系统设置类、 备份压缩类、 设备管理类指令的占比, 使用的Hadoop 指令中用户命令、 管理命令的占比, 使用的SQL指令中数据操作、 数据定义、 数据控制、 事务 控制、 程序化SQL的占比, 以及未识别指令的占比, 最后可获得共18个用户特征; 0012 步。
26、骤2.4, 依据历史日志数据中的 “命令参数部分” 、“命令指令部分” 以及 “命令中 出现的远程连接地址” 三个有效字段以及用户权限数据中提取所有用户的权限信息, 提取 越权操作类特征: 通过提取历史日志中每个用户登录其他系统账号、 使用高级权限( “root” 权限)、 远程登录其他服务器的行为信息, 并将其与该用户的权限数据进行对照, 统计每个 用户越权登录他人账号、 服务器, 以及私自提权为 “root” 的次数, 从而得到越权登录他人账 号频次、 越权登录他人账号个数、 私自提权频次、 越权登录其他服务器频次、 越权登录其他 服务器的个数5个用户特征。 0013 步骤3, 根据步骤2。
27、中提取到的用户特征, 使用特征标准化预处理方法对用户特征 进行标准化处理, 得到标准化后的用户特征, 并记录所有的标准化时用到的信息, 即所有特 征的平均值与标准差, 具体可采取: 0014 步骤3.1, 针对全部用户的每一个特征维度, 计算并记录每一个特征值的均值 与 方差 2; 0015步骤3.2, 对每个用户的每个特征x使用公式进行换算, 并用所得的x*进 行步骤4中模型构建运算。 0016 步骤4, 使用聚类方法, 对步骤3中得到的全部用户特征进行聚类, 获得聚类模型, 并得到具有不同行为特点的用户分组, 具体可采取: 0017 步骤4.1, 使用K-means聚类算法, 选取不同的分。
28、组数K, 对得到的用户特征集进行 聚类, 然后计算所有特征向量到其所属类的类中心的欧式距离之和 , 使用所有K值与其对 应 值绘制横轴为K、 纵轴为 的曲线, 选取曲线斜率绝对值变化程度最大的一点, 该点对应 的K*值即为应选择的分组数; 说明书 2/7 页 7 CN 110781930 A 7 0018 步骤4.2, 步骤4.2, 确定分组数K*后, 使用K-means聚类算法对从用户历史日志数 据中提取到并进行标准化处理后的用户特征集进行聚类, 得到用户的K*个分组。 并按照每 个用户特征向量的类标记将其分入各个特征向量组, 从而得到分组后的用户画像特征库, 并保留该K-means聚类算法。
29、模型。 0019 步骤5, 根据步骤4中的用户分组结果, 绘制用户特征在每个特征维度上的累计分 布图, 并根据累计分布图对每个用户分组的典型特点进行分析, 从而产生各个用户分组的 用户画像, 并将违规特征显著的用户组标记为高危用户组, 具体可采取: 0020 步骤5.1, 根据用户特征集的聚类分组结果, 绘制每个特征维度上每个用户组特征 值的累计分布图, 具体方法是: 针对每个特征维度构建累积分布图, 累计分布图的横坐标X 代表了一个阈值, 并根据该维度上全部特征值的具体大小选择合适的横轴取值范围; 纵坐 标y(X)代表累计分布值, 记录了所有用户中该特征下取值小于阈值X的用户占比。 设此时有。
30、 K个用户分组, 将这K个用户组在该特征下可能的取值标记为x1,x2,xK, 并且设各分组内 用户个数为1,2, ,K, 那么该累计分布图中第k组的累计分布曲线纵坐标为 其中X为横坐标的取值; num(xkX)表示的是第k组用户中, 在该特征 下, 取值小于X的用户数目; 因此yk(X)代表了第k组用户中, 在该特征下, 取值小于取值小于 X的用户在第k组用户中的占比。 由此得到不同分组用户特征在该维度上的累计分布曲线 y1,y2,yk; 0021 步骤5.2, 根据各特征维度的累计分布图, 获得各组用户的典型用户画像, 具体方 法为: 首先将步骤2和步骤6中提到的30个特征进行划分, 将这3。
31、0个特征映射至8个用户画像 维度, 每个特征属于某一个用户画像维度, 分别为: 工作时间活跃度、 休息时间活跃度、 工作 复杂度、 Linux指令使用偏好、 Hadoop命令使用偏好、 SQL指令使用偏好、 账号越权频繁度、 服 务器越权频繁度; 通过分析步骤5.1中获得的各个特征的累积分布图, 将每个用户画像维度 的分布划分为低、 较低、 中、 较高、 高5个等级, 表示为Llow ,medium low ,medium , mediumhigh,high, 并简化为L0,1,2,3,4,5, 用以描述各组用户在这8个用户画像维度 上的行为特点, 进而第k个分组的用户的画像表示成UPkL1,。
32、L2,L8, 其中Li代表该分组 在第i个用户画像维度的等级; 0022 步骤5.3, 将在账号越权频繁度、 服务器越权频繁度这两个画像特征上具有 “高” 或 “较高” 数值水平的用户画像标记为高危用户画像, 符合该画像的用户组即为高危用户组。 0023 步骤6, 获取网络安全设备的近期用户日志数据, 从其中的用户操作日志有效字段 中提取用户实时行为特征, 根据步骤4中得到的聚类模型以及各个用户的当前实时特征, 对 每个用户进行分组匹配, 然后结合用户的历史匹配结果计算每位用户的跳跃度及违规度, 对是否发出用户异常警告做出决策, 具体可采取: 0024 步骤6.1, 获取网络安全设备最近N周内。
33、的用户日志数据, 以 “周” 为单位提取用户 特征, 并同样利用步骤3中获得的各个特征的平均值和标准差, 对这些特征进行标准化处 理; 0025 步骤6.2, 使用步骤4中获得的K-means聚类算法模型对每个用户特征向量与用户 画像进行匹配, 确定每个用户特征的分组标记; 0026 步骤6.3, 将每位用户最近一周的用户组标记与N周内的历史标记进行对比, 其中 说明书 3/7 页 8 CN 110781930 A 8 被标记为高危用户组的次数与周数N的比值为违规度I, N周内用户组标记的变化次数(相邻 两周的用户标记不同即为一次变化)与N-1的比值为跳变度H; 0027 步骤6.4, 基于每。
34、位用户的跳变度H与违规度I, 设置综合预警阈值, 对是否针对跳 变度和违规度超过综合阈值的用户发出预警做出决策。 0028 进一步, 本发明中网络安全设备用户权限数据是指网络安全设备上的包含所有用 户的服务器登录权限、 系统账号授权以及权限有效期信息在内的数据。 0029 进一步, 本发明中网络安全设备日志数据是指, 例如云平台堡垒机等安全设备记 录下的包含用户每日操作的具体信息如时间、 服务器IP、 使用指令、 系统账号等内容的大量 相关数据。 0030 进一步, 本发明中网络安全设备一段时间内的用户日志数据是指150天内的历史 日志数据, 所述步骤6中近期用户日志数据是指最近一周内的用户日。
35、志数据, 均为网络安全 设备上包含用户操作时的操作时间、 所在服务器、 所用账号以及操作指令在内的有效字段 的日志数据, 有效字段是指经过指令解析后的用户日志中包含的与用户行为特征相关的九 个字段, 包括: 操作时间、 进程ID、 系统账号ID、 真实姓名即堡垒机账号ID、 通过堡垒机连接 的服务器IP、 完整命令字符串、 命令参数部分、 命令指令部分、 命令中出现的远程连接地址。 0031 进一步, 本发明中所提到的用户画像是指对现实世界中用户的一种数据化建模的 方法。 在步骤5.2中使用UPkL1,L2,L8来表示, 使用一组八维的数字来描述用户在活 跃度、 工作复杂度、 指令使用偏好等八。
36、个特征维度上的典型特点。 0032 进一步, 步骤6中提到的跳变度H是用来衡量用户一段时间内分组匹配结果的变化 频繁程度; 违规度I则用来衡量用户被匹配为高危用户组的频繁程度。 这两个值越高, 用户 发生异常的可能性越大。 0033 进一步, 分析所用用户日志数据的周数N以及预警的概率阈值由人工设定, 也可通 过机器学习模型得到。 0034 本发明还提供了一种基于网络安全设备日志数据的用户画像分组及行为分析系 统, 包括数据获取模块、 特征提取模块、 分析模块、 警告和可视化模块四个模块, 可分析出云 平台用户的行为特征与用户画像, 通过警告决策和可视化展示对高危用户发出警告, 其特 征在于,。
37、 包括: 0035 数据获取模块, 从网络安全设备获取用户权限数据与用户日志数据; 0036 特征提取模块, 从用户权限数据中提取与用户权限相关的服务器权限、 系统账号 权限, 从用户日志数据中提取与用户行为相关的操作频次特征、 账号与设备使用特征、 操作 指令使用特征、 越权操作特征; 0037 分析模块, 基于特征提取模块得到的各项特征使用聚类算法得到用户组分类标 签, 并根据类标签建立各组用户画像特征库, 绘制各个特征维度上的累计分布图, 根据图中 各组的特征值数值分布特点获得各组的用户画像, 并对高危用户画像进行标记; 0038 警告和可视化模块, 根据分析模块中获得的用户画像, 对最。
38、近数周的用户特征进 行匹配, 并计算用户跳变度和违规度, 从而对是否发出高危用户预警做出自动决策, 并且对 各用户分组匹配结果与用户危险程度进行可视化呈现。 0039 与现有技术相比, 本发明的有益效果是: 0040 1.在用户行为分析过程中, 只需要网络安全设备上自动记录的用户权限数据和日 说明书 4/7 页 9 CN 110781930 A 9 志数据, 不需要其他专门产生的数据, 也不需要具体的人工标记, 从而该方法具有很低的人 力和财力的花销。 0041 2.使用的聚类算法的本身结构决定该算法简单容易实现, 同时具有低的时间复杂 度, 降低了计算开销。 0042 3.在对异常用户作出预。
39、警决策时采用了违规度和跳变度双度量的方法, 既提高了 结果的可靠性, 也实现了对用户异常程度的定量化描述。 附图说明 0043 图1是本发明的基于网络安全设备日志数据的用户画像分组及行为分析方法框 图。 0044 图2是本发明的基于网络安全设备日志数据的用户画像分组及行为分析系统框架 图。 0045 图3是网络安全设备用户权限数据实例。 0046 图4是网络安全设备日志数据实例。 0047 图5是累计分布图在一个特征维度上的示例。 0048 图6是实时分析的可视化结果。 具体实施方式 0049 下面结合附图和实施例详细说明本发明的实施方式。 0050 本发明中的方法将分为离线建模和在线分析两部。
40、分说明, 具体包括数据获取过 程、 特征提取过程、 聚类模型建立过程, 在线用户行为分析过程。 图1是本发明的基于网络安 全设备日志数据的用户画像分组及行为分析方法框图。 本发明中的系统以框图形式予以说 明。 图2是本发明的基于网络安全设备日志数据的用户画像分组及行为分析系统框架图。 0051 数据获取过程 0052 图3是网络安全设备用户权限数据实例。 图4是网络安全设备用户日志数据实例。 数据获取具体过程如下: 0053 (1)通过Linux下载指令, 以固定格式从数据源下载所需用户权限数据; 0054 (2)通过Linux下载指令, 以固定格式从数据源下载用户日志数据中的所需字段。 00。
41、55 特征提取过程 0056 通过批量数据处理和文本挖掘等技术, 参考网络安全设备用户权限信息对网络安 全设备日志数据中有效字段进行特征提取。 具体特征提取过程如下: 0057 (1)如图4中用户日志数据所示, 依据日志数据中的 “操作时间” 字段提取操作频次 类特征: 依据历史日志数据中的 “操作时间” 字段提取操作频次类特征: 将单日内的24小时 划分为0点8点、 8点12点、 12点14点、 14点18点、 18点24点五个时段, 8点12点和 14点18点这两个时段上记作 “工作时间” 进行后序统计, 0点8点、 12点14点、 18点24 点这三个时段记作 “休息时间” 进行后序统计。
42、。 然后, 通过统计历史日志中, 每个用户每日工 作时间、 休息时间的操作次数, 分别对其求取平均值, 可以获得工作时间日均操作次数、 休 息时间日均操作次数两个用户特征。 相似地, 将周一至周五记作 “工作日” 进行后序统计, 将 周六与周日的用户操作作为 “休息日” 进行后序统计。 通过统计历史日志中, 每个用户每个 说明书 5/7 页 10 CN 110781930 A 10 工作日、 休息日的操作次数, 分别对其求取平均值, 又可以得到工作日均操作次数、 休息日 日均操作次数两个用户特征; 0058 (2)依据历史日志数据中的 “进程ID” 、“系统账号ID” 以及 “服务器IP” 三。
43、个有效字 段提取账号与设备使用类特征: 对通过统计历史日志中, 每位用户每天所使用过的服务器 数目、 系统账号数目以及进程ID数目, 分别对其按日求取平均值, 可以得到该用户平均每日 使用的服务器IP数目、 平均每日使用的系统账号ID数目、 平均每日使用的进程ID数目3个用 户特征; 0059 (3)依据历史日志数据中的 “命令指令部分” 有效字段提取操作指令使用类特征: 通过识别历史日志中每个用户的指令类别, 统计每个用户在各类指令下的操作频次, 并计 算出各类指令在用户使用过的全部指令中的占比, 从而得到使用的各类指令占比, 指令类 别包括: Linux指令中文件管理类、 文档编辑类、 文。
44、件传输类、 磁盘管理类、 磁盘维护类、 网络 通讯类、 系统管理类、 系统设置类、 备份压缩类、 设备管理类指令的占比, 使用的Hadoop指令 中用户命令、 管理命令的占比, 使用的SQL指令中数据操作、 数据定义、 数据控制、 事务控制、 程序化SQL的占比, 以及未识别指令的占比, 最后可获得共18个用户特征; 0060 (4)依据历史日志数据中的 “命令参数部分” 、“命令指令部分” 以及 “命令中出现的 远程连接地址” 三个有效字段提取越权操作类特征: 通过提取历史日志中每个用户登录其 他系统账号、 使用高级权限( “root” 权限)、 远程登录其他服务器的行为信息, 并将其与该用。
45、 户的权限数据进行对照, 统计每个用户越权登录他人账号、 服务器, 以及私自提权为 “root” 的次数, 从而得到越权登录他人账号频次、 越权登录他人账号个数、 私自提权频次、 越权登 录其他服务器频次、 越权登录其他服务器的个数5个用户特征; 0061 聚类模型建立过程 0062 具体建立过程如下: 0063 (1)根据用户特征集的聚类分组结果, 绘制每个特征维度上每个用户组特征值的 累计分布图, 选取其中一个特征维度上的累计分布图为例, 如图5所示; 0064 (2)根据各特征维度的累计分布图, 获得各组用户的典型用户画像。 典型行为分析 表如表1所示, 最终获得的各组用户画像如表2所示。
46、。 0065 表1 0066 行为特征第一类第二类第三类第四类第五类第六类第七类 工作时间活跃度中低中中高低低 休息时间活跃度低低低低高低低 工作复杂度低低中高中低低 Linux指令使用偏好低低高低低低低 Hadoop命令使用偏好无低较低低低高无 SQL指令使用偏好低低低低低低高 越权登录他人账号频繁度较高低低高低低低 越权登录其他服务器频繁度高低低较高低低低 0067 表2 0068 用户类群用户画像描述 第一类UP13,1,1,1,0,1,4,5 第二类UP21,1,1,1,1,1,1,1 说明书 6/7 页 11 CN 110781930 A 11 第三类UP33,1,3,5,2,1,1。
47、,1 第四类UP43,1,5,1,1,1,5,4 第五类UP55,5,3,1,1,1,1,1 第六类UP61,1,1,1,5,1,1,1 第七类UP71,1,1,1,0,5,1,1 0069 在线用户行为分析过程 0070 获取网络安全设备的近期用户日志数据, 从其中的用户操作日志有效字段中提取 用户实时行为特征, 根据用户画像对各个用户的当前特征进行分组匹配, 然后结合用户的 历史匹配结果计算每位用户的跳跃度及违规度, 对是否发出用户异常警告做出决策, 具体 过程如下: 0071 (1)获取网络安全设备最近N周内的用户日志数据, 以 “周” 为单位提取用户特征; 0072 (2)使用步骤4中。
48、获得的K-means聚类算法模型对每个用户特征向量与用户画像进 行匹配, 确定每个用户特征的分组标记; 0073 (3)将每位用户最近一周的用户组标记与N周内的历史标记进行对比, 其中被标记 为高危用户组的次数与周数N的比值为违规度I, N周内用户组标记的变化次数(相邻两周的 用户标记不同即为一次变化)与N-1的比值为跳变度H; 0074 (4)基于每位用户的跳变度H与违规度I, 设置综合预警阈值, 对是否针对跳变度和 违规度超过综合阈值的用户发出预警做出决策。 0075 图6是用户分组匹配结果在服务器上在线运行的可视化结果(用户真实姓名不予 展示), 每个被标记为 “1” (label字段,。
49、 即每行的倒数第二列)的用户都是具有较高风险的异 常用户。 0076 综上, 本发明从网络安全设备用户日志等数据中提取特征, 对特征进行预处理和 数据分析, 获得特征之间以及特征与用户行为之间的关系, 根据用户特征构建用户分组的 聚类模型, 根据聚类模型建立用户画像, 并根据用户特征和用户画像的匹配结果决定用户 是否存在行为异常; 本发明用户画像分组及行为分析方法和系统, 实现简单、 计算复杂度 低, 可以有效减少用户日志中行为分析的计算资源开销, 不需要任何额外标记, 仅需要网络 安全设备自动记录的数据, 具有实际应用的优势, 提供了具有不同行为模式的用户分组方 法和画像匹配方法, 同时对用户行为是否存在异常进行了决策性判断。 说明书 7/7 页 12 CN 110781930 A 12 图1 说明书附图 1/4 页 13 CN 110781930 A 13 图2 图3 说明书附图 2/4 页 14 CN 110781930 A 14 图4 图5 说明书附图 3/4 页 15 CN 110781930 A 15 图6 说明书附图 4/4 页 16 CN 110781930 A 16 。
- 内容关键字: 基于 网络安全 设备 日志 数据 用户 画像 分组 行为 分析 方法 系统
新型推拉式化妆容器.pdf
车辆后桥制动油管安装结构.pdf
电动玩具车零件喷漆用工件架.pdf
玩具车.pdf
筒体内外圆机加工支撑装置.pdf
多功能加热破壁料理机.pdf
芳烃吸附分离装置程控球阀.pdf
内衣生产用布料收卷机构.pdf
离心机的转篮机构.pdf
铜及铜合金半连续铸造装置.pdf
积木琴玩具.pdf
健身器材用弹簧减震结构.pdf
包装瓶烫金用定位工装.pdf
积木块.pdf
双孔快速均匀进料滤板组合结构.pdf
快速高效过滤器滤芯.pdf
集成防电墙式恒温阀及应用该恒温阀的热水器.pdf
合金钢异型材成型一体机.pdf
液体药物浓度调节器.pdf
游客分类方法、装置及电子设备.pdf
再生铅环集烟气除尘脱硫设备.pdf
隧道施工支护结构及施工方法.pdf
基于大数据分析的电力系统风险预测方法及系统.pdf
安检图像查验方法和装置.pdf
基于机器学习的半导体电阻值预测方法及系统.pdf
由石墨烯材料制成的散热膜及其应用的手机后盖.pdf
电催化氧化医院废水处理装置.pdf
单相复合钙钛矿陶瓷粉体、微波介质陶瓷材料及其制备方法.pdf
半导体用超纯电子级化学试剂纯化装置.pdf
阵列基板制备方法、阵列基板、显示面板及显示装置.pdf
织机了机时间预测方法.pdf
受限空间内燃气燃爆超、动压测试装置及方法.pdf
一种高效无公害茶叶的种植方法.pdf
一种防治迟眼蕈蚊幼虫的安全无毒精油.pdf
一种多功能家用床.pdf
一种二合一动漫设计工作台.pdf
一种罗非鱼片的熏制加工方法.pdf
一种猪的养殖方法.pdf
一种养生壶.pdf
一种红烧肉的制作方法.pdf
鱼菜共生系统的营养液供给装置.pdf
一种基质栽培蓝莓的夏季水分管理方法.pdf
纳米微粒化的乳清蛋白.pdf
一种采摘器和辣椒收获机.pdf
一种能够清除并除异味的猪圈粪便清理装置.pdf
一种能方便内急的椅子.pdf
一种扰动稻田土壤减少水稻释放甲烷的装置和方法.pdf
一种农业多通道覆膜装置.pdf
西瓜黄豆辣酱及其生产方法.pdf
一种电蒸箱左右侧板安装结构.pdf
一种种植装置.pdf
相关文档
更多![车辆熄火后的数据处理方法、装置、电子设备与存储介质.pdf](/Images/s.gif)
![电动汽车热管理系统的控制方法及电动汽车.pdf](/Images/s.gif)
![网约车的费用展示方法、装置、设备和存储介质.pdf](/Images/s.gif)
![苯并呋喃类小分子P2Y.pdf](/Images/s.gif)
![信息处理方法、装置、智能设备及存储介质.pdf](/Images/s.gif)
![安全带用打标装置.pdf](/Images/s.gif)
![参量阵冰层剖面探测水下机器人及冰层剖面探测方法.pdf](/Images/s.gif)
![数据异常预警方法、装置、设备及存储介质.pdf](/Images/s.gif)
![大尺寸单晶金刚石的抛光方法.pdf](/Images/s.gif)
![抗拉伸耐磨损智能手表表带.pdf](/Images/s.gif)
![耐划伤性能较好的水性油墨.pdf](/Images/s.gif)
![统一的概率区间混合不确定性传播分析方法.pdf](/Images/s.gif)
![(R)-3-羟基丁酸及其低聚物的制备方法.pdf](/Images/s.gif)
![石墨烯基导电水凝胶和其制备方法及在柔性可穿戴式传感器上的应用.pdf](/Images/s.gif)
![异常业务数据分析方法、装置、设备及存储介质.pdf](/Images/s.gif)
![二氧化钛薄膜电极及其制备方法和应用.pdf](/Images/s.gif)
![肿瘤患者用免疫营养剂及其制备方法.pdf](/Images/s.gif)
![呋喃树脂及其制备方法.pdf](/Images/s.gif)
![图像识别系统.pdf](/Images/s.gif)
![畜牧业用地面清洁装置.pdf](/Images/s.gif)