基于直觉模糊时间序列图挖掘的网络流量异常检测方法.pdf
《基于直觉模糊时间序列图挖掘的网络流量异常检测方法.pdf》由会员分享,可在线阅读,更多相关《基于直觉模糊时间序列图挖掘的网络流量异常检测方法.pdf(20页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010231462.X (22)申请日 2020.03.27 (71)申请人 中国人民解放军空军工程大学 地址 710051 陕西省西安市灞桥区长乐东 路甲字一号 (72)发明人 王亚男宋亚飞王坚路艳丽 权文 (74)专利代理机构 北京丰浩知识产权代理事务 所(普通合伙) 11781 代理人 李学康 (51)Int.Cl. G06F 16/26(2019.01) H04L 29/06(2006.01) (54)发明名称 基于直觉模糊时间序列图挖掘的网络流量 异常检测方法 (。
2、57)摘要 本发明公开了一种基于直觉模糊时间序列 图挖掘的网络流量异常检测方法, 包括如下步 骤: 步骤一: IFTS图构建; 步骤二: IFTS图挖掘; 步 骤三: 确定异常判定准则。 本发明的有益效果在 于: 通过构建直觉模糊时间序列图, 实现了对图 中顶点关系信息的全面挖掘和充分利用, 可以对 网络流量异常进行更加精确的检测。 首先, 结合 信息熵和IFTS预测技术, 将原本一维的网络流量 预测转化为更加精确的五维预测; 此外, 启发式 变阶IFTS预测不仅在不完备数据集上具有高效 的预测性能, 还可以使预测结果更加贴合实际; 利用更加精确的预测结果建立的完全图可以更 准确的反映流量属性。
3、的变化, 进而通过频繁子图 挖掘得到更准确的异常报告。 权利要求书3页 说明书13页 附图3页 CN 111460026 A 2020.07.28 CN 111460026 A 1.基于直觉模糊时间序列图挖掘的网络流量异常检测方法, 其特征在于, 包括如下步 骤: 步骤一: IFTS图构建; 步骤二: IFTS图挖掘; 步骤三: 确定异常判定准则。 2.如权利要求1所述的基于直觉模糊时间序列图挖掘的网络流量异常检测方法, 其特 征在于, 所述的步骤一包括如下步骤: (1)计算历史数据信息熵值; (2)利用IFTS预测模型进行预测; (3)建立IFTS图。 3.如权利要求2所述的基于直觉模糊时间。
4、序列图挖掘的网络流量异常检测方法, 其特 征在于, 所述的步骤一中的步骤(1)包括, 根据公式(1)进行信息熵H(X)的计算 其中, p(xi)为随机事件xi发生的概率; 计算得到历史流量数据的源IP、 目的IP、 源端口、 目的端口和数据包长度5个属性的信 息熵值, 分别为H1(SIP),H2(SIP),.,Ht(SIP) (2) H1(DIP),H2(DIP),.,Ht(DIP) (3) H1(SPT),H2(SPT),.,Ht(SPT) (4) H1(DPT),H2(DPT),.,Ht(DPT) (5) H1(LEN),H2(LEN),.,Ht(LEN) (6) 其中, Hi(SIP)、。
5、 Hi(DIP)、 Hi(SPT)、 Hi(DPT)和Hi(LEN)分别表示第i时刻源IP的信息熵、 目 的IP的信息熵、 源端口的信息熵、 目的端口的信息熵和数据包长度的信息熵, 时刻i1, 2,t。 4.如权利要求3所述的基于直觉模糊时间序列图挖掘的网络流量异常检测方法, 其特 征在于, 所述的步骤一中的步骤(2)包括, 对步骤(1)中的5个属性的信息熵值建立各自的启发式变阶IFTS预测模型, 采用阶数随 序列实时变化的高阶预测规则对t+1时刻5个属性的信息熵值进行预测, 分别得到t+1时刻 的源IP预测值目的IP预测值源端口预测值目的端口预测 值和数据包长度预测值 5.如权利要求2所述的。
6、基于直觉模糊时间序列图挖掘的网络流量异常检测方法, 其特 征在于, 所述的步骤一中的步骤(3)包括, 建立历史数据各时刻上的五顶点完全图Gi(Vi,Ei), Vi为顶点的集合, Ei为边的集合, i 1 ,2, ,t, 得到整个时间序列上的IFTS图, 然后根据预测数据建立t+1时刻的预测图 6.如权利要求5所述的基于直觉模糊时间序列图挖掘的网络流量异常检测方法, 其特 权利要求书 1/3 页 2 CN 111460026 A 2 征在于, 所述的五顶点完全图的建立方法如下: 记t时刻得到的5顶点完全图为Gt(Vt,Et), 其中顶点vpVt(p1,2,3,4,5)和边emEt(m 1,2,.。
7、,10)的表示方法分别为: 顶点的计算方法如下: 利用t-1时刻到t时刻之间从网络中获取的流量数据进行计算, 得到t时刻的源IP地址、 目的IP地址、 源端口、 目的端口和数据包长度5个属性的信息熵的值, 分别记为源IP地址信 息熵Ht(SIP)、 目的IP地址信息熵Ht(DIP)、 源端口信息熵Ht(SPT)、 目的端口信息熵Ht(DPT) 和数据包长度信息熵Ht(LEN), 作为5个顶点v1、 v2、 v3、 v4和v5的值 计算上述5个属性的概率: 边的计算如下: 记em(vp,vq)为连接顶点vp和vq的边, 表示顶点vp和vq所代表的熵值的变化相似度, 即 其中 p表示t时刻顶点vp。
8、所代表的熵值Ht(p)和Ht(q)较t-1时刻的变化率, q表示t时刻顶 点vq所代表的熵值Ht(p)和Ht(q)较t-1时刻的变化率; Ht(p)为t时刻顶点vp所代表的熵值, Ht-1(p)为t-1时刻顶点vp所代表的熵值; Ht(q)为t时刻顶点vq所代表的熵值, Ht-1(q)为t-1时 刻顶点vq所代表的熵值。 7.如权利要求1所述的基于直觉模糊时间序列图挖掘的网络流量异常检测方法, 其特 征在于, 所述的步骤二包括如下: (1)挖掘频繁子图 分别计算图Gi(i1,2,.,t)和的所有子图的支持度sup(g), 确定支持度阈值 权利要求书 2/3 页 3 CN 111460026 A。
9、 3 sup, 进行频繁子图挖掘, 得到图Gi和的4类频繁子图的个数; (2)建立异常向量 分别计算图Gi(i1,2,.,t)和的4类子图中频繁子图所占的比例, 得到异常向量 和t+1时刻异常向量的预测值 (3)建立距离序列 根据t+1时刻流量的实际观测值进行计算, 建立5顶点完全图Gt+1(Vt+1,Et+1), 并进行频 繁子图挖掘, 得到t+1时刻异常向量的实际观测值 根据式(18)分别计算异常向量与ai(i1,2,.,t+1)之间的距离, 得到距离序列 8.如权利要求1所述的基于直觉模糊时间序列图挖掘的网络流量异常检测方法, 其特 征在于, 所述的步骤三包括如下: 记t时刻图Gt(Vt。
10、,Et)的异常向量为 其中,和分别表示图Gt的2顶点子图、 3顶点子图、 4顶点子图和5顶点子 图中频繁子图所占的比例, 由历史数据可以得到t+1时刻之前t个时刻的异常向量a1,a2, ,at , 其中 t+1时刻异常向量的预测值由各属性信息熵值IFTS进行预测及 相应计算得到, 而异常向量的实际观测值由实际流量数据进行计算 得到, 则预测向量和实际观测向量at+1之间的标准化欧氏距离为 的大小反映了预测向量与观测向量at+1之间的差异。 权利要求书 3/3 页 4 CN 111460026 A 4 基于直觉模糊时间序列图挖掘的网络流量异常检测方法 技术领域 0001 本发明属于数据挖掘技术领。
11、域, 具体涉及一种网络流量异常检测方法。 背景技术 0002 网络流量异常是指网络中流量的行为偏离其正常行为的情形。 为了保证网络的安 全和稳定, 维持其高效运行, 网络管理者需要采取适当的技术对网络中可能出现的异常进 行描述和分析, 并作出预警, 这就是网络流量异常检测。 随着互联网技术的迅猛发展和广泛 应用, 各种网络攻击技术层出不穷, 新的网络安全问题不断涌现, 因此流量异常检测技术也 成为一个始终被关注和研究的热点, 各种信的技术和手段不断被应用到这个领域。 0003 目前常用的方法主要有应用异常子结构的网络流量异常检测、 基于异常子图的网 络流量异常检测以及结合信息熵理论建立单汇接点。
12、的时间序列图的方法。 前两种方法没有 考虑到图中顶点之间的关系, 第三种方法对图中顶点之间的关系考虑不够全面。 综上所述, 目前现有的方法大都是基于一维网络流量预测实施的, 预测结果不够准确, 与实际流量之 间存在较大偏差, 获得的网络理论检测报告精度不高。 发明内容 0004 为有效解决现有技术中存在的上述问题, 本发明提出一种基于直觉模糊时间序列 图挖掘的网络流量异常检测方法, 该方法对图中顶点之间的关系予以充分的考虑, 将一维 流量预测拓展至五维预测, 建立更加精确的完全图, 得到更加准确的流量检测报告。 0005 本发明的技术方案如下: 基于直觉模糊时间序列图挖掘的网络流量异常检测方 。
13、法, 包括如下步骤: 0006 步骤一: IFTS图构建; 0007 步骤二: IFTS图挖掘; 0008 步骤三: 确定异常判定准则。 0009 所述的步骤一包括如下步骤: 0010 (1)计算历史数据信息熵值; 0011 (2)利用IFTS预测模型进行预测; 0012 (3)建立IFTS图。 0013 所述的步骤一中的步骤(1)包括, 0014 根据公式(1)进行信息熵H(X)的计算 0015 0016 其中, p(xi)为随机事件xi发生的概率; 0017 计算得到历史流量数据的源IP、 目的IP、 源端口、 目的端口和数据包长度5个属性 的信息熵值, 分别为 0018 H1(SIP),。
14、H2(SIP),.,Ht(SIP) (2) 说明书 1/13 页 5 CN 111460026 A 5 0019 H1(DIP),H2(DIP),.,Ht(DIP) (3) 0020 H1(SPT),H2(SPT),.,Ht(SPT) (4) 0021 H1(DPT),H2(DPT),.,Ht(DPT) (5) 0022 H1(LEN),H2(LEN),.,Ht(LEN) (6) 0023 其中, Hi(SIP)、 Hi(DIP)、 Hi(SPT)、 Hi(DPT)和Hi(LEN)分别表示第i时刻源IP的信息 熵、 目的IP的信息熵、 源端口的信息熵、 目的端口的信息熵和数据包长度的信息熵, 。
15、时刻i 1,2,t。 0024 所述的步骤一中的步骤(2)包括, 0025 对步骤(1)中的5个属性的信息熵值建立各自的启发式变阶IFTS预测模型, 采用阶 数随序列实时变化的高阶预测规则对t+1时刻5个属性的信息熵值进行预测, 分别得到t+1 时刻的源IP预测值目的IP预测值源端口预测值目的端口 预测值和数据包长度预测值 0026 所述的步骤一中的步骤(3)包括, 0027 建立历史数据各时刻上的五顶点完全图Gi(Vi,Ei), Vi为顶点的集合, Ei为边的集 合, i1,2,t, 得到整个时间序列上的IFTS图, 然后根据预测数据建立t+1时刻的预测图 0028 所述的五顶点完全图的建立。
16、方法如下: 0029 记t时刻得到的5顶点完全图为Gt(Vt,Et), 其中顶点vpVt(p1,2,3,4,5)和边em Et(m1,2,.,10)的表示方法分别为: 0030 顶点的计算方法如下: 0031 利用t-1时刻到t时刻之间从网络中获取的流量数据进行计算, 得到t时刻的源IP 地址、 目的IP地址、 源端口、 目的端口和数据包长度5个属性的信息熵的值, 分别记为源IP地 址信息熵Ht(SIP)、 目的IP地址信息熵Ht(DIP)、 源端口信息熵Ht(SPT)、 目的端口信息熵Ht (DPT)和数据包长度信息熵Ht(LEN), 作为5个顶点v1、 v2、 v3、 v4和v5的值 00。
17、32 计算上述5个属性的概率: 0033 0034 0035 0036 0037 0038 边的计算如下: 0039 记em(vp,vq)为连接顶点vp和vq的边, sm为边em的权值, 表示顶点vp和vq所代表的 说明书 2/13 页 6 CN 111460026 A 6 熵值的变化相似度, 即 0040 0041 其中 0042 0043 0044 p表示t时刻顶点vp所代表的熵值Ht(p)和Ht(q)较t-1时刻的变化率, q表示t时 刻顶点vq所代表的熵值Ht(p)和Ht(q)较t-1时刻的变化率, 并且约定Ht(p) 为t时刻顶点vp所代表的熵值, Ht-1(p)为t-1时刻顶点vp。
18、所代表的熵值; Ht(q)为t时刻顶点vq 所代表的熵值, Ht-1(q)为t-1时刻顶点vq所代表的熵值。 0045 所述的步骤二包括如下: 0046 (1)挖掘频繁子图 0047分别计算图Gi(i1,2,.,t)和的所有子图的支持度sup(g), 确定支持度阈 值sup, 进行频繁子图挖掘, 得到图Gi和的4类频繁子图的个数; 0048 (2)建立异常向量 0049分别计算图Gi(i1,2,.,t)和的4类子图中频繁子图所占的比例, 得到异常 向 量( i 1 , 2 , . . . , t ) 和 t + 1 时 刻 异 常 向 量 的 预 测 值 0050 (3)建立距离序列 0051。
19、 根据t+1时刻流量的实际观测值进行计算, 建立5顶点完全图Gt+1(Vt+1,Et+1), 并进 行频繁子图挖掘, 得到t+1时刻异常向量的实际观测值 0052根据式(18)分别计算异常向量与ai(i1,2,.,t+1)之间的距离, 得到距离 序列 0053 0054 所述的步骤三包括如下: 0055 记t时刻图Gt(Vt,Et)的异常向量为 0056 0057其中,和分别表示图Gt的2顶点子图、 3顶点子图、 4顶点子图和5顶 点子图中频繁子图所占的比例, 0058 由历史数据可以得到t+1时刻之前t个时刻的异常向量a1,a2, ,at, 其中 说明书 3/13 页 7 CN 111460。
20、026 A 7 0059t+1时刻异常向量的预测值由各属性信息熵值IFTS进行预 测及相应计算得到, 而异常向量的实际观测值由实际流量数据进行 计算得到, 则预测向量和实际观测向量at+1之间的标准化欧氏距离为 0060 0061的大小反映了预测向量与观测向量at+1之间的差异。 0062 本发明的有益效果在于: 通过构建直觉模糊时间序列图, 实现了对图中顶点关系 信息的全面挖掘和充分利用, 可以对网络流量异常进行更加精确的检测。 首先, 结合信息熵 和IFTS预测技术, 将原本一维的网络流量预测转化为更加精确的五维预测; 此外, 启发式变 阶IFTS预测不仅在不完备数据集上具有高效的预测性能。
21、, 还可以使预测结果更加贴合实 际; 利用更加精确的预测结果建立的完全图可以更准确的反映流量属性的变化, 进而通过 频繁子图挖掘得到更准确的异常报告。 附图说明 0063 图1为t时刻5顶点完全图; 0064 图2为2顶点子图; 0065 图3为3顶点子图; 0066 图4为4顶点子图; 0067 图5为数据集1各属性信息熵值; 0068 图6为数据集1的ROC曲线; 0069 图7为数据集2的ROC曲线。 具体实施方式 0070 下面结合附图及具体实施例对本发明作进一步详细说明。 0071 本发明利用直觉模糊时间序列(Intuitionistic Fuzzy Time Series, IFT。
22、S)预测 来解决流量异常检测这一典型的模糊时间序列问题, 综合利用信息熵理论和图挖掘技术提 出一个基于IFTS图挖掘的网络流量异常检测方法。 该方法引入频繁子图挖掘技术对每个时 刻上的频繁子图进行挖掘, 建立异常向量表征该时刻网络流量的异常情况, 通过对异常向 量间的距离进行拟合分析得到其动态阈值, 从而进行网络异常的判定。 0072 本发明首先用信息熵量化网络流量数据的五维属性, 针对五维属性分别建立启发 式变阶IFTS预测模型, 进行时间维度上的纵向预测; 然后, 在横向上, 即每一个时刻上, 得到 一个由五维属性熵值构成的五顶点完全图, 采用图挖掘方法对这个五顶点完全图进行频繁 子图挖掘。
23、, 结合挖掘结果建立表征网络流量异常情况的异常向量; 最后, 通过对异常向量间 的距离进行拟合计分析, 进行网络流量异常判断。 0073 一种基于直觉模糊时间序列图挖掘的网络流量异常检测方法, 从网络流量数据中 提取源IP地址(Source IP Address,SIP)、 目的IP地址(Destination IP Address,DIP)、 源 说明书 4/13 页 8 CN 111460026 A 8 端口(Source Port,SPT)、 目的端口(Destination Port,DPT)和数据包长度(Packet Length,LEN), 通过上述5个属性的信息熵值分别建立5个启。
24、发式变阶IFTS预测模型, 在时间 维度上得到5个并行的熵值直觉模糊时间序列。 在任意时刻t, 以5个IFTS的值为顶点, 两个 顶点所代表的IFTS值的变化相似度为顶点之间的边, 得到一个空间维度上的5顶点完全图。 在时间维度上就得到了一个IFTS图。 在t+1时刻, 通过5个IFTS模型的预测值可以建立一个 预测完全图, 通过实际测量数据建立一个实际完全图, 结合历史时间序列图的特性对这两 个完全图进行挖掘分析, 利用异常向量表征图挖掘结果, 通过对异常向量间的距离分析, 判 断t+1时刻网络流量是否异常。 0074 其中, 输入: t+1时刻之前的t个时刻的历史流量数据x1,x2,.,x。
25、t; 0075 输出: t+1时刻的流量异常判断结果。 0076 具体的, 包括如下步骤: 0077 步骤一: IFTS图构建; 0078 在本发明的一个实施例中, 步骤一具体包括如下: 0079 (1)计算历史数据信息熵值 0080 根据如下所示的公式(1)进行信息熵H(X)的计算 0081 0082 其中, p(xi)为随机事件xi发生的概率, n为随机事件数量。 0083 计算得到历史流量数据的源IP(SIP)、 目的IP(DIP)、 源端口(SPT)、 目的端口(DPT) 和数据包长度(LEN)5个属性的信息熵值, 分别为 0084 H1(SIP),H2(SIP),.,Ht(SIP) 。
26、(2) 0085 H1(DIP),H2(DIP),.,Ht(DIP) (3) 0086 H1(SPT),H2(SPT),.,Ht(SPT) (4) 0087 H1(DPT),H2(DPT),.,Ht(DPT) (5) 0088 H1(LEN),H2(LEN),.,Ht(LEN) (6) 0089 公式(2)-(6)中, Hi(SIP)、 Hi(DIP)、 Hi(SPT)、 Hi(DPT)和Hi(LEN)分别表示第i时刻源 IP的信息熵、 目的IP的信息熵、 源端口的信息熵、 目的端口的信息熵和数据包长度的信息 熵, 时刻i1,2,t。 0090 (2)利用IFTS预测模型进行预测 0091 分。
27、别对步骤(1)中的5个属性的信息熵值建立各自的启发式变阶IFTS预测模型, 采 用阶数随序列实时变化的高阶预测规则对t+1时刻5个属性的信息熵值进行预测, 分别得到 t+1时刻的源IP预测值目的IP预测值源端口预测值目的 端口预测值和数据包长度预测值 0092 (3)建立IFTS图 0093 建立历史数据各时刻上的五顶点完全图Gi(Vi,Ei), Vi为顶点的集合, Ei为边的集 合, i1,2,t。 从而得到整个时间序列上的IFTS图, 然后根据预测数据建立t+1时刻的预 测图 0094 五顶点图的建立方法如下: 说明书 5/13 页 9 CN 111460026 A 9 0095 记t时刻。
28、得到的5顶点完全图为Gt(Vt,Et), 如图1所示。 其中顶点vpVt(p1,2,3, 4,5)和边emEt(m1,2,.,10)的表示方法分别为: 0096 顶点的计算方法如下: 0097 利用t-1时刻到t时刻之间从网络中获取的流量数据进行计算, 得到t时刻的源IP 地址、 目的IP地址、 源端口、 目的端口和数据包长度5个属性的信息熵的值, 分别记为源IP地 址信息熵Ht(SIP)、 目的IP地址信息熵Ht(DIP)、 源端口信息熵Ht(SPT)、 目的端口信息熵Ht (DPT)和数据包长度信息熵Ht(LEN), 作为5个顶点v1、 v2、 v3、 v4和v5的值。 0098 计算上述。
29、5个属性的概率: 0099 0100 0101 0102 0103 0104 其中, pSIP(x)为源IP地址的概率, pDIP(x)为目的IP地址的概率、 pSPT(x)为源端口的 概率、 pDPT(x)为目的端口的概率, pL(x)为数据包长度的概率。 0105 边的计算如下: 0106 记em(vp,vq)为连接顶点vp和vq的边, sm为边em的权值, 表示顶点vp和vq所代表的 熵值的变化相似度, 即 0107 0108 其中 0109 0110 0111 p表示t时刻顶点vp所代表的熵值Ht(p)和Ht(q)较t-1时刻的变化率, q表示t时 刻顶点vq所代表的熵值Ht(p)和H。
30、t(q)较t-1时刻的变化率, 并且约定Ht(p) 为t时刻顶点vp所代表的熵值, Ht-1(p)为t-1时刻顶点vp所代表的熵值; Ht(q)为t时刻顶点vq 所代表的熵值, Ht-1(q)为t-1时刻顶点vq所代表的熵值。 0112 边的权值反映了该边所连接的两个顶点的信息熵值变化的相似程度, 权值越大表 示两个信息熵值的变化越相似。 需要说明的是, 当异常发生时, 两端点的信息熵值有可能同 说明书 6/13 页 10 CN 111460026 A 10 时增大, 或者同时减小, 也有可能一个增大一个减小, 根据所发生异常的种类不同而不同。 但是在异常的检测阶段, 我们只关注是否出现异常,。
31、 而对于异常的种类不加判断, 因此我们 只考虑熵值变化幅度的相似度, 即在式(13)和(14)中使用了Ht(p)和Ht(q)差值的绝对值。 0113 步骤二: IFTS图挖掘 0114 在本发明的一个实施例中, 步骤二具体包括如下: 0115 (1)挖掘频繁子图 0116分别计算图Gi(i1,2,.,t)和的所有子图的支持度sup(g), 确定支持度阈 值sup, 进行频繁子图挖掘, 得到图Gi和的4类频繁子图的个数。 具体方法如下: 0117 按所含顶点的个数, 可以将图Gt(Vt,Et)的子图分为4类: 2顶点子图、 3顶点子图、 4 顶点子图和5顶点子图。 在本发明的异常检测算法中, 子。
32、图的意义在于体现子图所包含的所 有顶点之间熵值变化的相似度, 因此只有完全图的子图对于我们的研究是有意义的。 那么 在图Gt(Vt,Et)的4类子图中, 完全图的个数分别为: 2顶点子图10个, 如图2所示; 3顶点子图 10个, 如图2所示; 4顶点子图5个, 如图2所示; 5顶点子图1个, 即图1所示的图Gt(Vt,Et)自身。 为表述方便, 在后续内容中所出现的图和子图, 若无特殊说明均指完全图。 0118 在本发明提出的异常检测算法中, 对子图支持度的计算进行了重新定义。 对于子 图gj(Vj,Ej)(j1,2,.,26), 其顶点和边分别为Vj和Ej, 定义其支持度sup(gj)为:。
33、 0119 0120 其中 0121 0122 表示子图gj中各顶点信息熵值的变化率的均值, 反映了各信息熵值变化的幅度。 0123 0124 表示子图gj中各边权值的均值, 反映了各信息熵值变化的相似度。 0125 给定支持度阈值sup, 频繁子图挖掘的目标就是找出所有使得sup(gj)sup的子 图gj, 称之为频繁子图。 0126 (2)建立异常向量 0127分别计算图Gi(i1,2,.,t)和的4类子图中频繁子图所占的比例, 即频繁子 图的个数除以总子图的个数, 得到异常向量(i1,2,.,t)和t+1时刻异 常向量的预测值 0128 (3)建立距离序列 0129 首先, 根据t+1时。
34、刻流量的实际观测值进行计算, 建立5顶点完全图Gt+1(Vt+1,Et+1), 并进行频繁子图挖掘, 得到t+1时刻异常向量的实际观测值 0130然后, 根据式(18)分别计算异常向量与ai(i1,2,.,t+1)之间的距离, 得到 说明书 7/13 页 11 CN 111460026 A 11 距离序列 0131 0132 步骤三: 确定异常判定准则 0133 对流量数据的离线分析表明, 正常情况下网络流量五个属性的信息熵值是相对平 稳的, 通过挖掘只能获得非常少的频繁子图, 并且在这些有限的频繁子图中以2顶点子图居 多, 3顶点子图次之, 4顶点和5顶点子图几乎没有。 但是当网络流量出现异。
35、常时, 频繁子图数 目明显增多, 其中以3顶点、 4顶点和5顶点子图数目的变化最为明显。 这是因为异常发生时, 往往会导致多个属性的熵值同时出现明显的增加或减少, 而上述的公式(15)定义的子图支 持度即反映了各顶点熵值同时发生大幅度变化的相似度。 0134 鉴于此, 针对这4类子图建立一个4维的异常向量, 用于表示各类子图中频繁子图 的比例, 这样就可以通过异常向量的变化来判断流量是否出现异常。 0135 具体步骤如下: 0136 记t时刻图Gt(Vt,Et)的异常向量为 0137 0138其中,和分别表示图Gt的2顶点子图、 3顶点子图、 4顶点子图和5顶 点子图中频繁子图所占的比例, 即。
36、各类频繁子图的个数除以各类子图总数。 0139 由历史数据可以得到t+1时刻之前t个时刻的异常向量a1,a2, ,at, 其中 因为在检测的过程中会 将异常时刻的数据从历史数据中剔除, 所以随着时间的推进, 保留下来的历史数据均为正 常数据, 它们的异常向量也都是处于正常范围之内的。 0140t+1时刻异常向量的预测值由各属性信息熵值IFTS进行预 测及相应计算得到, 而异常向量的实际观测值由实际流量数据进行 计算得到, 则预测向量和实际观测向量at+1之间的标准化欧氏距离为 0141 0142的大小反映了预测向量与观测向量at+1之间的差异。越 大, 表明两者间的差异越大, 则t+1时刻网络。
37、流量出现异常的可能性就越大; 反之, 则出现异 常的可能性就越小。 0143考虑到预测向量与历史数据的异常向量ai(i1 ,2 ,.,t)之间的距离 也是一个时间序列, 并且该时间序列的数据形式简单、 趋势平稳, 那么就可以采用 简单快捷的AR模型来拟合该序列, 描述距离的动态特征, 从而得到距离 的取值范围, 实现异常的自适应判定。 0144 AR模型是p阶自回归模型, 记为AR(p), 其中p是模型的阶数。 其基本思想是: 对于平 稳、 零均值的时间序列, 当前观测值与其前面p个观测值有关, 由前p个观测值通过线性计算 说明书 8/13 页 12 CN 111460026 A 12 得到。。
38、 在实际应用中AR模型的阶数通常不超过2, 并且AR(2)模型也是最常用的模型。 此外, 阶数越大, AR模型的参数估计的计算量也越大。 因此, 综合考虑, 本发明选取AR(2)模型来计 算网络流量异常检测的判定阈值, 具体步骤如下: 0145 (1)距离序列零均值化。 AR模型只适用于零均值序列, 因此需对历史数据的t个距 离值进行零均值化。 记距离序列的均值为则 0146 0147 0148 x1,x2,.,xt就是零均值距离序列。 0149 (2)拟合模型。 AR(2)模型是: 0150 0151其中, i3,4,.,t; 和为AR(2)的系数ei为白噪声, 是均值为零、 方差为的 独立。
39、同分布高斯随机变量。 0152由x1,x2,.,xt估计和的具体计算过程如下: 0153 记 0154 0155 0156 0157 则 0158 0159 0160和的估计式为 说明书 9/13 页 13 CN 111460026 A 13 0161 0162白噪声ei的方差的估计式为 0163 0164 (3)确定阈值。 AR(2)模型可表示为 0165 0166 那么, 由零均值化的距离序列x1,x2,.,xt就可以得到一个残差序列e1, e2,.,et。 0167令表示历史数据t个残差ei的平方和的均值。 0168令表示t+1时刻距离值的残差与 的比值, 作为检测xt+1是否异常的统计。
40、 量, 其中 0169 接下来, 确定统计量 t+1的取值范围。 由残差序列e1,e2,.,et计算得到一个相 应的比值序列 1, 2,., t, 令和分别表示 1, 2,., t中 的正值和负值组成的序列, 个数分别为t+和t-, 标准差为 +和 -, 即 0170 0171 0172 0173 0174那么统计量 t+1的取值范围为就是说当 t+1的值落在这个范 围内时, 表示xt+1正常。 而根据前面的分析可知, 判断距离值正常与否只需一个最 大值, 因为越小表示网络出现异常的可能性越小, 因此阈值判定 准则如下: 0175若 t+1 , 则表示正常, 即t+1时刻网络流量是正常的; 0。
41、176若 t+1 , 则表示正常, 即t+1时刻网络流量出现异常。 0177 若t+1时刻的网络流量未见异常, 则引入t+1时刻的流量数据更新历史数据集, 继 续对t+2时刻的流量进行检测; 若t+1时刻的网络流量出现异常, 则不更新历史数据集, 依然 说明书 10/13 页 14 CN 111460026 A 14 使用x1,x2,.,xt作为历史数据继续对t+2时刻的流量进行检测。 0178 此外, 由于使用了AR模型拟合距离序列, 为了确保拟合的准确性, AR模型的阶数p 与距离序列的长度t必须满足以下条件: 0179 0p0.1t (36) 0180 由于在本发明中p2, 因此t20,。
42、 即历史距离序列中最少应包含20个距离数据, 则本发明的输入数据即历史数据至少应包含t+1时刻之前的21个时刻的流量数据。 0181 下面通过实验对本发明的效果进行验证。 0182 实验主要用到三个数据集, 分别为: 现有已公开的MAWI实验室发布的2007年8月4 日太平洋骨干链路流量数据, CAIDA组织发布的DDoS 2007数据集和Witty Worm数据集。 其 中, MAWI实验室的流量数据是在Sample point-F采集点(一条带宽为150Mbps的穿越太平洋 的骨干链路)上采集的14:00:0014:15:01共15分钟的流量。 0183 DDoS 2007数据集是CAID。
43、A组织采集到的一次大规模ICMP类型的DDoS攻击, 时间为 2007年8月4日20:50:0821:56:16, 由几台固定主机向网络中的一台特定服务器发起攻 击, 以瘫痪其与网络的连接。 数据集中只保留了攻击和攻击回应数据, 已经尽量将正常数据 剔除。 Witty Worm数据集是在2004年3月19日20:01:403月24日23:01:40期间通过UCSD Network Telescope采集到的Witty Worm大规模爆发后的网络流量数据。 同样, 数据集中也 只保留了攻击发生时的异常数据。 0184 从MAWI数据集中随机抽样10作为实验的背景流量, 通过离线分析发现抽样流量 。
44、较为平稳, 满足作为背景流量的条件。 由于背景流量持续时间只有15分钟, 因此我们分别将 DDoS 2007数据集和Witty Worm数据集中前5分钟的异常流量注入背景流量中, 作为实验 “数据集1” 和 “数据集2” 。 0185 分别在数据集1和数据集2上应用发明的方法进行检测。 以数据集1为例, 将采样间 隔设置为20s, 则数据集1共包含45个采样时刻, 异常流量从第480s即第25个时刻开始注入, 持续300s后在第39个时刻结束。 通过计算可以得到流量数据五个属性的信息熵值, 如图3所 示。 0186 根据公式(36)将历史数据集个数设定为21, 则算法将从第22个时刻开始预测。。
45、 令 支持度阈值sup分别取0.3、 0.35、 0.375和0.4, 得到各时刻的异常向量的实际观测值和预 测值, 如表1所示。 0187 表1中异常发生的时段为2539时刻, 下划线标注的异常向量为用本发明算法检 测出的异常点。 随着阈值的增大, 算法出现误检的次数减少, 但是异常点的正确检测次数也 随之减少; 如果为了追求准确的异常点检测数, 而采用较小的阈值, 那么误检次数又会随之 增大, 因此这是一个矛盾, 在实际使用中必须根据情况在这两者间做出适当的权衡。 0188 由表1的结果可以得到本发明的算法在数据集1上的检测率(Detection Rate,DR) 和虚警率(False A。
46、larm Rate,FAR), 如表2所示。 0189 表1数据集1的异常向量观测值和预测值a 0190 说明书 11/13 页 15 CN 111460026 A 15 0191 0192 表2算法在数据集1上检测性能 0193 0194 其中, DR和FAR的计算如式(37)和式(38): 0195 0196 0197 同样得到算法在数据集2上的检测率DR和虚警率FAR的值, 如表3所示。 0198 表3算法在数据集2上的检测性能 说明书 12/13 页 16 CN 111460026 A 16 0199 0200 为了对本发明所提方法的检测精度进行对比验证, 接下来选择在流量异常检测领 。
47、域广泛使用的三个方法与本发明所提算法进行对比实验: 残差比检测方法、 基于熵的方法 和基于图挖掘的方法。 利用检测率随虚警率的变化曲线来评价各方法的检测性能, 即接收 器特性(Receiver Operating Characteristic,ROC)曲线。 四个方法分别在数据集1和数据 集2上的ROC曲线对比结果如图6和图7所示。 0201 在ROC曲线上, 纵坐标相同(即检测率相同)的点, 越靠近纵轴表示检测效果越好; 横坐标相同(即虚警率相同)的点, 越靠上表示检测效果越好。 其中, 残差比检测方法的调节 参数是异常判断的阈值, 基于熵的方法的调节参数是不同窗口间的相对熵的阈值, 基于图。
48、 挖掘方法的调节参数是异常系数的阈值。 0202 在图4中, 因DDoS攻击流量较大, 导致网络流量也有较大的变化, 但是在攻击刚开 始的几个时刻内网络中的攻击流量较少, 导致流量幅值变化并不明显, 因此残差比检测方 法的检测效果并不理想, 并且该攻击由多个主机发起也使得流量的特征分布在攻击前期不 够明显, 因此基于图挖掘的方法虽然累计多个维度上的结果, 但是由于对多个维度间联系 的描述不够全面导致检测效果也较差, 基于熵的方法由于增加了检测精度优化算法, 综合 了多个时刻的结果而使得检测精度较高。 0203 在图5中, 因为Witty Worm刚刚爆发时扫描流量较少, 同样导致残差比检测方法。
49、和 基于图挖掘的方法的检测效果较差, 并且当异常在多个时刻上的反映都不明显时, 基于熵 的方法的检测精度优化算法也没有起到很好的作用。 0204 本发明所提算法不仅充分利用了多时刻历史数据中的信息, 而且同时考虑了多属 性熵值间的变化幅值和变化相似度, 使得算法能够发现网络中多属性间的规律性变化, 即 使变化幅值较小也能有效的检测。 说明书 13/13 页 17 CN 111460026 A 17 图1 图2 图3 图4 说明书附图 1/3 页 18 CN 111460026 A 18 图5 说明书附图 2/3 页 19 CN 111460026 A 19 图6 图7 说明书附图 3/3 页 20 CN 111460026 A 20 。
- 内容关键字: 基于 直觉 模糊 时间 序列 挖掘 网络流量 异常 检测 方法
新型推拉式化妆容器.pdf
车辆后桥制动油管安装结构.pdf
电动玩具车零件喷漆用工件架.pdf
玩具车.pdf
筒体内外圆机加工支撑装置.pdf
多功能加热破壁料理机.pdf
芳烃吸附分离装置程控球阀.pdf
内衣生产用布料收卷机构.pdf
离心机的转篮机构.pdf
铜及铜合金半连续铸造装置.pdf
积木琴玩具.pdf
健身器材用弹簧减震结构.pdf
包装瓶烫金用定位工装.pdf
积木块.pdf
双孔快速均匀进料滤板组合结构.pdf
快速高效过滤器滤芯.pdf
集成防电墙式恒温阀及应用该恒温阀的热水器.pdf
合金钢异型材成型一体机.pdf
液体药物浓度调节器.pdf
游客分类方法、装置及电子设备.pdf
再生铅环集烟气除尘脱硫设备.pdf
隧道施工支护结构及施工方法.pdf
基于大数据分析的电力系统风险预测方法及系统.pdf
安检图像查验方法和装置.pdf
基于机器学习的半导体电阻值预测方法及系统.pdf
由石墨烯材料制成的散热膜及其应用的手机后盖.pdf
电催化氧化医院废水处理装置.pdf
单相复合钙钛矿陶瓷粉体、微波介质陶瓷材料及其制备方法.pdf
半导体用超纯电子级化学试剂纯化装置.pdf
阵列基板制备方法、阵列基板、显示面板及显示装置.pdf
织机了机时间预测方法.pdf
受限空间内燃气燃爆超、动压测试装置及方法.pdf
一种升降式旋转室外消火栓.pdf
框架结构T型连接柱.pdf
防静电地板吸板器.pdf
一种建筑用箱体或井口预留孔洞活动模具.pdf
速成拉建房屋.pdf
预制桥面板精轧螺纹钢筋弧形连接构造.pdf
一种内固定式伸缩门滑行导轨及伸缩门.pdf
多用途封井器.pdf
一种新型圆弧建筑模板紧固件.pdf
一种超实木防水组合踢脚线.pdf
电气柜前门板门锁装置.pdf
双人正杆器.pdf
一种纳米铝塑复合板.pdf
强磁打捞器.pdf
一种基于无刷直流电机的环卫车电动扫盘系统.pdf
一种可调节型门铰链.pdf
一种用于基桩竖向抗压静载试验的船筏式试验装置.pdf
免贴墙砖.pdf
一种聚氨酯仿石材防火保温装饰复合板.pdf