《用于安全性信息交互的异常检测装置及方法.pdf》由会员分享,可在线阅读,更多相关《用于安全性信息交互的异常检测装置及方法.pdf(15页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103544429 A (43)申请公布日 2014.01.29 CN 103544429 A (21)申请号 201210241200.7 (22)申请日 2012.07.12 G06F 21/50(2013.01) (71)申请人 中国银联股份有限公司 地址 200135 上海市浦东新区含笑路 36 号 银联大厦 (72)发明人 柴洪峰 吴承荣 何朔 叶家炜 王兴建 廖健 (74)专利代理机构 中国专利代理(香港)有限公 司 72001 代理人 方世栋 刘春元 (54) 发明名称 用于安全性信息交互的异常检测装置及方法 (57) 摘要 本发明提出了用于安全性信息交。
2、互的异常检 测装置及方法。其中, 所述方法包括下列步骤 : 基 于数据库中的安全性信息交互记录完成预处理操 以构建分类器模型和条件概率表以及用于序列比 对的组表 ; 解析安全性信息交互数据, 并基于所 述分类器模型和条件概率表以及用于序列比对的 组表判断与所述安全性信息交互数据相关联的安 全性信息交互的类型。本发明所公开的用于安全 性信息交互的异常检测装置及方法具有高的安全 性并且具有低的误报率和漏报率。 (51)Int.Cl. 权利要求书 2 页 说明书 10 页 附图 2 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书10页 附图2页 (10)申请公。
3、布号 CN 103544429 A CN 103544429 A 1/2 页 2 1. 一种用于安全性信息交互的异常检测装置, 所述用于安全性信息交互的异常检测装 置包括 : 预处理模块, 所述预处理模块用于基于数据库中的安全性信息交互记录完成预处理操 以构建分类器模型和条件概率表以及用于序列比对的组表 ; 异常检测模块, 所述异常检测模块用于接收并解析来自数据处理服务器的安全性信息 交互数据, 并基于所述分类器模型和条件概率表以及用于序列比对的组表判断与所述安全 性信息交互数据相关联的安全性信息交互的类型, 并将判断结果传送回所述数据处理服务 器。 2. 根据权利要求 1 所述的用于安全性信。
4、息交互的异常检测装置, 其特征在于, 所述预 处理模块进一步包括 : 特征提取单元, 所述特征提取单元用于从所述数据库提取正常的安全性信息交互记录 和已知的异常的安全性信息交互记录 ; 分类器模型构造单元, 所述分类器模型构造单元用于基于所述提取的正常的安全性信 息交互记录和所述已知的异常的安全性信息交互记录确定至少一个信息交互特征向量, 并 基于所述至少一个信息交互特征向量构建所述分类器模型 ; 条件概率表计算单元, 所述条件概率表计算单元用于为每个用户计算条件概率表 ; 操作序列提取单元, 所述操作序列提取单元用于从所述数据库提取每个用户的正常操 作序列和已知的用户的异常操作序列, 并按照。
5、时间将正常操作序列划分成子序列以及按照 类型将异常操作序列划分成子序列 ; 组表构造单元, 所述组表构造单元用于为每个用户的正常操作序列构造第一 k 元组 表, 并且为每个用户的已知的异常操作序列构造第二 k 元组表 ; 存储单元, 所述存储单元用于存储所述分类器模型、 所述计算条件概率表、 所述每个用 户的正常操作序列和已知的用户的异常操作序列以及所述第一k元组表和所述第二k元组 表。 3. 根据权利要求 2 所述的用于安全性信息交互的异常检测装置, 其特征在于, 所述至 少一个信息交互特征包括安全性信息交互位置信息。 4. 根据权利要求 3 所述的用于安全性信息交互的异常检测装置, 其特征。
6、在于, 基于贝 叶斯定理构建所述分类器模型, 并且使用后验概率判断安全性信息交互的类型。 5. 根据权利要求 4 所述的用于安全性信息交互的异常检测装置, 其特征在于, 仅存在 “正常的” 和 “异常的” 两个分类, 并且将待检测的安全性信息交互属于 “正常的” 分类的后 验概率作为其第一可信因子 TS。 6. 根据权利要求 5 所述的用于安全性信息交互的异常检测装置, 其特征在于, 所述条 件概率表计算单元基于从所述数据库提取的安全性信息交互记录为每个用户计算条件概 率表的值。 7. 根据权利要求 6 所述的用于安全性信息交互的异常检测装置, 其特征在于, 所述组 表构造单元使用 SSAHA。
7、 算法为每个用户的正常操作序列构造第一 k 元组表, 并且为每个用 户的已知的异常操作序列构造第二 k 元组表。 8. 根据权利要求 7 所述的用于安全性信息交互的异常检测装置, 其特征在于, 所述分 类器模型构造单元进一步用于将所述至少一个信息交互特征的取值离散化。 权 利 要 求 书 CN 103544429 A 2 2/2 页 3 9. 根据权利要求 8 所述的用于安全性信息交互的异常检测装置, 其特征在于, 所述分 类器模型构造单元进一步用于基于 K-means 算法将所述至少一个信息交互特征中的一个 或多个的取值离散化。 10. 根据权利要求 9 所述的用于安全性信息交互的异常检测装。
8、置, 其特征在于, 所述异 常检测模块进一步包括 : 主控制器, 所述主控制器用于接收并解析来自所述数据处理服务器的安全性信息交互 数据以获得与所述安全性信息交互数据相关联的当前安全性信息交互的特征向量和发起 该当前安全性信息交互的用户的标识符, 并将所述用户标识符和所述当前安全性信息交互 的特征向量传送到分类单元, 所述主控制器还用于基于所述用户标识符从所述存储单元提 取发起该当前安全性信息交互的用户之前的 N-1 次操作以构成长度为 N 的操作序列, 并将 所述用户标识符和所述长度为 N 的操作序列传送到序列比对单元, 所述主控制器进一步用 于将接收到的来自综合判断单元的判断结果传送回所述。
9、数据处理服务器 ; 分类单元, 所述分类单元用于基于所述解析出的用户标识符、 当前安全性信息交互的 特征向量、 所述分类器模型以及所述条件概率表计算出该当前安全性信息交互的第一可信 因子 TS, 以及随后将所述第一可信因子 TS 传送到所述综合判断单元 ; 序列比对单元, 所述序列比对单元用于基于所述用户标识符从所述存储单元中查找相 应的第一k元组表并结合相应的第二k元组表计算该当前安全性信息交互的第二可信因子 OS, 以及随后将所述第二可信因子 OS 传送到所述综合判断单元 ; 综合判断单元, 所述综合判断单元用于基于接收到的所述第一可信因子 TS 和第二可 信因子 OS 判断当前安全性信息。
10、交互的类型, 并将判断结果传送到所述主控制器。 11. 根据权利要求 10 所述的用于安全性信息交互的异常检测装置, 其特征在于, 所述 分类单元根据所述用户标识符从所述存储单元中查找相应的条件概率表, 并基于所述当前 安全性信息交互的特征向量和所述分类器模型计算该当前安全性信息交互的第一可信因 子 TS。 12. 根据权利要求 11 所述的用于安全性信息交互的异常检测装置, 其特征在于, 所述 序列比对单元使用 BLAST 算法计算该当前安全性信息交互的第二可信因子 OS。 13. 根据权利要求 12 所述的用于安全性信息交互的异常检测装置, 其特征在于, 所述 综合判断单元通过将所述第一可。
11、信因子TS和所述第二可信因子OS分别与预定的阈值相比 较而判断当前安全性信息交互的类型。 14. 一种用于安全性信息交互的异常检测方法, 所述用于安全性信息交互的异常检测 方法包括下列步骤 : (A1) 基于数据库中的安全性信息交互记录完成预处理操以构建分类器模型和条件概 率表以及用于序列比对的组表 ; (A2) 解析安全性信息交互数据, 并基于所述分类器模型和条件概率表以及用于序列比 对的组表判断与所述安全性信息交互数据相关联的安全性信息交互的类型。 权 利 要 求 书 CN 103544429 A 3 1/10 页 4 用于安全性信息交互的异常检测装置及方法 技术领域 0001 本发明涉及。
12、异常检测装置及方法, 更具体地, 涉及用于安全性信息交互的异常检 测装置及方法。 背景技术 0002 目前, 随着网络应用的日益广泛以及不同领域的业务种类的日益丰富, 用于安全 性信息交互 ( 即对安全性要求较高的信息交互, 例如金融交易 ) 的异常检测装置及方法变 得越来越重要。 0003 通常, 异常的安全性信息交互包括如下两种类型 : (1) 不满足安全性信息交互系 统对安全性信息交互的流程和格式等的规定 ; (2) 满足安全性信息交互系统对正常的安全 性信息交互的流程和格式等的规定, 但是该安全性信息交互本身具有一定的欺诈特性 ( 例 如在金融交易领域中, 攻击者利用盗取的合法用户信息。
13、进行的交易, 或者合法用户进行的 恶意透支行为等等 )。一般而言, 安全性信息交互系统自身具有检测第一种异常的能力, 并 可以阻止该异常的安全性信息交互过程的执行, 而针对第二种异常, 由于其流程和提供的 认证信息通常都符合安全性信息交互系统的相关规定, 因而系统自身难于检测, 需要附加 的异常检测装置和方法。 0004 用于安全性信息交互的异常检测方法通常基于以下两个假设 : (1) 异常的安全性 信息交互与正常的安全性信息交互存在较大的差异 ; (2) 异常的安全性信息交互在所有安 全性信息交互中所占的比例很小。 现有的针对第二种异常的检测装置和方法主要采用如下 四种检测方式中的一个 : 。
14、(1)基于统计的方法, 首先用某个分布(如正态分布、 泊松分布等) 对数据点进行建模, 然后用不一致检验确定异常 ; (2) 基于偏差的方法, 通过对一组对象特 征进行检查来识别异常数据, 与给出的描述偏离的对象被定义为异常 ; (3) 基于距离的方 法, 其将孤立的 ( 没有足够多邻居的 ) 数据作为异常, 比如 Knorr 算法规定, 与点 p 的距离 小于 d 的点的个数不超过 k, 则 p 是相对于 d 和 k 的异常 ; (4) 基于密度的方法, 其引入了局 部异常因子(Local Outlier Factor, LOF)的概念, 用以度量一个对象关于其周围邻居的异 常程度, 从而能。
15、够检测出局部异常的数据。 0005 然而, 现有的针对第二种异常的检测装置和方法存在如下问题 : (1) 对第一种检 测方式而言, 其局限性在于现实中的数据分布往往不符合任何一种已知的理想分布, 另外, 大多数的测试都是针对单个属性的, 对于多维数据中的异常检测效果并不理想 ; (2) 对第 二种检测方式而言, 其主要使用序列异常技术, 即模仿人类的思维模式, 从一组连续序列中 发现与大多数数据不同的元素, 但其误报率和漏报率较高 ; (3) 对第三种检测方式而言, 其 只能检测出全局的异常数据, 不适合具有多种密度的数据集, 因此不能很好的检测局部异 常 ; (4) 对第四种检测方式而言, 。
16、其误报率和漏报率也较高。由上可见, 现有的针对第二种 异常的检测装置和方法由于特征选取不恰当或者检测范围不够全面而导致误报率和漏报 率较高, 从而影响了安全性信息交互系统的性能和安全性。 0006 因此, 存在如下需求 : 提供具有高的安全性并且具有低的误报率和漏报率的异常 说 明 书 CN 103544429 A 4 2/10 页 5 检测装置及方法。 发明内容 0007 为了解决上述现有技术方案所存在的问题, 本发明提出了具有高的安全性并且具 有低的误报率和漏报率的异常检测装置及方法。 0008 本发明的目的是通过以下技术方案实现的 : 0009 一种用于安全性信息交互的异常检测装置, 所。
17、述用于安全性信息交互的异常检测 装置包括 : 0010 预处理模块, 所述预处理模块用于基于数据库中的安全性信息交互记录完成预处 理操以构建分类器模型和条件概率表以及用于序列比对的组表 ; 0011 异常检测模块, 所述异常检测模块用于接收并解析来自数据处理服务器的安全性 信息交互数据, 并基于所述分类器模型和条件概率表以及用于序列比对的组表判断与所述 安全性信息交互数据相关联的安全性信息交互的类型, 并将判断结果传送回所述数据处理 服务器。 0012 在上面所公开的方案中, 优选地, 所述预处理模块进一步包括 : 0013 特征提取单元, 所述特征提取单元用于从所述数据库提取正常的安全性信息。
18、交互 记录和已知的异常的安全性信息交互记录 ; 0014 分类器模型构造单元, 所述分类器模型构造单元用于基于所述提取的正常的安全 性信息交互记录和所述已知的异常的安全性信息交互记录确定至少一个信息交互特征向 量, 并基于所述至少一个信息交互特征向量构建所述分类器模型 ; 0015 条件概率表计算单元, 所述条件概率表计算单元用于为每个用户计算条件概率 表 ; 0016 操作序列提取单元, 所述操作序列提取单元用于从所述数据库提取每个用户的正 常操作序列和已知的用户的异常操作序列, 并按照时间将正常操作序列划分成子序列以及 按照类型将异常操作序列划分成子序列 ; 0017 组表构造单元, 所述。
19、组表构造单元用于为每个用户的正常操作序列构造第一 k 元 组表, 并且为每个用户的已知的异常操作序列构造第二 k 元组表 ; 0018 存储单元, 所述存储单元用于存储所述分类器模型、 所述计算条件概率表、 所述每 个用户的正常操作序列和已知的用户的异常操作序列以及所述第一 k 元组表和所述第二 k 元组表。 0019 在上面所公开的方案中, 优选地, 所述至少一个信息交互特征包括安全性信息交 互位置信息。 0020 在上面所公开的方案中, 优选地, 基于贝叶斯定理构建所述分类器模型, 并且使用 后验概率判断安全性信息交互的类型。 0021 在上面所公开的方案中, 优选地, 仅存在 “正常的”。
20、 和 “异常的” 两个分类, 并且将 待检测的安全性信息交互属于 “正常的” 分类的后验概率作为其第一可信因子 TS。 0022 在上面所公开的方案中, 优选地, 所述条件概率表计算单元基于从所述数据库提 取的安全性信息交互记录为每个用户计算条件概率表的值。 0023 在上面所公开的方案中, 优选地, 所述组表构造单元使用 SSAHA 算法为每个用户 说 明 书 CN 103544429 A 5 3/10 页 6 的正常操作序列构造第一 k 元组表, 并且为每个用户的已知的异常操作序列构造第二 k 元 组表。 0024 在上面所公开的方案中, 优选地, 所述分类器模型构造单元进一步用于将所述至。
21、 少一个信息交互特征的取值离散化。 0025 在上面所公开的方案中, 优选地, 所述分类器模型构造单元进一步用于基于 K-means 算法将所述至少一个信息交互特征中的一个或多个的取值离散化。 0026 在上面所公开的方案中, 优选地, 所述异常检测模块进一步包括 : 0027 主控制器, 所述主控制器用于接收并解析来自所述数据处理服务器的安全性信息 交互数据以获得与所述安全性信息交互数据相关联的当前安全性信息交互的特征向量和 发起该当前安全性信息交互的用户的标识符, 并将所述用户标识符和所述当前安全性信息 交互的特征向量传送到分类单元, 所述主控制器还用于基于所述用户标识符从所述存储单 元提。
22、取发起该当前安全性信息交互的用户之前的 N-1 次操作以构成长度为 N 的操作序列, 并将所述用户标识符和所述长度为 N 的操作序列传送到序列比对单元, 所述主控制器进一 步用于将接收到的来自综合判断单元的判断结果传送回所述数据处理服务器 ; 0028 分类单元, 所述分类单元用于基于所述解析出的用户标识符、 当前安全性信息交 互的特征向量、 所述分类器模型以及所述条件概率表计算出该当前安全性信息交互的第一 可信因子 TS, 以及随后将所述第一可信因子 TS 传送到所述综合判断单元 ; 0029 序列比对单元, 所述序列比对单元用于基于所述用户标识符从所述存储单元中查 找相应的第一k元组表并结。
23、合相应的第二k元组表计算该当前安全性信息交互的第二可信 因子 OS, 以及随后将所述第二可信因子 OS 传送到所述综合判断单元 ; 0030 综合判断单元, 所述综合判断单元用于基于接收到的所述第一可信因子 TS 和第 二可信因子 OS 判断当前安全性信息交互的类型, 并将判断结果传送到所述主控制器。 0031 在上面所公开的方案中, 优选地, 所述分类单元根据所述用户标识符从所述存储 单元中查找相应的条件概率表, 并基于所述当前安全性信息交互的特征向量和所述分类器 模型计算该当前安全性信息交互的第一可信因子 TS。 0032 在上面所公开的方案中, 优选地, 所述序列比对单元使用 BLAST。
24、 算法计算该当前 安全性信息交互的第二可信因子 OS。 0033 在上面所公开的方案中, 优选地, 所述综合判断单元通过将所述第一可信因子 TS 和所述第二可信因子 OS 分别与预定的阈值相比较而判断当前安全性信息交互的类型。 0034 本发明的目的也可以通过以下技术方案实现 : 0035 一种用于安全性信息交互的异常检测方法, 所述用于安全性信息交互的异常检测 方法包括下列步骤 : 0036 (A1) 基于数据库中的安全性信息交互记录完成预处理操以构建分类器模型和条 件概率表以及用于序列比对的组表 ; 0037 (A2) 解析安全性信息交互数据, 并基于所述分类器模型和条件概率表以及用于序 。
25、列比对的组表判断与所述安全性信息交互数据相关联的安全性信息交互的类型。 0038 本发明所公开的用于安全性信息交互的异常检测装置及方法具有如下优点 : 具有 高的安全性并且具有低的误报率和漏报率。 说 明 书 CN 103544429 A 6 4/10 页 7 附图说明 0039 结合附图, 本发明的技术特征以及优点将会被本领域技术人员更好地理解, 其 中 : 0040 图 1 是根据本发明的实施例的用于安全性信息交互的异常检测装置的示意性结 构图 ; 0041 图 2 是根据本发明的实施例的用于安全性信息交互的异常检测方法的流程图。 具体实施方式 0042 图 1 是根据本发明的实施例的用于。
26、安全性信息交互的异常检测装置的示意性结 构图。如图 1 所示, 本发明所公开的异常检测装置包括预处理模块 1 和异常检测模块 2。其 中, 所述预处理模块 1 用于基于数据库中的安全性信息交互记录完成预处理操以构建分类 器模型和条件概率表以及用于序列比对的组表。所述异常检测模块 2 用于接收并解析来自 数据处理服务器 ( 例如交易处理服务器 ) 的安全性信息交互数据, 并基于所述分类器模型 和条件概率表以及用于序列比对的组表判断与所述安全性信息交互数据相关联的安全性 信息交互 ( 例如金融交易 ) 的类型 ( 即是 “正常的” 还是 “异常的” ), 并将判断结果传送回 所述数据处理服务器。 。
27、0043 优选地, 在本发明所公开的异常检测装置中, 所述预处理模块 1 进一步包括特征 提取单元 3、 分类器模型构造单元 4、 条件概率表计算单元 5、 操作序列提取单元 6 和组表构 造单元 7 和存储单元 12。其中, 所述特征提取单元 3 用于从所述数据库提取正常的安全性 信息交互记录 ( 例如正常的交易记录 ) 和已知的异常的安全性信息交互记录 ( 例如已知 的异常的交易记录 )。所述分类器模型构造单元 4 用于基于所述提取的正常的安全性信息 交互记录和所述已知的异常的安全性信息交互记录确定至少一个信息交互特征向量 ( 示 例性地, 在金融领域中, 所述信息交互特征可以包括交易时间。
28、、 交易位置、 交易金额、 商户类 型以及交易所属的分类等 ), 并基于所述至少一个信息交互特征向量构建所述分类器模型。 所述条件概率表计算单元 5 用于为每个用户计算条件概率表 (CPT)。所述操作序列提取单 元 6 用于从所述数据库提取每个用户的正常操作序列和已知的用户的异常操作序列, 并按 照时间将正常操作序列划分成子序列以及按照类型将异常操作序列划分成子序列。 所述组 表构造单元 7 用于为每个用户的正常操作序列构造第一 k 元组表, 并且为每个用户的已知 的异常操作序列构造第二 k 元组表 ( 由于异常检测由一次安全性信息交互触发, 故 k 的取 值应大于等于用户完成一次完整的安全性。
29、信息交互过程至少需要的步骤数 )。所述存储单 元 12 用于存储所述分类器模型、 所述计算条件概率表、 所述每个用户的正常操作序列和已 知的用户的异常操作序列以及所述第一 k 元组表和所述第二 k 元组表。 0044 优选地, 在本发明所公开的异常检测装置中, 所述至少一个信息交互特征包括安 全性信息交互位置信息。 0045 优选地, 在本发明所公开的异常检测装置中, 基于贝叶斯定理构建所述分类器模 型 ( 即该分类器模型是贝叶斯信念网络结构 ), 并且使用后验概率判断安全性信息交互的 类型 ( 即是 “正常的” 还是 “异常的” )。 0046 如本领域技术人员所知地, 后验概率是指在给定一。
30、定条件的情况下, 发生某个事 件的概率。在本公开中, 后验概率是指在给定当前样本的特征向量 ( 例如与待检测的安全 说 明 书 CN 103544429 A 7 5/10 页 8 性信息交互相关联的安全性信息交互数据, 示例性地, 其包含交易时间、 交易位置、 交易金 额、 商户类型以及交易所属的分类等 ) 时, 该样本属于某个分类的概率, 其可以由以下公式 表示 : 0047 P(C ci|F1 f1, F2 f2, ., Fn fn) (1) 0048 其中 F1 f1, F2 f2, ., Fn fn是当前样本特征向量的取值, 而 C ci表示该 样本属于分类 ci。此外, 由贝叶斯定理。
31、可知, 公式 (1) 可转化为 : 0049 0050 0051 0052 由此, 在本公开中, 所述分类器模型的工作原理为找出使得公式 (2) 中的后验概 率最大的 ci作为对当前样本的分类。另外, 由于 P(F1 f1, F2 f2, ., Fn fn) 是常量, 因此上述问题被转化为找出使得 P(F1 f1, F2 f2, ., Fn fn|C ci)P(C ci) 最大化 的 ci。其中可以用训练数据集中属于 ci的样本出现的频率来表示 P(C ci)。针对 P(F1 f1, F2 f2, ., Fn fn|C ci) 的计算, 在本公开中假设每个随机变量 f 仅依赖于其父节 点的集合。
32、 parent(f), 而其余随机变量则与 f 关于 parent(f) 条件独立, 则 : 0053 0054 0055 则公式 (2) 被转换为 : 0056 0057 0058 即上述问题被转化为找到使得最大 的 ci即可。 0059 优选地, 在本发明所公开的异常检测装置中, 所述分类器模型由公式 (4) 表示。 0060 优选地, 在本发明所公开的异常检测装置中, 仅存在 “正常的” 和 “异常的” 两个分 类, 并且将待检测的安全性信息交互 ( 例如金融交易 ) 属于 “正常的” 分类的后验概率作为 其第一可信因子 TS。 0061 如本领域技术人员所知地, 条件概率表 (CPT)。
33、 给出了相应随机变量关于其所有父 节点的条件概率, 即 P(Ft ft|parent(Ft) 的值, 对于没有父节点的变量, 其条件概率退化 为其先验概率, 并且当不存在隐藏变量的时候, 条件概率表的值可以通过统计训练数据中 相应样本出现的频率得到, 而当存在隐藏变量时, 条件概率表的值可以通过梯度训练等算 法得到。在本公开中, 假设训练数据中不存在缺失数据。 0062 优选地, 在本发明所公开的异常检测装置中, 所述条件概率表计算单元 5 基于 从所述数据库提取的安全性信息交互记录为每个用户计算条件概率表的值 ( 即 P(Ft ft|parent(Ft) 的值 )。 0063 优选地, 在本。
34、发明所公开的异常检测装置中, 组表构造单元7使用SSAHA算法为每 说 明 书 CN 103544429 A 8 6/10 页 9 个用户的正常操作序列构造第一 k 元组表, 并且为每个用户的已知的异常操作序列构造第 二 k 元组表。 0064 如本领域技术人员所知地, SSAHA 算法中的相关定义如下 : (1)k 元组 : 给定一个长 度为 n 的序列 S , S 中任意连续的 k 个元素构成 S 的一个 k 元组。则 S 中 k元组的个数为n-k+1, 每个元组被赋予一定的权重 ; (2)元组偏移(Tuple Offset) : 在序列 S 中, 某个 k 元组开始的位置称为元组偏移 ;。
35、 (3) 序列基数 (Sequence Base) : 序列 S 中每个 位置可能的取值个数称为 S 的序列基数 ; (4)K 元组权重 : 我们用从 0 到 Sequence Base-1 的整数来表示 S 中所有可能出现的元素, 若序列基数为 , 一个 k 元组 的 权重 W 记为 : 0065 0066 如本领域技术人员所知地, SSAHA 算法中的基本工作原理如下 : 假定数据库 D 中有 若干个序列, 则将每一个长度为 n 的序列划分成 n-k+1 个 k 元组, 并在内存中生成一张 k 元 组表 (k-tuple Table, KT), 其中, KT 中的每一条记录对应 D 中的一。
36、个 k 元组, 并由以下元素 组成 : 元组权重、 所在序列编号、 元组偏移, 并且其中元组权重用于在 KT 上建立聚类索引, 由公式 (6) 可知, 对于给定的 k 和 , 一共有 k种权重, 每种权重对应一种 k 元组, 而通过 所在序列编号和元组偏移就可以确定当前的 k 元组在 D 中的位置。基于上述原理, 所述组 表构造单元 7 使用 SSAHA 算法为每个用户的正常操作序列构造第一 k 元组表, 并且为每个 用户的已知的异常操作序列构造第二 k 元组表。 0067 优选地, 在本发明所公开的异常检测装置中, 所述分类器模型构造单元 4 进一步 用于将所述至少一个信息交互特征的取值离散。
37、化 ( 示例性地, 在金融领域中, 对于交易时 间, 如果将一年划分为四个季度, 将一个月划分为四个星期以及为某一天赋予工作日或者 周末两种属性, 则一笔交易的交易时间就由其所在季度、 其所在星期、 以及其具体日期的属 性这三部分构成, 而对于商户类型, 可以人为地将其划分为生活品、 电器、 娱乐、 出行、 混杂 这五种取值 )。 0068 优选地, 在本发明所公开的异常检测装置中, 分类器模型构造单元 4 进一步用于 基于 K-means 算法将所述至少一个信息交互特征中的一个或多个的取值离散化 ( 示例性 地, 在金融领域中, 对于交易位置和交易金额这两个特征向量, 可以采用 K-mean。
38、s 算法将每 个用户的交易位置离散化为Local、 Near、 Remote以及Global四个取值, 并将每个用户的交 易金额离散化为 Low、 Medium 以及 High 三个取值 )。 0069 如本领域技术人员所知地, K-means 算法是一种基于距离的聚类算法, 其可以根据 数据集中样本之间的距离将所有样本划分成 k 个分类, k 的值由用户事先指定, 并且该算法 的核心思想是使得所有分类中的点到所属分类中心点的距离之和最小, 例如, 设 p 表示某 个分类中的一个点, Ci表示第 i 个分类, mi表示 Ci的中心点, 函数 D(p, m_i) 表示点 p 与点 mi之间的距离。
39、 ( 该距离通常使用欧氏距离来计算 ), 则 K-means 算法将找到一种划分方式, 使得平方误差 E 最小 : 0070 0071 该算法开始时随机选取 k 个点分别作为每个分类的中心点, 然后开始迭代, 每一 次迭代由以下两步组成 : (1) 对每个非中心点进行聚类, 每个点将被划分到与其距离最近 说 明 书 CN 103544429 A 9 7/10 页 10 的中心点所代表的分类中 ; (2) 对分好的 k 个分类重新计算中心点 ( 通常采用计算平均值 的方法 ), 选取与平均值距离最近的点作为新的中心点, 并且当在一次迭代中没有任何一个 非中心点所属的分类发生改变, 或者达到了预先。
40、设定的次数, 则迭代过程结束, 这时该数据 集就被划分成了 k 个分类。 0072 优选地, 在本发明所公开的异常检测装置中, 异常检测模块 2 进一步包括主控制 器 8、 分类单元 9、 序列比对单元 10 和综合判断单元 11。其中, 所述主控制器 8 用于接收并 解析来自所述数据处理服务器(例如交易处理服务器)的安全性信息交互数据以获得与所 述安全性信息交互数据相关联的当前安全性信息交互的特征向量和发起该当前安全性信 息交互的用户的标识符, 并将所述用户标识符和所述当前安全性信息交互的特征向量传送 到分类单元 9, 所述主控制器 8 还用于基于所述用户标识符从所述存储单元 12 提取发起。
41、该 当前安全性信息交互的用户之前的 N-1 次操作以构成长度为 N 的操作序列 ( 其中 N 为自然 数, 其可根据实际需求而被预先设定, 并且该长度为 N 的操作序列包含当前操作 ), 并将所 述用户标识符和所述长度为 N 的操作序列传送到序列比对单元 10, 所述主控制器 8 进一步 用于将接收到的来自综合判断单元 11 的判断结果传送回所述数据处理服务器。所述分类 单元 9 用于基于所述解析出的用户标识符、 当前安全性信息交互的特征向量、 所述分类器 模型以及所述条件概率表计算出该当前安全性信息交互的第一可信因子 TS, 以及随后将所 述第一可信因子TS传送到综合判断单元11。 所述序列。
42、比对单元10用于基于所述用户标识 符从所述存储单元 12 中查找相应的第一 k 元组表并结合相应的第二 k 元组表计算该当前 安全性信息交互的第二可信因子 OS, 以及随后将所述第二可信因子 OS 传送到综合判断单 元 11。所述综合判断单元 11 用于基于接收到的所述第一可信因子 TS 和第二可信因子 OS 判断当前安全性信息交互 ( 例如金融交易 ) 的类型 ( 即是 “正常的” 还是 “异常的” ), 并将 判断结果传送到所述主控制器 8。 0073 优选地, 在本发明所公开的异常检测装置中, 所述分类单元 9 根据所述用户标识 符从所述存储单元 12 中查找相应的条件概率表, 并基于所。
43、述当前安全性信息交互的特征 向量和所述分类器模型计算该当前安全性信息交互的第一可信因子 TS。 0074 优选地, 在本发明所公开的异常检测装置中, 所述序列比对单元 10 使用 BLAST 算 法计算该当前安全性信息交互的第二可信因子 OS。 0075 如本领域技术人员所知地, BLAST 算法的基本工作原理如下 : 对于给定的查询序 列, 根据用户 ID 查找相应的第一 k 元组表, 并与查询序列进行比对。在本公开中使用如下 简化的BLAST算法 : 定义出现一次命中的得分为, 出现一次偏离的得分为, 并假定查询 序列中出现了 L 次命中, 则其与用户正常操作序列的相似度 HS 为 : 0。
44、076 HS L-(N-L) (7) 0077 然后, 将查询序列中出现偏离的片段按顺序组合成一条偏离序列, 其长度为 N-L。 将偏离序列与第二k元组表进行比对, 假设在比对过程中出现了M次命中, 则可以得到偏离 序列与异常操作序列的相似度 DS 为 : 0078 DS M-(N-L-M) (8) 0079 最终, 所述第二可信因子 OS 被计算为 HS-DS。 0080 示例性地, 在金融支付领域中, 假设一个支付系统支持的操作有 : 登录, 查询商品 明细, 下单, 支付等, 并分别用 A, B, C, D 表示这四种操作, 则一个用户的正常操作序列的记 说 明 书 CN 1035444。
45、29 A 10 8/10 页 11 录可能是 : ABBCDBABCBCD, 已知的异常操作序列可能为 : AAACDBCCCADDD, 而一个被盗用账 户的操作序列可能为 : AAABCDCADD, 其中, 假设 k 元组中 k 的值设为 3, 则与第一 k 元组表的 命中次数 L 为 2(ABC 与 BCD), HS 2-6。与第二 k 元组表的命中次数 M 为 3(AAA、 CAD、 ADD), DS 3-3。则 OS HS-DS 2-6-3+3 -3, 其中, 因 与 均 为正数, 故该第二可信因子 OS 为负数, 即表示可信度较低。 0081 优选地, 在本发明所公开的异常检测装置中。
46、, 所述综合判断单元 11 通过将所述第 一可信因子TS和所述第二可信因子OS分别与预定的阈值相比较而判断当前安全性信息交 互的类型 ( 即是 “正常的” 还是 “异常的” )。示例性地, 所述综合判断单元 11 所使用的判 断准则可以如下 : (1) 当第一可信因子 TS 和第二可信因子 OS( 即业务层面和操作层面 ) 均 为异常时, 则判断当前安全性信息交互的类型为 “异常” ; (2) 当第一可信因子 TS 和第二可 信因子OS(即业务层面和操作层面)均为正常时, 则判断当前安全性信息交互的类型为 “正 常” ; (3) 当第一可信因子 TS( 即业务层面 ) 异常而第二可信因子 OS。
47、( 即操作层面 ) 正常, 则由 TS+OS 的值来决定当前安全性信息交互是否异常 ; (4) 当第一可信因子 TS( 即业务层 面 ) 正常而第二可信因子 OS( 即操作层面 ) 异常, 则需要进一步的人工审计来判断当前安 全性信息交互的类型。 0082 可选地, 本发明所公开的异常检测装置可以与所述数据处理服务器和 / 或所述数 据库处于同一物理实体中。 0083 图 2 是根据本发明的实施例的用于安全性信息交互的异常检测方法的流程图。如 图 2 所示, 本发明所公开的用于安全性信息交互的异常检测方法包括下列步骤 : (A1) 基于 数据库中的安全性信息交互记录完成预处理操以构建分类器模型。
48、和条件概率表以及用于 序列比对的组表 ; (A2) 解析安全性信息交互数据, 并基于所述分类器模型和条件概率表以 及用于序列比对的组表判断与所述安全性信息交互数据相关联的安全性信息交互 ( 例如 金融交易 ) 的类型 ( 即是 “正常的” 还是 “异常的” )。 0084 优选地, 在本发明所公开的异常检测方法中, 所述步骤 (A1) 进一步包括 : (B1) 从 所述数据库提取正常的安全性信息交互记录(例如正常的交易记录)和已知的异常的安全 性信息交互记录 ( 例如已知的异常的交易记录 ) ; (B2) 基于所述提取的正常的安全性信息 交互记录和所述已知的异常的安全性信息交互记录确定至少一个。
49、信息交互特征向量 ( 示 例性地, 在金融领域中, 所述信息交互特征可以包括交易时间、 交易位置、 交易金额、 商户类 型以及交易所属的分类等 ), 并基于所述至少一个信息交互特征向量构建所述分类器模型 ; (B3) 为每个用户计算条件概率表 (CPT) ; (B4) 从所述数据库提取每个用户的正常操作序列 和已知的用户的异常操作序列, 并按照时间将正常操作序列划分成子序列以及按照类型将 异常操作序列划分成子序列 ; (B5) 为每个用户的正常操作序列构造第一 k 元组表, 并且为 每个用户的已知的异常操作序列构造第二 k 元组表 ( 由于异常检测由一次安全性信息交 互触发, 故 k 的取值应大于等于用户完成一次完整的安全性信息交互过程至少需要的步骤 数 )。 0085 优选地, 在本发明所公。