非法应用程序类别识别方法及装置.pdf
《非法应用程序类别识别方法及装置.pdf》由会员分享,可在线阅读,更多相关《非法应用程序类别识别方法及装置.pdf(23页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201911340852.4 (22)申请日 2019.12.23 (71)申请人 北京神州绿盟信息安全科技股份有 限公司 地址 100089 北京市海淀区北洼路4号益泰 大厦三层 申请人 北京神州绿盟科技有限公司 (72)发明人 刘威歆宁振虎薛见新张润滋 陈磊 (74)专利代理机构 北京同达信恒知识产权代理 有限公司 11291 代理人 李琴 (51)Int.Cl. G06F 21/53(2013.01) G06F 21/55(2013.01) G06K 9/62(2006.0。
2、1) (54)发明名称 一种非法应用程序类别识别方法及装置 (57)摘要 本发明提供一种非法应用程序类别识别方 法及装置, 所述方法包括: 获取应用程序样本集, 将应用程序样本集中各应用程序在仿真运行平 台上虚拟运行, 获取运行时生成的序列特征, 从 各应用程序的安装包中获取表示安装包生成的 名称特征; 根据各应用程序的序列特征, 确定第 一相似度, 根据各应用程序的名称特征, 确定第 二相似度; 根据所述第一相似度与第二相似度, 确定最终相似度; 根据最终相似度, 确定该待识 别的应用程序是否为非法的应用程序, 及确定为 非法的应用程序时, 确定所属的非法的应用程序 的类别, 利用本发明提供。
3、的方法, 可以建立对于 非法应用程序的各方面进行监测的机制, 来分析 非法应用程序的行为特征, 以便更好的确定非法 应用程序的类别。 权利要求书3页 说明书13页 附图6页 CN 111143833 A 2020.05.12 CN 111143833 A 1.一种非法应用程序类别识别方法, 其特征在于, 所述方法包括: 获取应用程序样本集, 所述应用程序样本集包括至少一个识别出类别的非法的应用程 序及至少一个待识别的应用程序; 将应用程序样本集中各应用程序在仿真运行平台上虚拟运行, 获取运行时生成的序列 特征, 所述序列特征中包括表示该应用程序运行时调用的API接口顺序的API调用序列, 从 。
4、各应用程序的安装包中获取表示安装包生成的名称特征; 根据各应用程序的序列特征, 确定任一待识别的应用程序分别与各非法的应用程序及 其他待识别的应用程序之间的第一相似度, 根据各应用程序的名称特征, 确定任一待识别 的应用程序分别与各非法的应用程序及其他待识别的应用程序之间的第二相似度; 根据所述第一相似度与第二相似度, 确定任一待识别的应用程序分别与各非法的应用 程序及其他待识别的应用程序之间的最终相似度; 根据所述最终相似度, 确定该待识别的应用程序是否为非法的应用程序, 及确定为非 法的应用程序时, 确定所属的非法的应用程序的类别。 2.根据权利要求1所述的方法, 其特征在于, 根据所述最。
5、终相似度, 确定该待识别的应 用程序是否为非法的应用程序, 及确定为非法的应用程序时, 确定所属的非法的应用程序 的类别, 包括: 确定与该待识别的应用程序的最终相似度最高的为非法的应用程序, 且最高的最终相 似度高于设定高阈值时, 确定该识别的应用程序为非法的应用程序; 确定与该待识别的应用程序的最终相似度最高的非法的应用程序的类别, 为待识别的 应用程序所属的非法的应用程序的类别。 3.根据权利要求2所述的方法, 其特征在于, 根据所述最终相似度, 确定该待识别的应 用程序是否为非法的应用程序, 包括: 确定与该待识别的应用程序的最终相似度最高的为非法的应用程序, 且最高的最终相 似度低于。
6、设定低阈值时, 确定待识别的应用程序为合法应用程序。 4.根据权利要求13任一所述的方法, 其特征在于, 根据所述最终相似度, 确定该待识 别的应用程序是否为非法的应用程序, 包括: 确定与该待识别的应用程序的最终相似度最高的为其他待识别的应用程序时, 且最高 的最终相似度高于设定聚类阈值时, 将该待识别的应用程序与最终相似度最高的其他待识 别的应用程序, 划分到同一类型集合。 5.根据权利要求4所述的方法, 其特征在于, 还包括: 根据该待识别的应用程序为非法的应用程序及所属的非法的应用程序的类别, 确定与 该待识别的应用程序属于同一类型集合的待识别应用程序, 为非法的应用程序及相同的非 法。
7、的应用程序的类别。 6.根据权利要求1所述的方法, 其特征在于, 从各应用程序的安装包中获取表示安装包 生成的名称特征, 包括: 获取各应用程序的安装包在仿真运行平台上虚拟运行时, 确定的表示调用权限名称的 权限信息; 获取根据各应用程序的安装包中的开发账号确定的签名信息将应用程序样本集中各 应用程序的安装包中开发人员名称确定的签名信息; 权利要求书 1/3 页 2 CN 111143833 A 2 获取根据各应用程序的安装包在仿真运行平台上虚拟运行时, 由其中的应用程序组件 生成的活动名称确定的活动名称信息。 7.根据权利要求1所述的方法, 其特征在于, 确定任一待识别的应用程序分别与各非法。
8、 的应用程序及其他待识别的应用程序之间的第一相似度, 包括: 利用敏感哈希中的Nilsimsa算法将各应用程序的序列特征中的API调用序列统一为相 同长度的摘要信息; 通过比对任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用程序 之间的摘要信息, 得到对应的第一相似度。 8.根据权利要求1所述的方法, 其特征在于, 确定任一待识别的应用程序分别与各非法 的应用程序及其他待识别的应用程序之间的第二相似度, 包括: 利用jaccard集合相似度算法, 确定任一待识别的应用程序分别与各非法的应用程序 及其他待识别的应用程序之间的第二相似度。 9.根据权利要求1所述的方法, 其特征在于, 。
9、根据所述第一相似度与第二相似度, 确定 任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用程序之间的最终相 似度, 包括: 将第一相似度和第二相似度分别乘以对应的权重并求和, 得到任一待识别的应用程序 分别与各非法的应用程序及其他待识别的应用程序之间的最终相似度。 10.根据权利要求9所述的方法, 其特征在于, 还包括: 根据各非法的应用程序的序列特征, 确定各非法的应用程序之间的第一相似度, 根据 各非法的应用程序的名称特征, 确定各非法的应用程序之间的第二相似度; 将任意两个非法的应用程序的第一相似度、 第二相似度输入权重优化器, 利用所述权 重优化器调整第一相似度和第二相似度的。
10、权重, 使得对第一相似度和第二相似度加权求和 后输出的两个非法的应用程序是否属于同一类别的结果, 与应用程序样本集中该两个非法 应用程序是否属于同一类别结果一致; 根据所述权值优化器调整结束后的权重, 得到第一相似度和第二相似对应的权重。 11.一种非法应用程序类别识别装置, 其特征在于, 所述装置包括: 样本获取模块, 用于获取应用程序样本集, 所述应用程序样本集包括至少一个识别出 类别的非法的应用程序及至少一个待识别的应用程序; 特征获取模块, 用于将应用程序样本集中各应用程序在仿真运行平台上虚拟运行, 获 取运行时生成的序列特征, 所述序列特征中包括表示该应用程序运行时调用的API接口顺。
11、 序的API调用序列, 从各应用程序的安装包中获取表示安装包生成的名称特征; 相似度确定模块, 用于根据各应用程序的序列特征, 确定任一待识别的应用程序分别 与各非法的应用程序及其他待识别的应用程序之间的第一相似度, 根据各应用程序的名称 特征, 确定任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用程序之间 的第二相似度; 最终相似度确定模块, 用于根据所述第一相似度与第二相似度, 确定任一待识别的应 用程序分别与各非法的应用程序及其他待识别的应用程序之间的最终相似度; 应用程序类别确定模块, 用于根据所述最终相似度, 确定该待识别的应用程序是否为 非法的应用程序, 及确定为非法的。
12、应用程序时, 确定所属的非法的应用程序的类别。 权利要求书 2/3 页 3 CN 111143833 A 3 12.一种非法应用程序类别识别装置, 其特征在于, 所述装置包括处理器和存储器, 所 述存储器中存储有计算机程序, 所述处理器用于执行所述存储器中的计算机程序, 所述计 算机程序用于执行如权利要求110任一项非法应用程序类别识别方法。 13.一种计算机程序介质, 其特征在于, 所述计算机可读存储介质存储有计算机指令, 所述计算机指令被处理器执行时实现如权利要求110任一项非法应用程序类别识别方 法。 权利要求书 3/3 页 4 CN 111143833 A 4 一种非法应用程序类别识别。
13、方法及装置 技术领域 0001 本发明涉及一种应用程序类别识别领域, 特别涉及一种非法应用程序类别识别方 法及装置。 背景技术 0002 近年来, 非法应用程序的数量与日俱增, 而随着非法应用程序的增长速度和传播 速度的不断加快, 对于非法应用程序的分析以及对非法应用程序进行分类变得越来越困 难。 非法应用程序是指在未明确提示用户或未经用户许可的情况下, 在用户计算机或其他 终端上安装运行, 侵害用户合法权益的应用程序, 并且非法应用程序自身通过原始程序并 生成变体, 以避免基于签名的检测措施, 使得非法应用程序变得更加复杂, 仅靠简单自动分 析很难获得非法应用程序所属的类别, 非法应用程序也。
14、很容易绕过基于程序签名的反病毒 程序来逃避监测分类。 0003 现有的对于非法应用程序的分类方式是通过监测非法应用程序的调用权限与调 用图等几个简单的特征来判断该程序为何类非法应用程序, 然而仅仅通过几个特征难以找 出各个特征之间的关联并根据关联关系进行分类, 此种非法应用程序分类方式并不适用于 现代应用程序集群, 并且现有的权限信息不再像以往一样具有对于分辨非法应用程序的权 威性, 很多合法应用程序同样会调用大量的权限, 仅通过观察权限的调用情况不足以表明 非法应用程序的类型, 所以需要建立一种对于非法应用程序的各方面进行监测的机制, 来 分析非法应用程序的行为特征, 以便更好的确定非法应用。
15、程序的类别。 发明内容 0004 本发明提供一种非法应用程序类别识别方法及装置, 用于解决在仅使用了权限和 调用图等一个或几个简单的特征请情况下, 难以找出特征之间的关联的问题, 并且现有的 良性的应用程序也需要大量权限, 如果应用程序检测系统只使用一种或少量的特征, 那么 它会产生有偏见的结果。 0005 本发明的第一方面, 提供一种非法应用程序类别识别方法, 所述方法包括: 0006 获取应用程序样本集, 所述应用程序样本集包括至少一个识别出类别的非法的应 用程序及至少一个待识别的应用程序; 0007 将应用程序样本集中各应用程序在仿真运行平台上虚拟运行, 获取运行时生成的 序列特征, 所。
16、述序列特征中包括表示该应用程序运行时调用的API接口顺序的API调用序 列, 从各应用程序的安装包中获取表示安装包生成的名称特征; 0008 根据各应用程序的序列特征, 确定任一待识别的应用程序分别与各非法的应用程 序及其他待识别的应用程序之间的第一相似度, 根据各应用程序的名称特征, 确定任一待 识别的应用程序分别与各非法的应用程序及其他待识别的应用程序之间的第二相似度; 0009 根据所述第一相似度与第二相似度, 确定任一待识别的应用程序分别与各非法的 应用程序及其他待识别的应用程序之间的最终相似度; 说明书 1/13 页 5 CN 111143833 A 5 0010 根据所述最终相似度。
17、, 确定该待识别的应用程序是否为非法的应用程序, 及确定 为非法的应用程序时, 确定所属的非法的应用程序的类别。 0011 可选地, 根据所述最终相似度, 确定该待识别的应用程序是否为非法的应用程序, 及确定为非法的应用程序时, 确定所属的非法的应用程序的类别, 包括: 0012 确定与该待识别的应用程序的最终相似度最高的为非法的应用程序, 且最高的最 终相似度高于设定高阈值时, 确定该识别的应用程序为非法的应用程序; 0013 确定与该待识别的应用程序的最终相似度最高的非法的应用程序的类别, 为待识 别的应用程序所属的非法的应用程序的类别。 0014 可选地, 根据所述最终相似度, 确定该待。
18、识别的应用程序是否为非法的应用程序, 包括: 0015 确定与该待识别的应用程序的最终相似度最高的为非法的应用程序, 且最高的最 终相似度低于设定低阈值时, 确定待识别的应用程序为合法应用程序。 0016 可选地, 根据所述最终相似度, 确定该待识别的应用程序是否为非法的应用程序, 包括: 0017 确定与该待识别的应用程序的最终相似度最高的为其他待识别的应用程序时, 且 最高的最终相似度高于设定聚类阈值时, 将该待识别的应用程序与最终相似度最高的其他 待识别的应用程序, 划分到同一类型集合。 0018 可选地, 还包括: 0019 根据该待识别的应用程序为非法的应用程序及所属的非法的应用程序。
19、的类别, 确 定与该待识别的应用程序属于同一类型集合的待识别应用程序, 为非法的应用程序及相同 的非法的应用程序的类别。 0020 可选地, 从各应用程序的安装包中获取表示安装包生成的名称特征, 包括: 0021 获取各应用程序的安装包在仿真运行平台上虚拟运行时, 确定的表示调用权限名 称的权限信息; 0022 获取根据各应用程序的安装包中的开发账号确定的签名信息将应用程序样本集 中各应用程序的安装包中开发人员名称确定的签名信息; 0023 获取根据各应用程序的安装包在仿真运行平台上虚拟运行时, 由其中的应用程序 组件生成的活动名称确定的活动名称信息。 0024 可选地, 确定任一待识别的应用。
20、程序分别与各非法的应用程序及其他待识别的应 用程序之间的第一相似度, 包括: 0025 利用敏感哈希中的Nilsimsa算法将各应用程序的序列特征中的API调用序列统一 为相同长度的摘要信息; 0026 通过比对任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用 程序之间的摘要信息, 得到对应的第一相似度。 0027 可选地, 确定任一待识别的应用程序分别与各非法的应用程序及其他待识别的应 用程序之间的第二相似度, 包括: 0028 利用jaccard集合相似度算法, 确定任一待识别的应用程序分别与各非法的应用 程序及其他待识别的应用程序之间的第二相似度。 0029 可选地, 根据所。
21、述第一相似度与第二相似度, 确定任一待识别的应用程序分别与 说明书 2/13 页 6 CN 111143833 A 6 各非法的应用程序及其他待识别的应用程序之间的最终相似度, 包括: 0030 将第一相似度和第二相似度分别乘以对应的权重并求和, 得到任一待识别的应用 程序分别与各非法的应用程序及其他待识别的应用程序之间的最终相似度。 0031 可选地, 还包括: 0032 根据各非法的应用程序的序列特征, 确定各非法的应用程序之间的第一相似度, 根据各非法的应用程序的名称特征, 确定各非法的应用程序之间的第二相似度; 0033 将任意两个非法的应用程序的第一相似度、 第二相似度输入权重优化器。
22、, 利用所 述权重优化器调整第一相似度和第二相似度的权重, 使得对第一相似度和第二相似度加权 求和后输出的两个非法的应用程序是否属于同一类别的结果, 与应用程序样本集中该两个 非法应用程序是否属于同一类别结果一致; 0034 根据所述权值优化器调整结束后的权重, 得到第一相似度和第二相似对应的权 重。 0035 本发明第二方面提供一种非法应用程序类别识别装置, 所述装置包括如下模块: 0036 样本获取模块, 用于获取应用程序样本集, 所述应用程序样本集包括至少一个识 别出类别的非法的应用程序及至少一个待识别的应用程序; 0037 特征获取模块, 用于将应用程序样本集中各应用程序在仿真运行平台。
23、上虚拟运 行, 获取运行时生成的序列特征, 所述序列特征中包括表示该应用程序运行时调用的API接 口顺序的API调用序列, 从各应用程序的安装包中获取表示安装包生成的名称特征; 0038 相似度确定模块, 用于根据各应用程序的序列特征, 确定任一待识别的应用程序 分别与各非法的应用程序及其他待识别的应用程序之间的第一相似度, 根据各应用程序的 名称特征, 确定任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用程序 之间的第二相似度; 0039 最终相似度确定模块, 用于根据所述第一相似度与第二相似度, 确定任一待识别 的应用程序分别与各非法的应用程序及其他待识别的应用程序之间的最终相。
24、似度; 0040 应用程序类别确定模块, 用于根据所述最终相似度, 确定该待识别的应用程序是 否为非法的应用程序, 及确定为非法的应用程序时, 确定所属的非法的应用程序的类别。 0041 应用程序类别确定模块, 根据所述最终相似度, 确定该待识别的应用程序是否为 非法的应用程序, 及确定为非法的应用程序时, 确定所属的非法的应用程序的类别, 包括: 0042 确定与该待识别的应用程序的最终相似度最高的为非法的应用程序, 且最高的最 终相似度高于设定高阈值时, 确定该识别的应用程序为非法的应用程序; 0043 确定与该待识别的应用程序的最终相似度最高的非法的应用程序的类别, 为待识 别的应用程序。
25、所属的非法的应用程序的类别。 0044 应用程序类别确定模块, 根据所述最终相似度, 确定该待识别的应用程序是否为 非法的应用程序, 包括: 0045 确定与该待识别的应用程序的最终相似度最高的为非法的应用程序, 且最高的最 终相似度低于设定低阈值时, 确定待识别的应用程序为合法应用程序。 0046 应用程序类别确定模块, 根据所述最终相似度, 确定该待识别的应用程序是否为 非法的应用程序, 包括: 0047 确定与该待识别的应用程序的最终相似度最高的为其他待识别的应用程序时, 且 说明书 3/13 页 7 CN 111143833 A 7 最高的最终相似度高于设定聚类阈值时, 将该待识别的应。
26、用程序与最终相似度最高的其他 待识别的应用程序, 划分到同一类型集合。 0048 应用程序类别确定模块, 还包括: 0049 根据该待识别的应用程序为非法的应用程序及所属的非法的应用程序的类别, 确 定与该待识别的应用程序属于同一类型集合的待识别应用程序, 为非法的应用程序及相同 的非法的应用程序的类别。 0050 特征获取模块, 从各应用程序的安装包中获取表示安装包生成的名称特征, 包括: 0051 获取各应用程序的安装包在仿真运行平台上虚拟运行时, 确定的表示调用权限名 称的权限信息; 0052 获取根据各应用程序的安装包中的开发账号确定的签名信息将应用程序样本集 中各应用程序的安装包中开。
27、发人员名称确定的签名信息; 0053 获取根据各应用程序的安装包在仿真运行平台上虚拟运行时, 由其中的应用程序 组件生成的活动名称确定的活动名称信息。 0054 相似度确定模块, 确定任一待识别的应用程序分别与各非法的应用程序及其他待 识别的应用程序之间的第一相似度, 包括: 0055 利用敏感哈希中的Nilsimsa算法将各应用程序的序列特征中的API调用序列统一 为相同长度的摘要信息; 0056 通过比对任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用 程序之间的摘要信息, 得到对应的第一相似度。 0057 相似度确定模块, 确定任一待识别的应用程序分别与各非法的应用程序及其他。
28、待 识别的应用程序之间的第二相似度, 包括: 0058 利用jaccard集合相似度算法, 确定任一待识别的应用程序分别与各非法的应用 程序及其他待识别的应用程序之间的第二相似度。 0059 最终相似度确定模块, 根据所述第一相似度与第二相似度, 确定任一待识别的应 用程序分别与各非法的应用程序及其他待识别的应用程序之间的最终相似度, 包括: 0060 将第一相似度和第二相似度分别乘以对应的权重并求和, 得到任一待识别的应用 程序分别与各非法的应用程序及其他待识别的应用程序之间的最终相似度。 0061 相似度权重确定模块, 还包括: 0062 根据各非法的应用程序的序列特征, 确定各非法的应用。
29、程序之间的第一相似度, 根据各非法的应用程序的名称特征, 确定各非法的应用程序之间的第二相似度; 0063 将任意两个非法的应用程序的第一相似度、 第二相似度输入权重优化器, 利用所 述权重优化器调整第一相似度和第二相似度的权重, 使得对第一相似度和第二相似度加权 求和后输出的两个非法的应用程序是否属于同一类别的结果, 与应用程序样本集中该两个 非法应用程序是否属于同一类别结果一致; 0064 根据所述权值优化器调整结束后的权重, 得到第一相似度和第二相似对应的权 重。 0065 本发明第三方面提供一种非法应用程序类别识别装置, 所述装置包括处理器和存 储器, 所述存储器中存储有计算机程序, 。
30、所述处理器用于执行所述存储器中的计算机程序, 所述计算机程序用于执行本发明第一方面提供的一种非法应用程序类别识别方法。 说明书 4/13 页 8 CN 111143833 A 8 0066 本发明第四方面提供一种计算机程序介质, 所述计算机可读存储介质存储有计算 机指令, 所述计算机指令被处理器执行时实现本发明第一方面提供的一种非法应用程序类 别识别方法。 0067 利用本发明提供的一种非法应用程序类别识别方法及装置, 可以建立一种对于非 法应用程序的各方面进行监测的机制, 来分析非法应用程序的行为特征, 以便更好的确定 非法应用程序的类别。 附图说明 0068 图1为非法应用程序类别识别方法。
31、的系统示意图; 0069 图2为非法应用程序类别识别方法流程示意图; 0070 图3为非法应用程序识别分类过程示意图; 0071 图4为非法应用程序类别识别方法的完整示意图; 0072 图5为非法应用程序类别识别装置的模块示意图; 0073 图6为非法应用程序类别识别装置的结构示意图。 具体实施方式 0074 为使本发明实施例的目的、 技术方案和优点更加清楚, 为使本发明实施例的目的、 技术方案和优点更加清楚, 下面将结合本发明实施例中的附图, 对本发明实施例中的技术 方案进行清楚、 完整地描述, 显然, 所描述的实施例是本发明一部分实施例, 而不是全部的 实施例。 基于本发明中的实施例, 本。
32、领域普通技术人员在没有作出创造性劳动前提下所获 得的所有其他实施例, 都属于本发明保护的范围。 0075 下面结合说明书附图对本发明实施例作进一步详细描述。 应当理解, 此处所描述 的实施例仅用于说明和解释本发明, 并不用于限定本发明。 0076 如图1所示, 为一种非法应用程序类别识别方法的系统示意图, 在SDK平台101中, 存在虚拟运行设备102以及应用程序特征分析设备103; SDK为(Software Development Kit, 软件开发工具包), SDK平台用于运行软件开发工具包, 所述软件开发工具包为特定的 软件包、 软件框架、 硬件平台、 操作系统等建立应用软件时的开发工。
33、具的集合; 虚拟运行设 备102中包含应用程序样本集, 所述应用程序样本集中包括: 至少一个识别出类别的非法的 应用程序及至少一个待识别的应用程序, 其中识别出类别的非法的应用程序为从 BitDefender(比特梵德, BD)中获取的; BitDefender最重要的功能就是通过监测应用程序 和类似病毒的活动确定应用程序的类型, 提供删除非法代码的先进启发式技术; 从将应用 程序样本集中各应用程序在仿真运行平台上虚拟运行, 得到应用程序样本集中的各应用对 应的序列特征及名称特征。 在虚拟运行设备102将应用程序样本集中的各应用对应的序列 特征及名称特征发送到应用程序特征分析设备103, 应用。
34、程序特征分析设备103根据各应用 程序的序列特征确定应用程序样本集中的各样本之间的相似度; 应用程序特征分析设备 103根据各样本之间的相似度应用程序是否为非法的应用程序, 及确定为非法的应用程序 时, 确定所属的非法的应用程序的类别。 0077 实施例1 0078 本发明实施例提供一种非法应用程序类别识别方法, 所述步骤如图2所示: 说明书 5/13 页 9 CN 111143833 A 9 0079 步骤S201, 获取应用程序样本集, 所述应用程序样本集包括至少一个识别出类别 的非法的应用程序及至少一个待识别的应用程序; 0080 其中, 由SDK平台获取包含有至少一个识别出类别的非法的。
35、应用程序及至少一个 待识别的应用程序的样本集, 其中应用程序样本以安装包apk的形式获取上传到SDK平台 上, APK(Android application package, Android安装包)是类似SymbianSis或Sisx的文件 格式。 通过将APK文件直接传到Android模拟器或Android手机中执行即可安装, 其安装包同 样可以为在其他平台执行安装的exe、 ipa、 sisx、 rpm以及dep等类型安装包; 0081 所述至少一个识别出类别的非法的应用程序包括通过BitDefender得到的已知类 别的非法应用程序, 该非法的应用程序包括: Fakebank、 Gep。
36、ew、 Gidix、 Fakelnst、 SmSpy、 Bankun、 Misosms、 Telman等非法应用程序类型; 0082 步骤S202, 将应用程序样本集中各应用程序在仿真运行平台上虚拟运行, 获取运 行时生成的序列特征, 所述序列特征中包括表示该应用程序运行时调用的API接口顺序的 API调用序列, 从各应用程序的安装包中获取表示安装包生成的名称特征; 0083 通过SDK平台的调度程序, 将待识别的应用程序以及非法的应用程序在虚拟运行 设备102中进行运行, 通过对上述各应用程序进行运行, 得到该应用程序的序列特征以及名 称特征。 0084 具体的, 序列特征为应用程序运行时调。
37、用的API接口顺序的API调用序列, 因API调 用序列不能通过对应用程序的代码分析及包分析提取, 仅能通过在虚拟运行设备中执行来 获得。 对于非法应用程序来说, API调用序列为应用程序攻击虚拟运行设备中API接口的时 间顺序; 由于应用程序的行为与API调用序列密切相关, 利用API调用序列可以推断出应用 程序的功能, 所述API调用序列为在虚拟运行设备中对各应用程序中的调用接口进行了命 名, 根据应用程序的调用顺序, 对调用接口的名称按顺序排列得到API调用序列, 因此, 如果 获得了API调用序列的相似性, 就可以对具有相似功能的应用程序样本进行更高精度的分 类。 0085 所述名称特。
38、征主要包括三部分: 0086 1)权限信息, 各应用程序在虚拟运行设备中运行时, 会获取虚拟运行设备的相关 权限, 非法应用程序在需要获取虚拟运行设备相关信息及文件时, 必然会通过获取设备权 限来, 得到设备相关信息及文件, 因此获得权限数越多, 代表该应用程序的危险性更改, 所 以可以将获取的权限作为根据有目的攻击对相似的应用程序进行分类。 0087 2)签名信息, 在安装包中存在图像文件、 XML文件、 源代码文件和任何其他文件。 由 于不同的开发人员的倾向命名文件的规则不同, 因此文件名中通常包含开发人员的签名信 息。 当该开发人员在创建其他的应用程序时, 相同的签名信息可能保留在其他的。
39、应用程序 包中, 因此, 文件名中的签名信息可以用来比较应用程序之间的相似性。 0088 3)活动名称信息, 在应用程序的运行的活动是有在主要活动上操作, 活动的名称 (如文件名)也是由开发人员决定。 由于活动还包括应用程序的包名, 因此开发人员的签名 信息更倾向于活动名而不是文件名。 此外, 由于活动名称是从外部引用的, 当非法的应用程 序自动转换其代码时, 无法更改对应的活动名称。 因此, 活动名称同样可以作为比较应用程 序之间相似度的方法。 0089 步骤S203, 根据各应用程序的序列特征, 确定任一待识别的应用程序分别与各非 说明书 6/13 页 10 CN 111143833 A 。
40、10 法的应用程序及其他待识别的应用程序之间的第一相似度, 根据各应用程序的名称特征, 确定任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用程序之间的第 二相似度; 0090 所述第一相似度由任一待识别的应用程序分别与各非法的应用程序及其他待识 别的应用程序之间的序列特征的相似性确定, 其中各应用程序对应的API调用序列的长度 应该保持一致, 并不应该因细微的内容变化差异而产生显著差异, 因此本发明实施例采用 局部敏感哈希(Locality Sensitive Hashing, LSH): 局部敏感哈希的基本思想类似于一种 空间域转换思想, LSH算法基于一个假设, 如果两个文本在。
41、原有的数据空间是相似的, 那么 分别经过哈希函数转换以后的它们也具有很高的相似度; 相反, 如果它们本身是不相似的, 那么经过转换后它们应仍不具有相似性。 所以通过将LSH算法的Nilsimsa哈希算法计算API 调用序列的相似度, 各个应用程序样本对应的API序列转化为同一长度的摘要, 在实施例 中, 将摘要长度转化为256位, 并将摘要中-11之间的值进行归一化, 在归一化之后, 通过 比较归一化后的摘要, 得到各应用程序之间第一相似度。 0091 所述第二相似度由名称特征中的权限信息、 签名信息、 活动名称信息计算, 具体的 将权限信息、 签名信息、 活动名称信息放置到应用程序对应的名称。
42、字符串中, 基于jaccard 集合相似度算法, 该相似度计算方法为计算两个字符串中包含的各字符名称的交集以及并 集, 将交集的大小除以并集的大小, 得到第二相似度, 得到的值介于01之间, 相似度为0表 示给定的两个集合没有公共字符, 相似度为1表示两个集合是等价的。 0092 步骤S204, 根据所述第一相似度与第二相似度, 确定任一待识别的应用程序分别 与各非法的应用程序及其他待识别的应用程序之间的最终相似度; 0093 具体为, 根据任一待识别的应用程序与各非法的应用程序之间对应的第一相似度 和第二相似度的权重, 得到任一待识别的应用程序与各非法的应用程序之间的最终相似 度; 0094。
43、 根据任一待识别的应用程序与其他待识别的应用程序之间对应的第一相似度和 第二相似度的权重, 得到任一待识别的应用程序与其他待识别的应用程序之间的最终相似 度; 0095 所述第一相似度和第二相似度的权重基于权重优化器得到, 其中根据各非法的应 用程序的序列特征, 确定各非法的应用程序之间的第一相似度, 根据各非法的应用程序的 名称特征, 确定各非法的应用程序之间的第二相似度; 0096 将将任意两个非法的应用程序的第一相似度、 第二相似度输入权重优化器, 利用 所述权重优化器调整第一相似度和第二相似度的权重, 使得对第一相似度和第二相似度加 权求和后输出的两个非法的应用程序是否属于同一类别的结。
44、果, 与应用程序样本集中该两 个非法应用程序是否属于同一类别结果一致; 0097 通过设定不同的非法的应用程序对输入次数得到不同的权重, 根据不同权重对于 应用程序的分类准确性得到第一相似度和第二相似度对应的最优权重。 0098 根据第一相似度以及第二相似度对应的权重, 将第一相似度和第二相似度分别乘 以对应的权重并求和, 得到任一待识别的应用程序与各非法的应用程序之间的最终相似 度; 以及 0099 根据第一相似度以及第二相似度对应的权重, 将第一相似度和第二相似度分别乘 说明书 7/13 页 11 CN 111143833 A 11 以对应的权重并求和, 得到任一待识别的应用程序与其他待识。
45、别的应用程序之间的最终相 似度; 0100 步骤S205, 根据所述最终相似度, 确定该待识别的应用程序是否为非法的应用程 序, 及确定为非法的应用程序时, 确定所属的非法的应用程序的类别。 0101 判断与任一待识别的应用程序的最终相似度最高的是否为非法的应用程序, 当确 定与该待识别的应用程序的最终相似度最高的为非法的应用程序, 且最高的最终相似度高 于设定高阈值时, 确定该识别的应用程序为非法的应用程序; 0102 确定与该待识别的应用程序的最终相似度最高的非法的应用程序的类别, 为待识 别的应用程序所属的非法的应用程序的类别; 0103 确定与该待识别的应用程序的最高最终相似度低于设定。
46、低阈值时, 确定该识别的 应用程序为合法的应用程序。 0104 作为一种可选的实施方式, 确定该待识别的应用程序是否为非法的应用程序, 及 确定为非法的应用程序时, 确定所属的非法的应用程序的类别, 还可以为, 当确定与该待识 别的应用程序的最终相似度最高的为其他待识别的应用程序时, 且最高的最终的相似度高 于设定的聚类阈值时, 将该待识别的应用程序与最终相似度最高的其他待识别的应用程 序, 划分到同一类型集合。 0105 所述聚类阈值是基于K-fold交叉验证进行预测。 为了在多种阈值情况下获得更好 的精度, 根据聚类阈值设定的不同(80-95)来测量精度, 重复分类实验, 确定最优阈值。 。
47、阈值从80依次增加到95, 随着每个阈值的增大, 准确度会随之提升但对于待分类的应 用程序的聚类效果会变差, 因为本发明所使用的非法应用程序样本数量较少, 因此通过K- fold交叉验证来进行这一实验, 以补充样本的不足, 基于K-fold中的K与迭代次数的设置, 得到最优的聚类阈值, 在最优的聚类阈值下对于同一类型集合的分类类别的准确度最高。 0106 根据该待识别的应用程序为非法的应用程序及所属的非法的应用程序的类别, 确 定与该待识别的应用程序属于同一类型集合的待识别应用程序, 为非法的应用程序及相同 的非法的应用程序的类别。 0107 具体的, 根据与该待识别的应用程序的最终相似度最高。
48、的为的其他待识别的应用 程序, 且所述最终相似度高于上述经过K-fold交叉验证得到的最优的聚类阈值, 将该待识 别应用程序与对应的其他待识别的应用程序, 划分到同一类型集合中, 根据该类型集合中 所属的已知的非法应用程序的类别, 确定该类型集合中的待识别应用程序, 均为该已知的 非法应用程序的类别。 0108 如图3所示, 如待识别样本A在应用程序样本集中与待识别样本B的最终相似度最 高, 且高于最优的聚类阈值, 则将该待识别样本A与待识别样本B划分为同一类型的集合中, 此外待识别样本C在应用程序样本集中与待识别样本B的最终相似度最高, 则将该待识别样 本C与待识别样本B划分为同一类型的集合。
49、中, 且该待识别样本在非法应用程序判断中, 已 确定待识别样本B与已知类型为Fakebank非法应用程序D的最终相似度最高, 则判断该类型 的集合为Fakebank类型的类型集合, 其中的待识别样本A、 B、 C均为Fakebank类型的非法应 用程序。 0109 最终, 根据在应用程序样本集中各应用程序的最终相似度关系以及应用程序的类 型, 生成表示各应用程序相似关系以及类别的应用程序类别分类图,以便于更加明确的显 说明书 8/13 页 12 CN 111143833 A 12 示各待识别应用程序的类别。 0110 如图4所示, 为一种非法应用程序类别识别方法的完整步骤, 0111 步骤S4。
50、01, 获取应用程序样本集至SDK平台中; 0112 步骤S402, 将应用程序样本集中各应用程序在仿真运行平台上虚拟运行, 获取运 行时生成的序列特征, 并从各应用程序的安装包中获取名称特征; 0113 步骤S403, 根据序列特征以及名称特征确定, 应用程序样本集中任一待识别的应 用程序分别与各非法的应用程序及其他待识别的应用程序之间的第一相似度、 第二相似 度; 0114 步骤S404, 根据第一相似度和第二相似度的对应权重得到任一待识别的应用程序 分别与各非法的应用程序及其他待识别的应用程序之间的最终相似度; 0115 步骤S405, 判断与任一待识别的应用程序最终相似度最高的应用程序。
- 内容关键字: 非法 应用程序 类别 识别 方法 装置
农用无人机喷施效率现场检测装置.pdf
双线全自动冷轧管机生产线.pdf
汽车双色透光按钮.pdf
便于残渣分离的活性氧化锌制备装置.pdf
五金件CNC加工车床.pdf
拖拉机翻转连接架.pdf
物流箱投送物流架.pdf
对虾无节幼体流水养殖装置.pdf
烧结网管状过滤元件对接拼焊结构.pdf
车辆顶舱盖机构及车辆.pdf
节能型有机废气高效吸附脱附装置.pdf
新型储能电源.pdf
方便运输的可折叠储物罐.pdf
镜头易拆卸安装的玩具显微镜.pdf
预拌砂浆筛砂机.pdf
用于农药残留检测的样品破碎装置.pdf
方便维修的地坪研磨机齿轮箱.pdf
协作机器人侧装升降机构.pdf
TBM隧道施工注浆装置.pdf
便携式毫米波接力机.pdf
中频炉金属硅粉快速下料装置.pdf
即时传输及显示方法、装置、设备及存储介质.pdf
佩戴牢固的蓝牙耳机.pdf
基于3D激光雷达的移动机器人位姿跟踪方法及装置.pdf
基于模型协作的数据加权学习方法.pdf
蓝牙耳机信号传输测试装置.pdf
异常报价监控方法、系统、计算机及存储介质.pdf
混凝土布料任务动态控制方法及系统.pdf
转载溜槽及包括其的带式输送机系统.pdf
基于大数据的计算手术后目标血红蛋白的方法及系统.pdf
中频炉换炉开关.pdf
患者数据可视化管理系统及方法.pdf
便于上下楼梯的新型拉杆箱.pdf
一套长桁与蒙皮脱粘强度测试装置.pdf
自动贴标签机.pdf
荧光定量PCR仪.pdf
N-取代-1,4-二氢-2,3-喹喔啉二酮化合物的绿色合成方法.pdf
螺旋桨.pdf
牛羊电击宰杀装置.pdf
组合式输卵管镜.pdf
便捷式弯曲生产的五金制作模具.pdf
桥梁单板受力的整体加固结构.pdf
锭模端部固定结构.pdf
用于漂洗槽的喷管.pdf
蔬菜种植用温室环境数据采集装置.pdf
可针对眼部按摩的石墨烯眼罩.pdf
印刷辊切换装置.pdf
玻璃夹取装置及玻璃搬运装置.pdf
新能源汽车用电池架.pdf
磁悬浮除尘装置.pdf
适用于近接扩挖隧道施工对既有隧道防护的施工方法.pdf