非法应用程序类别识别方法及装置.pdf

上传人：小** 文档编号：10643942 上传时间：2021-08-06 格式：PDF 页数：23 大小：924.21KB

收藏版权申诉举报下载

第1页 / 共23页

第2页 / 共23页

第3页 / 共23页

下载文档到电脑，查找使用更方便

30 金币

下载文档

文档描述：

《非法应用程序类别识别方法及装置.pdf》由会员分享，可在线阅读，更多相关《非法应用程序类别识别方法及装置.pdf（23页完成版）》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201911340852.4 (22)申请日 2019.12.23 (71)申请人北京神州绿盟信息安全科技股份有限公司地址 100089 北京市海淀区北洼路4号益泰大厦三层申请人北京神州绿盟科技有限公司 (72)发明人刘威歆宁振虎薛见新张润滋陈磊 (74)专利代理机构北京同达信恒知识产权代理有限公司 11291 代理人李琴 (51)Int.Cl. G06F 21/53(2013.01) G06F 21/55(2013.01) G06K 9/62(2006.0。

2、1) (54)发明名称一种非法应用程序类别识别方法及装置 (57)摘要本发明提供一种非法应用程序类别识别方法及装置，所述方法包括：获取应用程序样本集，将应用程序样本集中各应用程序在仿真运行平台上虚拟运行，获取运行时生成的序列特征，从各应用程序的安装包中获取表示安装包生成的名称特征；根据各应用程序的序列特征，确定第一相似度，根据各应用程序的名称特征，确定第二相似度；根据所述第一相似度与第二相似度，确定最终相似度；根据最终相似度，确定该待识别的应用程序是否为非法的应用程序，及确定为非法的应用程序时，确定所属的非法的应用程序的类别，利用本发明提供。

3、的方法，可以建立对于非法应用程序的各方面进行监测的机制，来分析非法应用程序的行为特征，以便更好的确定非法应用程序的类别。权利要求书3页说明书13页附图6页 CN 111143833 A 2020.05.12 CN 111143833 A 1.一种非法应用程序类别识别方法，其特征在于，所述方法包括：获取应用程序样本集，所述应用程序样本集包括至少一个识别出类别的非法的应用程序及至少一个待识别的应用程序；将应用程序样本集中各应用程序在仿真运行平台上虚拟运行，获取运行时生成的序列特征，所述序列特征中包括表示该应用程序运行时调用的API接口顺序的API调用序列，从。

4、各应用程序的安装包中获取表示安装包生成的名称特征；根据各应用程序的序列特征，确定任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用程序之间的第一相似度，根据各应用程序的名称特征，确定任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用程序之间的第二相似度；根据所述第一相似度与第二相似度，确定任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用程序之间的最终相似度；根据所述最终相似度，确定该待识别的应用程序是否为非法的应用程序，及确定为非法的应用程序时，确定所属的非法的应用程序的类别。 2.根据权利要求1所述的方法，其特征在于，根据所述最。

5、终相似度，确定该待识别的应用程序是否为非法的应用程序，及确定为非法的应用程序时，确定所属的非法的应用程序的类别，包括：确定与该待识别的应用程序的最终相似度最高的为非法的应用程序，且最高的最终相似度高于设定高阈值时，确定该识别的应用程序为非法的应用程序；确定与该待识别的应用程序的最终相似度最高的非法的应用程序的类别，为待识别的应用程序所属的非法的应用程序的类别。 3.根据权利要求2所述的方法，其特征在于，根据所述最终相似度，确定该待识别的应用程序是否为非法的应用程序，包括：确定与该待识别的应用程序的最终相似度最高的为非法的应用程序，且最高的最终相似度低于。

6、设定低阈值时，确定待识别的应用程序为合法应用程序。 4.根据权利要求13任一所述的方法，其特征在于，根据所述最终相似度，确定该待识别的应用程序是否为非法的应用程序，包括：确定与该待识别的应用程序的最终相似度最高的为其他待识别的应用程序时，且最高的最终相似度高于设定聚类阈值时，将该待识别的应用程序与最终相似度最高的其他待识别的应用程序，划分到同一类型集合。 5.根据权利要求4所述的方法，其特征在于，还包括：根据该待识别的应用程序为非法的应用程序及所属的非法的应用程序的类别，确定与该待识别的应用程序属于同一类型集合的待识别应用程序，为非法的应用程序及相同的非法。

7、的应用程序的类别。 6.根据权利要求1所述的方法，其特征在于，从各应用程序的安装包中获取表示安装包生成的名称特征，包括：获取各应用程序的安装包在仿真运行平台上虚拟运行时，确定的表示调用权限名称的权限信息；获取根据各应用程序的安装包中的开发账号确定的签名信息将应用程序样本集中各应用程序的安装包中开发人员名称确定的签名信息；权利要求书 1/3 页 2 CN 111143833 A 2 获取根据各应用程序的安装包在仿真运行平台上虚拟运行时，由其中的应用程序组件生成的活动名称确定的活动名称信息。 7.根据权利要求1所述的方法，其特征在于，确定任一待识别的应用程序分别与各非法。

8、的应用程序及其他待识别的应用程序之间的第一相似度，包括：利用敏感哈希中的Nilsimsa算法将各应用程序的序列特征中的API调用序列统一为相同长度的摘要信息；通过比对任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用程序之间的摘要信息，得到对应的第一相似度。 8.根据权利要求1所述的方法，其特征在于，确定任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用程序之间的第二相似度，包括：利用jaccard集合相似度算法，确定任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用程序之间的第二相似度。 9.根据权利要求1所述的方法，其特征在于，。

9、根据所述第一相似度与第二相似度，确定任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用程序之间的最终相似度，包括：将第一相似度和第二相似度分别乘以对应的权重并求和，得到任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用程序之间的最终相似度。 10.根据权利要求9所述的方法，其特征在于，还包括：根据各非法的应用程序的序列特征，确定各非法的应用程序之间的第一相似度，根据各非法的应用程序的名称特征，确定各非法的应用程序之间的第二相似度；将任意两个非法的应用程序的第一相似度、第二相似度输入权重优化器，利用所述权重优化器调整第一相似度和第二相似度的。

10、权重，使得对第一相似度和第二相似度加权求和后输出的两个非法的应用程序是否属于同一类别的结果，与应用程序样本集中该两个非法应用程序是否属于同一类别结果一致；根据所述权值优化器调整结束后的权重，得到第一相似度和第二相似对应的权重。 11.一种非法应用程序类别识别装置，其特征在于，所述装置包括：样本获取模块，用于获取应用程序样本集，所述应用程序样本集包括至少一个识别出类别的非法的应用程序及至少一个待识别的应用程序；特征获取模块，用于将应用程序样本集中各应用程序在仿真运行平台上虚拟运行，获取运行时生成的序列特征，所述序列特征中包括表示该应用程序运行时调用的API接口顺。

11、序的API调用序列，从各应用程序的安装包中获取表示安装包生成的名称特征；相似度确定模块，用于根据各应用程序的序列特征，确定任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用程序之间的第一相似度，根据各应用程序的名称特征，确定任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用程序之间的第二相似度；最终相似度确定模块，用于根据所述第一相似度与第二相似度，确定任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用程序之间的最终相似度；应用程序类别确定模块，用于根据所述最终相似度，确定该待识别的应用程序是否为非法的应用程序，及确定为非法的。

12、应用程序时，确定所属的非法的应用程序的类别。权利要求书 2/3 页 3 CN 111143833 A 3 12.一种非法应用程序类别识别装置，其特征在于，所述装置包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器用于执行所述存储器中的计算机程序，所述计算机程序用于执行如权利要求110任一项非法应用程序类别识别方法。 13.一种计算机程序介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令被处理器执行时实现如权利要求110任一项非法应用程序类别识别方法。权利要求书 3/3 页 4 CN 111143833 A 4 一种非法应用程序类别识别。

13、方法及装置技术领域 0001 本发明涉及一种应用程序类别识别领域，特别涉及一种非法应用程序类别识别方法及装置。背景技术 0002 近年来，非法应用程序的数量与日俱增，而随着非法应用程序的增长速度和传播速度的不断加快，对于非法应用程序的分析以及对非法应用程序进行分类变得越来越困难。非法应用程序是指在未明确提示用户或未经用户许可的情况下，在用户计算机或其他终端上安装运行，侵害用户合法权益的应用程序，并且非法应用程序自身通过原始程序并生成变体，以避免基于签名的检测措施，使得非法应用程序变得更加复杂，仅靠简单自动分析很难获得非法应用程序所属的类别，非法应用程序也。

14、很容易绕过基于程序签名的反病毒程序来逃避监测分类。 0003 现有的对于非法应用程序的分类方式是通过监测非法应用程序的调用权限与调用图等几个简单的特征来判断该程序为何类非法应用程序，然而仅仅通过几个特征难以找出各个特征之间的关联并根据关联关系进行分类，此种非法应用程序分类方式并不适用于现代应用程序集群，并且现有的权限信息不再像以往一样具有对于分辨非法应用程序的权威性，很多合法应用程序同样会调用大量的权限，仅通过观察权限的调用情况不足以表明非法应用程序的类型，所以需要建立一种对于非法应用程序的各方面进行监测的机制，来分析非法应用程序的行为特征，以便更好的确定非法应用。

15、程序的类别。发明内容 0004 本发明提供一种非法应用程序类别识别方法及装置，用于解决在仅使用了权限和调用图等一个或几个简单的特征请情况下，难以找出特征之间的关联的问题，并且现有的良性的应用程序也需要大量权限，如果应用程序检测系统只使用一种或少量的特征，那么它会产生有偏见的结果。 0005 本发明的第一方面，提供一种非法应用程序类别识别方法，所述方法包括： 0006 获取应用程序样本集，所述应用程序样本集包括至少一个识别出类别的非法的应用程序及至少一个待识别的应用程序； 0007 将应用程序样本集中各应用程序在仿真运行平台上虚拟运行，获取运行时生成的序列特征，所。

16、述序列特征中包括表示该应用程序运行时调用的API接口顺序的API调用序列，从各应用程序的安装包中获取表示安装包生成的名称特征； 0008 根据各应用程序的序列特征，确定任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用程序之间的第一相似度，根据各应用程序的名称特征，确定任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用程序之间的第二相似度； 0009 根据所述第一相似度与第二相似度，确定任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用程序之间的最终相似度；说明书 1/13 页 5 CN 111143833 A 5 0010 根据所述最终相似度。

17、，确定该待识别的应用程序是否为非法的应用程序，及确定为非法的应用程序时，确定所属的非法的应用程序的类别。 0011 可选地，根据所述最终相似度，确定该待识别的应用程序是否为非法的应用程序，及确定为非法的应用程序时，确定所属的非法的应用程序的类别，包括： 0012 确定与该待识别的应用程序的最终相似度最高的为非法的应用程序，且最高的最终相似度高于设定高阈值时，确定该识别的应用程序为非法的应用程序； 0013 确定与该待识别的应用程序的最终相似度最高的非法的应用程序的类别，为待识别的应用程序所属的非法的应用程序的类别。 0014 可选地，根据所述最终相似度，确定该待。

18、识别的应用程序是否为非法的应用程序，包括： 0015 确定与该待识别的应用程序的最终相似度最高的为非法的应用程序，且最高的最终相似度低于设定低阈值时，确定待识别的应用程序为合法应用程序。 0016 可选地，根据所述最终相似度，确定该待识别的应用程序是否为非法的应用程序，包括： 0017 确定与该待识别的应用程序的最终相似度最高的为其他待识别的应用程序时，且最高的最终相似度高于设定聚类阈值时，将该待识别的应用程序与最终相似度最高的其他待识别的应用程序，划分到同一类型集合。 0018 可选地，还包括： 0019 根据该待识别的应用程序为非法的应用程序及所属的非法的应用程序。

19、的类别，确定与该待识别的应用程序属于同一类型集合的待识别应用程序，为非法的应用程序及相同的非法的应用程序的类别。 0020 可选地，从各应用程序的安装包中获取表示安装包生成的名称特征，包括： 0021 获取各应用程序的安装包在仿真运行平台上虚拟运行时，确定的表示调用权限名称的权限信息； 0022 获取根据各应用程序的安装包中的开发账号确定的签名信息将应用程序样本集中各应用程序的安装包中开发人员名称确定的签名信息； 0023 获取根据各应用程序的安装包在仿真运行平台上虚拟运行时，由其中的应用程序组件生成的活动名称确定的活动名称信息。 0024 可选地，确定任一待识别的应用。

20、程序分别与各非法的应用程序及其他待识别的应用程序之间的第一相似度，包括： 0025 利用敏感哈希中的Nilsimsa算法将各应用程序的序列特征中的API调用序列统一为相同长度的摘要信息； 0026 通过比对任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用程序之间的摘要信息，得到对应的第一相似度。 0027 可选地，确定任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用程序之间的第二相似度，包括： 0028 利用jaccard集合相似度算法，确定任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用程序之间的第二相似度。 0029 可选地，根据所。

21、述第一相似度与第二相似度，确定任一待识别的应用程序分别与说明书 2/13 页 6 CN 111143833 A 6 各非法的应用程序及其他待识别的应用程序之间的最终相似度，包括： 0030 将第一相似度和第二相似度分别乘以对应的权重并求和，得到任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用程序之间的最终相似度。 0031 可选地，还包括： 0032 根据各非法的应用程序的序列特征，确定各非法的应用程序之间的第一相似度，根据各非法的应用程序的名称特征，确定各非法的应用程序之间的第二相似度； 0033 将任意两个非法的应用程序的第一相似度、第二相似度输入权重优化器。

22、，利用所述权重优化器调整第一相似度和第二相似度的权重，使得对第一相似度和第二相似度加权求和后输出的两个非法的应用程序是否属于同一类别的结果，与应用程序样本集中该两个非法应用程序是否属于同一类别结果一致； 0034 根据所述权值优化器调整结束后的权重，得到第一相似度和第二相似对应的权重。 0035 本发明第二方面提供一种非法应用程序类别识别装置，所述装置包括如下模块： 0036 样本获取模块，用于获取应用程序样本集，所述应用程序样本集包括至少一个识别出类别的非法的应用程序及至少一个待识别的应用程序； 0037 特征获取模块，用于将应用程序样本集中各应用程序在仿真运行平台。

23、上虚拟运行，获取运行时生成的序列特征，所述序列特征中包括表示该应用程序运行时调用的API接口顺序的API调用序列，从各应用程序的安装包中获取表示安装包生成的名称特征； 0038 相似度确定模块，用于根据各应用程序的序列特征，确定任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用程序之间的第一相似度，根据各应用程序的名称特征，确定任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用程序之间的第二相似度； 0039 最终相似度确定模块，用于根据所述第一相似度与第二相似度，确定任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用程序之间的最终相。

24、似度； 0040 应用程序类别确定模块，用于根据所述最终相似度，确定该待识别的应用程序是否为非法的应用程序，及确定为非法的应用程序时，确定所属的非法的应用程序的类别。 0041 应用程序类别确定模块，根据所述最终相似度，确定该待识别的应用程序是否为非法的应用程序，及确定为非法的应用程序时，确定所属的非法的应用程序的类别，包括： 0042 确定与该待识别的应用程序的最终相似度最高的为非法的应用程序，且最高的最终相似度高于设定高阈值时，确定该识别的应用程序为非法的应用程序； 0043 确定与该待识别的应用程序的最终相似度最高的非法的应用程序的类别，为待识别的应用程序。

25、所属的非法的应用程序的类别。 0044 应用程序类别确定模块，根据所述最终相似度，确定该待识别的应用程序是否为非法的应用程序，包括： 0045 确定与该待识别的应用程序的最终相似度最高的为非法的应用程序，且最高的最终相似度低于设定低阈值时，确定待识别的应用程序为合法应用程序。 0046 应用程序类别确定模块，根据所述最终相似度，确定该待识别的应用程序是否为非法的应用程序，包括： 0047 确定与该待识别的应用程序的最终相似度最高的为其他待识别的应用程序时，且说明书 3/13 页 7 CN 111143833 A 7 最高的最终相似度高于设定聚类阈值时，将该待识别的应。

26、用程序与最终相似度最高的其他待识别的应用程序，划分到同一类型集合。 0048 应用程序类别确定模块，还包括： 0049 根据该待识别的应用程序为非法的应用程序及所属的非法的应用程序的类别，确定与该待识别的应用程序属于同一类型集合的待识别应用程序，为非法的应用程序及相同的非法的应用程序的类别。 0050 特征获取模块，从各应用程序的安装包中获取表示安装包生成的名称特征，包括： 0051 获取各应用程序的安装包在仿真运行平台上虚拟运行时，确定的表示调用权限名称的权限信息； 0052 获取根据各应用程序的安装包中的开发账号确定的签名信息将应用程序样本集中各应用程序的安装包中开。

27、发人员名称确定的签名信息； 0053 获取根据各应用程序的安装包在仿真运行平台上虚拟运行时，由其中的应用程序组件生成的活动名称确定的活动名称信息。 0054 相似度确定模块，确定任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用程序之间的第一相似度，包括： 0055 利用敏感哈希中的Nilsimsa算法将各应用程序的序列特征中的API调用序列统一为相同长度的摘要信息； 0056 通过比对任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用程序之间的摘要信息，得到对应的第一相似度。 0057 相似度确定模块，确定任一待识别的应用程序分别与各非法的应用程序及其他。

28、待识别的应用程序之间的第二相似度，包括： 0058 利用jaccard集合相似度算法，确定任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用程序之间的第二相似度。 0059 最终相似度确定模块，根据所述第一相似度与第二相似度，确定任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用程序之间的最终相似度，包括： 0060 将第一相似度和第二相似度分别乘以对应的权重并求和，得到任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用程序之间的最终相似度。 0061 相似度权重确定模块，还包括： 0062 根据各非法的应用程序的序列特征，确定各非法的应用。

29、程序之间的第一相似度，根据各非法的应用程序的名称特征，确定各非法的应用程序之间的第二相似度； 0063 将任意两个非法的应用程序的第一相似度、第二相似度输入权重优化器，利用所述权重优化器调整第一相似度和第二相似度的权重，使得对第一相似度和第二相似度加权求和后输出的两个非法的应用程序是否属于同一类别的结果，与应用程序样本集中该两个非法应用程序是否属于同一类别结果一致； 0064 根据所述权值优化器调整结束后的权重，得到第一相似度和第二相似对应的权重。 0065 本发明第三方面提供一种非法应用程序类别识别装置，所述装置包括处理器和存储器，所述存储器中存储有计算机程序，。

30、所述处理器用于执行所述存储器中的计算机程序，所述计算机程序用于执行本发明第一方面提供的一种非法应用程序类别识别方法。说明书 4/13 页 8 CN 111143833 A 8 0066 本发明第四方面提供一种计算机程序介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令被处理器执行时实现本发明第一方面提供的一种非法应用程序类别识别方法。 0067 利用本发明提供的一种非法应用程序类别识别方法及装置，可以建立一种对于非法应用程序的各方面进行监测的机制，来分析非法应用程序的行为特征，以便更好的确定非法应用程序的类别。附图说明 0068 图1为非法应用程序类别识别方法。

31、的系统示意图； 0069 图2为非法应用程序类别识别方法流程示意图； 0070 图3为非法应用程序识别分类过程示意图； 0071 图4为非法应用程序类别识别方法的完整示意图； 0072 图5为非法应用程序类别识别装置的模块示意图； 0073 图6为非法应用程序类别识别装置的结构示意图。具体实施方式 0074 为使本发明实施例的目的、技术方案和优点更加清楚，为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本。

32、领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。 0075 下面结合说明书附图对本发明实施例作进一步详细描述。应当理解，此处所描述的实施例仅用于说明和解释本发明，并不用于限定本发明。 0076 如图1所示，为一种非法应用程序类别识别方法的系统示意图，在SDK平台101中，存在虚拟运行设备102以及应用程序特征分析设备103； SDK为(Software Development Kit，软件开发工具包)， SDK平台用于运行软件开发工具包，所述软件开发工具包为特定的软件包、软件框架、硬件平台、操作系统等建立应用软件时的开发工。

33、具的集合；虚拟运行设备102中包含应用程序样本集，所述应用程序样本集中包括：至少一个识别出类别的非法的应用程序及至少一个待识别的应用程序，其中识别出类别的非法的应用程序为从 BitDefender(比特梵德， BD)中获取的； BitDefender最重要的功能就是通过监测应用程序和类似病毒的活动确定应用程序的类型，提供删除非法代码的先进启发式技术；从将应用程序样本集中各应用程序在仿真运行平台上虚拟运行，得到应用程序样本集中的各应用对应的序列特征及名称特征。在虚拟运行设备102将应用程序样本集中的各应用对应的序列特征及名称特征发送到应用程序特征分析设备103，应用。

34、程序特征分析设备103根据各应用程序的序列特征确定应用程序样本集中的各样本之间的相似度；应用程序特征分析设备 103根据各样本之间的相似度应用程序是否为非法的应用程序，及确定为非法的应用程序时，确定所属的非法的应用程序的类别。 0077 实施例1 0078 本发明实施例提供一种非法应用程序类别识别方法，所述步骤如图2所示：说明书 5/13 页 9 CN 111143833 A 9 0079 步骤S201，获取应用程序样本集，所述应用程序样本集包括至少一个识别出类别的非法的应用程序及至少一个待识别的应用程序； 0080 其中，由SDK平台获取包含有至少一个识别出类别的非法的。

35、应用程序及至少一个待识别的应用程序的样本集，其中应用程序样本以安装包apk的形式获取上传到SDK平台上， APK(Android application package， Android安装包)是类似SymbianSis或Sisx的文件格式。通过将APK文件直接传到Android模拟器或Android手机中执行即可安装，其安装包同样可以为在其他平台执行安装的exe、 ipa、 sisx、 rpm以及dep等类型安装包； 0081 所述至少一个识别出类别的非法的应用程序包括通过BitDefender得到的已知类别的非法应用程序，该非法的应用程序包括： Fakebank、 Gep。

36、ew、 Gidix、 Fakelnst、 SmSpy、 Bankun、 Misosms、 Telman等非法应用程序类型； 0082 步骤S202，将应用程序样本集中各应用程序在仿真运行平台上虚拟运行，获取运行时生成的序列特征，所述序列特征中包括表示该应用程序运行时调用的API接口顺序的 API调用序列，从各应用程序的安装包中获取表示安装包生成的名称特征； 0083 通过SDK平台的调度程序，将待识别的应用程序以及非法的应用程序在虚拟运行设备102中进行运行，通过对上述各应用程序进行运行，得到该应用程序的序列特征以及名称特征。 0084 具体的，序列特征为应用程序运行时调。

37、用的API接口顺序的API调用序列，因API调用序列不能通过对应用程序的代码分析及包分析提取，仅能通过在虚拟运行设备中执行来获得。对于非法应用程序来说， API调用序列为应用程序攻击虚拟运行设备中API接口的时间顺序；由于应用程序的行为与API调用序列密切相关，利用API调用序列可以推断出应用程序的功能，所述API调用序列为在虚拟运行设备中对各应用程序中的调用接口进行了命名，根据应用程序的调用顺序，对调用接口的名称按顺序排列得到API调用序列，因此，如果获得了API调用序列的相似性，就可以对具有相似功能的应用程序样本进行更高精度的分类。 0085 所述名称特。

38、征主要包括三部分： 0086 1)权限信息，各应用程序在虚拟运行设备中运行时，会获取虚拟运行设备的相关权限，非法应用程序在需要获取虚拟运行设备相关信息及文件时，必然会通过获取设备权限来，得到设备相关信息及文件，因此获得权限数越多，代表该应用程序的危险性更改，所以可以将获取的权限作为根据有目的攻击对相似的应用程序进行分类。 0087 2)签名信息，在安装包中存在图像文件、 XML文件、源代码文件和任何其他文件。由于不同的开发人员的倾向命名文件的规则不同，因此文件名中通常包含开发人员的签名信息。当该开发人员在创建其他的应用程序时，相同的签名信息可能保留在其他的。

39、应用程序包中，因此，文件名中的签名信息可以用来比较应用程序之间的相似性。 0088 3)活动名称信息，在应用程序的运行的活动是有在主要活动上操作，活动的名称 (如文件名)也是由开发人员决定。由于活动还包括应用程序的包名，因此开发人员的签名信息更倾向于活动名而不是文件名。此外，由于活动名称是从外部引用的，当非法的应用程序自动转换其代码时，无法更改对应的活动名称。因此，活动名称同样可以作为比较应用程序之间相似度的方法。 0089 步骤S203，根据各应用程序的序列特征，确定任一待识别的应用程序分别与各非说明书 6/13 页 10 CN 111143833 A 。

40、10 法的应用程序及其他待识别的应用程序之间的第一相似度，根据各应用程序的名称特征，确定任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用程序之间的第二相似度； 0090 所述第一相似度由任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用程序之间的序列特征的相似性确定，其中各应用程序对应的API调用序列的长度应该保持一致，并不应该因细微的内容变化差异而产生显著差异，因此本发明实施例采用局部敏感哈希(Locality Sensitive Hashing， LSH)：局部敏感哈希的基本思想类似于一种空间域转换思想， LSH算法基于一个假设，如果两个文本在。

41、原有的数据空间是相似的，那么分别经过哈希函数转换以后的它们也具有很高的相似度；相反，如果它们本身是不相似的，那么经过转换后它们应仍不具有相似性。所以通过将LSH算法的Nilsimsa哈希算法计算API 调用序列的相似度，各个应用程序样本对应的API序列转化为同一长度的摘要，在实施例中，将摘要长度转化为256位，并将摘要中-11之间的值进行归一化，在归一化之后，通过比较归一化后的摘要，得到各应用程序之间第一相似度。 0091 所述第二相似度由名称特征中的权限信息、签名信息、活动名称信息计算，具体的将权限信息、签名信息、活动名称信息放置到应用程序对应的名称。

42、字符串中，基于jaccard 集合相似度算法，该相似度计算方法为计算两个字符串中包含的各字符名称的交集以及并集，将交集的大小除以并集的大小，得到第二相似度，得到的值介于01之间，相似度为0表示给定的两个集合没有公共字符，相似度为1表示两个集合是等价的。 0092 步骤S204，根据所述第一相似度与第二相似度，确定任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用程序之间的最终相似度； 0093 具体为，根据任一待识别的应用程序与各非法的应用程序之间对应的第一相似度和第二相似度的权重，得到任一待识别的应用程序与各非法的应用程序之间的最终相似度； 0094。

43、根据任一待识别的应用程序与其他待识别的应用程序之间对应的第一相似度和第二相似度的权重，得到任一待识别的应用程序与其他待识别的应用程序之间的最终相似度； 0095 所述第一相似度和第二相似度的权重基于权重优化器得到，其中根据各非法的应用程序的序列特征，确定各非法的应用程序之间的第一相似度，根据各非法的应用程序的名称特征，确定各非法的应用程序之间的第二相似度； 0096 将将任意两个非法的应用程序的第一相似度、第二相似度输入权重优化器，利用所述权重优化器调整第一相似度和第二相似度的权重，使得对第一相似度和第二相似度加权求和后输出的两个非法的应用程序是否属于同一类别的结。

44、果，与应用程序样本集中该两个非法应用程序是否属于同一类别结果一致； 0097 通过设定不同的非法的应用程序对输入次数得到不同的权重，根据不同权重对于应用程序的分类准确性得到第一相似度和第二相似度对应的最优权重。 0098 根据第一相似度以及第二相似度对应的权重，将第一相似度和第二相似度分别乘以对应的权重并求和，得到任一待识别的应用程序与各非法的应用程序之间的最终相似度；以及 0099 根据第一相似度以及第二相似度对应的权重，将第一相似度和第二相似度分别乘说明书 7/13 页 11 CN 111143833 A 11 以对应的权重并求和，得到任一待识别的应用程序与其他待识。

45、别的应用程序之间的最终相似度； 0100 步骤S205，根据所述最终相似度，确定该待识别的应用程序是否为非法的应用程序，及确定为非法的应用程序时，确定所属的非法的应用程序的类别。 0101 判断与任一待识别的应用程序的最终相似度最高的是否为非法的应用程序，当确定与该待识别的应用程序的最终相似度最高的为非法的应用程序，且最高的最终相似度高于设定高阈值时，确定该识别的应用程序为非法的应用程序； 0102 确定与该待识别的应用程序的最终相似度最高的非法的应用程序的类别，为待识别的应用程序所属的非法的应用程序的类别； 0103 确定与该待识别的应用程序的最高最终相似度低于设定。

46、低阈值时，确定该识别的应用程序为合法的应用程序。 0104 作为一种可选的实施方式，确定该待识别的应用程序是否为非法的应用程序，及确定为非法的应用程序时，确定所属的非法的应用程序的类别，还可以为，当确定与该待识别的应用程序的最终相似度最高的为其他待识别的应用程序时，且最高的最终的相似度高于设定的聚类阈值时，将该待识别的应用程序与最终相似度最高的其他待识别的应用程序，划分到同一类型集合。 0105 所述聚类阈值是基于K-fold交叉验证进行预测。为了在多种阈值情况下获得更好的精度，根据聚类阈值设定的不同(80-95)来测量精度，重复分类实验，确定最优阈值。。

47、阈值从80依次增加到95，随着每个阈值的增大，准确度会随之提升但对于待分类的应用程序的聚类效果会变差，因为本发明所使用的非法应用程序样本数量较少，因此通过K- fold交叉验证来进行这一实验，以补充样本的不足，基于K-fold中的K与迭代次数的设置，得到最优的聚类阈值，在最优的聚类阈值下对于同一类型集合的分类类别的准确度最高。 0106 根据该待识别的应用程序为非法的应用程序及所属的非法的应用程序的类别，确定与该待识别的应用程序属于同一类型集合的待识别应用程序，为非法的应用程序及相同的非法的应用程序的类别。 0107 具体的，根据与该待识别的应用程序的最终相似度最高。

48、的为的其他待识别的应用程序，且所述最终相似度高于上述经过K-fold交叉验证得到的最优的聚类阈值，将该待识别应用程序与对应的其他待识别的应用程序，划分到同一类型集合中，根据该类型集合中所属的已知的非法应用程序的类别，确定该类型集合中的待识别应用程序，均为该已知的非法应用程序的类别。 0108 如图3所示，如待识别样本A在应用程序样本集中与待识别样本B的最终相似度最高，且高于最优的聚类阈值，则将该待识别样本A与待识别样本B划分为同一类型的集合中，此外待识别样本C在应用程序样本集中与待识别样本B的最终相似度最高，则将该待识别样本C与待识别样本B划分为同一类型的集合。

49、中，且该待识别样本在非法应用程序判断中，已确定待识别样本B与已知类型为Fakebank非法应用程序D的最终相似度最高，则判断该类型的集合为Fakebank类型的类型集合，其中的待识别样本A、 B、 C均为Fakebank类型的非法应用程序。 0109 最终，根据在应用程序样本集中各应用程序的最终相似度关系以及应用程序的类型，生成表示各应用程序相似关系以及类别的应用程序类别分类图,以便于更加明确的显说明书 8/13 页 12 CN 111143833 A 12 示各待识别应用程序的类别。 0110 如图4所示，为一种非法应用程序类别识别方法的完整步骤， 0111 步骤S4。

50、01，获取应用程序样本集至SDK平台中； 0112 步骤S402，将应用程序样本集中各应用程序在仿真运行平台上虚拟运行，获取运行时生成的序列特征，并从各应用程序的安装包中获取名称特征； 0113 步骤S403，根据序列特征以及名称特征确定，应用程序样本集中任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用程序之间的第一相似度、第二相似度； 0114 步骤S404，根据第一相似度和第二相似度的对应权重得到任一待识别的应用程序分别与各非法的应用程序及其他待识别的应用程序之间的最终相似度； 0115 步骤S405，判断与任一待识别的应用程序最终相似度最高的应用程序。

展开阅读全文

内容关键字: 非法应用程序类别识别方法装置