《钓鱼网站特性自学习挖掘方法及系统.pdf》由会员分享,可在线阅读,更多相关《钓鱼网站特性自学习挖掘方法及系统.pdf(6页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103577449 A (43)申请公布日 2014.02.12 CN 103577449 A (21)申请号 201210269274.1 (22)申请日 2012.07.30 G06F 17/30(2006.01) G06F 21/55(2013.01) (71)申请人 珠海市君天电子科技有限公司 地址 519015 广东省珠海市吉大景山路莲山 巷 8 号 申请人 北京金山安全软件有限公司 贝壳网际 (北京) 安全技术有限公司 北京金山网络科技有限公司 (72)发明人 彭仁诚 潘建波 徐鸣 (74)专利代理机构 广州新诺专利商标事务所有 限公司 44100 代理人。
2、 张奇洲 华辉 (54) 发明名称 钓鱼网站特性自学习挖掘方法及系统 (57) 摘要 本发明属于计算机防御技术领域, 具体公开 了一种钓鱼网站特性自学习挖掘方法及系统。该 方法以下步骤 : 根据已有的钓鱼网站数据库和安 全网站数据库中存储的 URL, 获取各个网站的页 面内容 ; 将每个网站的网页内容拆分为多个单 词 ; 根据公式计算出各个单词在钓鱼网站数据库 和安全网站数据库中出现的概率 ; 若第一单词在 钓鱼网站数据库中出现的概率大于预设的第一概 率且在安全网站数据库中出现的概率小于预设的 第二概率, 则将该单词添加进一黑词数据库中。 该 系统包括与方法对应的网页内容获取模块、 网页 内容。
3、拆分模块、 概率计算模块、 以及黑词数据添加 模块。 通过本发明, 可以更佳准确找出钓鱼网站的 用词特征, 进一步提高钓鱼网站的检测准确率, 保 障了用户的使用安全。 (51)Int.Cl. 权利要求书 1 页 说明书 3 页 附图 1 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书1页 说明书3页 附图1页 (10)申请公布号 CN 103577449 A CN 103577449 A 1/1 页 2 1. 一种钓鱼网站特性自学习挖掘方法, 其特征在于包括以下步骤 : 根据已有的钓鱼网站数据库和安全网站数据库中存储的 URL, 获取各个网站的页面内 容 ; 将每个。
4、网站的网页内容拆分为多个单词 ; 根据以下公式计算出各个单词在钓鱼网站数据库和安全网站数据库中出现的概率 : P1=X/M、 P2=Y/N, 其中, P1 为单词在钓鱼网站数据库中出现的概率, 其中, P2 为单词在安全网站数据库中出现的概率, 其中, X 为包含有该单词的钓鱼网站数目, 其中, M 为钓鱼网站数据库中包含的钓鱼网站数目, 其中, Y 为包含有该单词的安全网站数目, 其中, N 为安全网站数据库中包含的安全网站数目 ; 若第一单词在钓鱼网站数据库中出现的概率大于预设的第一概率且在安全网站数据 库中出现的概率小于预设的第二概率, 则将该单词添加进一黑词数据库中。 2. 根据权利要。
5、求 1 所述的方法, 其特征在于 : 所述预设的第一概率为 80%, 所述预设的第二概率为 10%。 3. 一种钓鱼网站特性自学习挖掘系统, 其特征在于包括 : 网页内容获取模块, 用于根据已有的钓鱼网站数据库和安全网站数据库中存储的 URL, 获取各个网站的页面内容 ; 网页内容拆分模块, 用于将每个网站的网页内容拆分为多个单词 ; 概率计算模块, 用于根据以下公式计算出各个单词在钓鱼网站数据库和安全网站数据 库中出现的概率 : P1=X/M、 P2=Y/N, 其中, P1 为单词在钓鱼网站数据库中出现的概率, 其中, P2 为单词在安全网站数据库中出现的概率, 其中, X 为包含有该单词的。
6、钓鱼网站数目, 其中, M 为钓鱼网站数据库中包含的钓鱼网站数目, 其中, Y 为包含有该单词的安全网站数目, 其中, N 为安全网站数据库中包含的安全网站数目 ; 黑词数据添加模块, 若第一单词在钓鱼网站数据库中出现的概率大于预设的概率且在 安全网站数据库中出现的概率小于预设的概率, 则将该单词添加进一黑词数据库中。 4. 根据权利要求 1 所述的系统, 其特征在于 : 所述预设的第一概率为 80%, 所述预设的第二概率为 10%。 权 利 要 求 书 CN 103577449 A 2 1/3 页 3 钓鱼网站特性自学习挖掘方法及系统 技术领域 0001 本发明属于计算机防御技术领域, 具体。
7、涉及一种钓鱼网站特性自学习挖掘方法及 系统。 背景技术 0002 钓鱼网站是一种网络欺诈行为, 指不法分子利用各种手段, 仿冒真实网站的 URL 地址以及页面内容, 或者利用真实网站服务器程序上的漏洞在站点的某些网页中插入危险 的 HTML 代码, 以此来骗取用户银行或信用卡账号、 密码等私人资料或者让消费者直接以支 付的方式将钱汇入骗子的银行账户中, 严重地影响了在线金融服务、 电子商务的发展, 危害 公众利益, 影响公众应用互联网的信心。 0003 为了预防钓鱼网站的危害, 现有技术建立了钓鱼网站数据库和安全网站数据库, 用于判断网站的安全性质, 所述的钓鱼网站数据库中存储有已经确认的钓鱼。
8、网站的网址 URL, 所述的安全网站数据库中存储有已经确认的安全网站的网址 URL。 0004 上述防范方法其核心在于钓鱼网站数据库和安全网站数据库的及时更新, 其关键 在于钓鱼网站的判断和收集, 现有的判断方法主要还通过人为判断和特征过滤的方式, 特 征过滤法主要关键是建立钓鱼网站的特征数据库, 现有的钓鱼网站特征数据库的建立通常 是通过数学建模的方式, 其方式复杂而且其钓鱼网站检出率不一定高。 发明内容 0005 为了解决上述问题, 本发明的目的在于提供一种钓鱼网站特性自学习挖掘方法及 系统, 以更佳准确找出钓鱼网站的用词特征。 0006 为了实现上述发明目的, 本发明采用的技术方案如下 。
9、: 0007 一种钓鱼网站特性自学习挖掘方法, 包括以下步骤 : 0008 根据已有的钓鱼网站数据库和安全网站数据库中存储的 URL, 获取各个网站的页 面内容 ; 0009 将每个网站的网页内容拆分为多个单词 ; 0010 根据以下公式计算出各个单词在钓鱼网站数据库和安全网站数据库中出现的概率 : 0011 P1=X/M、 P2=Y/N, 0012 其中, P1 为单词在钓鱼网站数据库中出现的概率, 0013 其中, P2 为单词在安全网站数据库中出现的概率, 0014 其中, X 为包含有该单词的钓鱼网站数目, 0015 其中, M 为钓鱼网站数据库中包含的钓鱼网站数目, 0016 其中,。
10、 Y 为包含有该单词的安全网站数目, 0017 其中, N 为安全网站数据库中包含的安全网站数目 ; 0018 若第一单词在钓鱼网站数据库中出现的概率大于预设的第一概率且在安全网站 数据库中出现的概率小于预设的第二概率, 则将该单词添加进一黑词数据库中。 说 明 书 CN 103577449 A 3 2/3 页 4 0019 进一步的, 所述预设的第一概率为 80%, 所述预设的第二概率为 10%。 0020 一种钓鱼网站特性自学习挖掘系统, 包括 : 0021 网页内容获取模块, 用于根据已有的钓鱼网站数据库和安全网站数据库中存储的 URL, 获取各个网站的页面内容 ; 0022 网页内容拆。
11、分模块, 用于将每个网站的网页内容拆分为多个单词 ; 0023 概率计算模块, 用于根据以下公式计算出各个单词在钓鱼网站数据库和安全网站 数据库中出现的概率 : P1=X/M、 P2=Y/N, 0024 其中, P1 为单词在钓鱼网站数据库中出现的概率, 0025 其中, P2 为单词在安全网站数据库中出现的概率, 0026 其中, X 为包含有该单词的钓鱼网站数目, 0027 其中, M 为钓鱼网站数据库中包含的钓鱼网站数目, 0028 其中, Y 为包含有该单词的安全网站数目, 0029 其中, N 为安全网站数据库中包含的安全网站数目 ; 0030 黑词数据添加模块, 若第一单词在钓鱼网。
12、站数据库中出现的概率大于预设的概率 且在安全网站数据库中出现的概率小于预设的概率, 则将该单词添加进一黑词数据库中。 0031 进一步的, 所述预设的第一概率为 80%, 所述预设的第二概率为 10%。 0032 URL, 英语 Uniform/Universal Resource Locator 的缩写, 翻译为统一资源定位 符, 也被称为网页地址, 是因特网上标准的资源的地址 (Address)。 0033 本发明根据已有的钓鱼网站数据库和安全网站数据库, 获取各个单词在钓鱼网站 数据库和安全网站数据库中出现的概率, 然后根据该单词在网站中出现的概率来判定该词 是否为黑词, 所谓的黑词即是。
13、钓鱼网站通常会出现的词语, 也即是钓鱼网站的特征之一。 0034 由于本发明最后得到的黑词数据库, 是在现有钓鱼网站数据库和安全网站数据库 基础上学习发掘出来的, 此特征将能够更准确判断一个网站是否为钓鱼网站, 进一步提高 钓鱼网站的检测准确率, 保障了用户的使用安全。 附图说明 0035 此附图说明所提供的图片用来辅助对本发明的进一步理解, 构成本申请的一部 分, 并不构成对本发明的不当限定, 在附图中 : 0036 图 1 是本发明方法对应的流程图 ; 0037 图 2 是本发明系统对应的框图。 具体实施方式 0038 如图 1 所示, 本实施例公开了一种钓鱼网站特性自学习挖掘方法, 包括。
14、以下步骤 : 0039 Step1 : 根据已有的钓鱼网站数据库和安全网站数据库中存储的 URL, 获取各个网 站的页面内容 ; 所谓的钓鱼网站数据库, 是其中存储有已经确认的钓鱼网站的网址 URL 的 数据库 ; 所述的安全网站数据库, 是其中存储有已经确认的安全网站的网址 URL 的数据库 ; URL 就是网址, 通过网址获取网页内容的常规方法很多, 比如通过浏览器在互联网上下载网 页内容 ; 0040 Step2 : 将每个网站的网页内容拆分为多个单词, 具体可以将网页内容保存为文本 说 明 书 CN 103577449 A 4 3/3 页 5 文档的格式, 然后根据已有的汉语数据库和汉。
15、语规则将其进行拆分 ; 0041 Step3 : 根据以下公式计算出各个单词在钓鱼网站数据库和安全网站数据库中出 现的概率 : 0042 P1=X/M、 P2=Y/N, 0043 其中, P1 为单词在钓鱼网站数据库中出现的概率, 0044 其中, P2 为单词在安全网站数据库中出现的概率, 0045 其中, X 为包含有该单词的钓鱼网站数目, 0046 其中, M 为钓鱼网站数据库中包含的钓鱼网站数目, 0047 其中, Y 为包含有该单词的安全网站数目, 0048 其中, N 为安全网站数据库中包含的安全网站数目 ; 0049 Step4 : 若第一单词在钓鱼网站数据库中出现的概率大于预设。
16、的第一概率且在安 全网站数据库中出现的概率小于预设的第二概率, 则将该单词添加进一黑词数据库中 ; 所 述预设的第一概率为 80%, 所述预设的第二概率为 10%。 0050 按照上述方法, 如果一个词在钓鱼网站数据库中出现的概率远大于在安全网站数 据库中出现的概率, 说明该词语很可能经常被钓鱼网站使用, 那么该词语可以作为判断钓 鱼网站的特征之一, 将其添加到黑词数据库中, 以供判断调用。 0051 如图 2 所示, 本实施例还公开了一种钓鱼网站特性自学习挖掘系统, 包括 : 0052 网页内容获取模块 1, 用于根据已有的钓鱼网站数据库和安全网站数据库中存储 的 URL, 获取各个网站的页。
17、面内容 ; 0053 网页内容拆分模块 2, 用于将每个网站的网页内容拆分为多个单词 ; 0054 概率计算模块 3, 用于根据以下公式计算出各个单词在钓鱼网站数据库和安全网 站数据库中出现的概率 : P1=X/M 、 P2=Y/N, 0055 其中, P1 为单词在钓鱼网站数据库中出现的概率, 0056 其中, P2 为单词在安全网站数据库中出现的概率, 0057 其中, X 为包含有该单词的钓鱼网站数目, 0058 其中, M 为钓鱼网站数据库中包含的钓鱼网站数目, 0059 其中, Y 为包含有该单词的安全网站数目, 0060 其中, N 为安全网站数据库中包含的安全网站数目 ; 006。
18、1 黑词数据添加模块 4, 若第一单词在钓鱼网站数据库中出现的概率大于预设的概 率且在安全网站数据库中出现的概率小于预设的概率, 则将该单词添加进一黑词数据库 中 ; 所述预设的第一概率为 80%, 所述预设的第二概率为 10%。 0062 需要说明的是, 上述第一概率和第二概率的具体数字是通过一个优选数值, 并不 代表对本发明的限定。 0063 通过上述方法或者系统, 从已有钓鱼网站数据库和安全数据库中学习和挖掘出了 钓鱼网站的重要特征。 0064 以上详细描述了本发明的较佳具体实施例, 应当理解, 本领域的普通技术无需创 造性劳动就可以根据本发明的构思做出诸多修改和变化。因此, 凡本技术领域中技术人员 依本发明构思在现有技术基础上通过逻辑分析、 推理或者根据有限的实验可以得到的技术 方案, 均应该在由本权利要求书所确定的保护范围之中。 说 明 书 CN 103577449 A 5 1/1 页 6 图 1 图 2 说 明 书 附 图 CN 103577449 A 6 。