基于关键词频度分析的中文网页分类方法.pdf

上传人：111****11

文档编号：1025400

上传时间：2018-03-26

格式：PDF

页数：11

大小：468.68KB

《基于关键词频度分析的中文网页分类方法.pdf》由会员分享，可在线阅读，更多相关《基于关键词频度分析的中文网页分类方法.pdf（11页完整版）》请在专利查询网上搜索。

一种基于关键词频度分析的中文网页分类方法，是根据所分析出的中文网页的关键词，依照中文分类主题词库进行中文网页分类模糊匹配，通过首先获取到网页的HTML源码，对网页进行预处理。通过测试和分析，利用正则表达式过滤器对噪音信息进行过滤，并提取出网页的中文文本，接着通过分词器和关键词频度分析器来将所提取的中文文本信息进行分词，通过该词在文本中的权重排序，通过网页模糊分类算法，得到该网页关键词所属类别的类别。

摘要
申请专利号：	CN200910031625.3	申请日：	2009.06.19
公开号：	CN101593200A	公开日：	2009.12.02
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	淮海工学院
发明人：	掌明; 垄成龙; 卢艳宏; 冯源; 杨瑞; 王攀
地址：	222005江苏省连云港市新浦区苍梧路57号淮海工学院电子工程学院掌明转
优先权：
专利代理机构：	南京众联专利代理有限公司	代理人：	王彦明
PDF完整版下载：	PDF下载

内容摘要

一种基于关键词频度分析的中文网页分类方法，是根据所分析出的中文网页的关键词，依照中文分类主题词库进行中文网页分类模糊匹配，通过首先获取到网页的HTML源码，对网页进行预处理。通过测试和分析，利用正则表达式过滤器对噪音信息进行过滤，并提取出网页的中文文本，接着通过分词器和关键词频度分析器来将所提取的中文文本信息进行分词，通过该词在文本中的权重排序，通过网页模糊分类算法，得到该网页关键词所属类别的类别排名，取其中前几位，进行隶属率的计算，得出该网页的所属类别的模糊匹配结果。有利于高效的组织网络上海量信息，用于互联网用户兴趣度分析；搜索引擎目录更新；Web内容挖掘；在线文档管理；数字图书馆建设。

权利要求书

1、一种基于关键词频度分析的中文网页分类方法，其特征在于根据所分析出的中文网页的关键词，依照中文分类主题词库进行中文网页分类模糊匹配，其步骤为：
1)根据用户所输入的网址URL获取中文网页的HTML源码，对所获取的源码进行过滤和去噪，提取该网页中的中文文本；
2)利用分词器对所提取出的中文文本进行分词操作，得到中文网页的分词后文本；
3)通过关键词频度分析器，对该中文网页的分词后文本主要内容的关键词进行提取，并按照关键词权重对关键词进行排序；
4)初始化数据表；该数据表是用于存储文本关键词和关键词所对应的类别，其中初始类别依据中图分类法得到，同时依据关键词类别设定训练集即事先准备好的已知分类的网页，在查找具体的网页时将未知分类网页同训练集进行比较计算，得到同训练集中最相似的类别作为需要查找的类别；关键词按照前一步骤所得出的权重进行排序，录入至数据表；
5)按照上述数据表中关键词的顺序进入分类主题词库进行查找；
6)判断分类主题词表中该关键词出现时所在的类别，如果分类主题词表中存在匹配的关键词和类别，则转入下一步骤7)；如果分类主题词表中不存在该关键词，则转到上一步骤5)；
7)将每个关键词查找的类别结果计入数据表的类别项中；
8)对数据表中的类别信息进行统计，分析出对该中文网页隶属率最高的不少于3个类别；
9)保存并输出分类结果。

2、根据权利要求1所述的基于关键词频度分析的中文网页分类方法，其特征在于提取网页中的中文文本的方法在于通过阈值对比对网页的类型进行判断，利用正则表达式过滤器对噪音信息进行过滤，并提取出网页的中文文本，该方法的步骤为：
(a)依照所获得的网页源码得到该网页的标签树；
(b)通过和标准网页的相关阈值对比，确定该网页的类型，网页类型包括主题型、链接型和图片型三种；
(c)判断网页是否为主题型网页，如果是主题型网页则转到步骤d)；如果不是主题型网页，则转到步骤e)；
(d)根据主题型网页主题的相关度计算，提取出网页主题内容块；
(e)利用基于标记的正则表达式过滤器对网页的噪音信息进行过滤；
(f)提取网页的中文文本。

说明书

基于关键词频度分析的中文网页分类方法
技术领域
本发明是针对中文网页关键词频度分析和基于关键词频度分析的网页分类方法的研究，主要研究如何通过技术手段对中文网页的内容进行过滤提取、分词和网页关键词的频度分析，并研究了如何通过带有权重的中文网页关键词对网页进行分类的方法，涉及网页自动获取、中文网页预处理、中文分词及关键词频度分析、中文网页模糊分类等技术领域。
背景技术
随着Internet技术和Web技术的高速发展，Internet上网页的数量正在不断的增加。网络信息的增加大大方便了人们获取信息，但是过大的信息量也给人们处理信息带来了很多的困难。在这一背景下，传统靠人工的信息处理方式已经无法适应大量数据处理的要求。如何在海量的信息中过滤掉用户反感的信息，并将用户感兴趣的信息提取出来，实现信息的主动推送，同时保证人们在信息选择方面的个人隐私权利，逐渐成为大家所关注的研究点。中文网页种类繁多，通常包含很多的“噪音”信息，一个网页甚至会包含多个主题。获取网页中的有效文本内容，并对网页的海量数据进行自动分类，是组织和管理网络资源的关键。因此对中文网页的内容进行关键词频度的分析，并基于关键词频度的分析对中文网页进行分类就显得非常必要。
针对中文网页进行关键词频度分析和网页分类有一定的难度，主要体现在：
第一、中文网页使用中文进行编辑，不像英文单词之间存在空格，需要对中文进行分词处理，分词的效果直接影响到关键词的分析和网页分类的结果。
第二、中文网页包含大量的“噪音”，很多网页的编写没有规范，包含很多的广告、注释以及其他信息，需要对网页
进行预处理，进化网页内容，提取用户感兴趣的信息。
第三、现今大部分对中文网页分类的研究集中在通过对中文网页进行特征选取和向量表示，利用KNN分类算法，对网页进行分类，该方法实现网页分类时间代价和复杂性高。
发明内容
本发明要解决的技术问题是针对现有技术的不足，提出了能快速掌握网页的关键信息及其所属类别，从而有利于高效的组织网络上海量信息的一种基于关键词频度分析的中文网页分类方法。
本发明要解决的技术问题是通过以下技术方案来实现的，一种基于关键词频度分析的中文网页分类方法，其特点是根据所分析出的中文网页的关键词，依照中文分类主题词库进行中文网页分类模糊匹配，其步骤为：
1)根据用户所输入的网址URL获取中文网页的HTML源码，对所获取的源码进行过滤和去噪，提取该网页中的中文文本；
2)利用分词器对所提取出的中文文本进行分词操作，得到中文网页的分词后文本；
3)通过关键词频度分析器，对该中文网页的分词后文本主要内容的关键词进行提取，并按照关键词权重对关键词进行排序；
4)初始化数据表；该数据表是用于存储文本关键词和关键词所对应的类别，其中初始类别依据中图分类法得到，同时依据关键词类别设定训练集即事先准备好的已知分类的网页，在查找具体的网页时将未知分类网页同训练集进行比较计算，得到同训练集中最相似的类别作为需要查找的类别；关键词按照前一步骤所得出的权重进行排序，录入至数据表；
5)按照上述数据表中关键词的顺序进入分类主题词库进行查找；
6)判断分类主题词表中该关键词出现时所在的类别，如果分类主题词表中存在匹配的关键词和类别，则转入下一步骤7)；
如果分类主题词表中不存在该关键词，则转到上一步骤5)；
7)将每个关键词查找的类别结果计入数据表的类别项中；
8)对数据表中的类别信息进行统计，分析出对该中文网页隶属率最高的不少于3个类别；
9)保存并输出分类结果。
本发明要解决的技术问题还可以通过以下技术方案来进一步实现，特征在于提取网页中的中文文本的方法在于通过阈值对比对网页的类型进行判断，利用正则表达式过滤器对噪音信息进行过滤，并提取出网页的中文文本，该方法的步骤为：
(a)依照所获得的网页源码得到该网页的标签树；
(b)通过和标准网页的相关阈值对比，确定该网页的类型，网页类型包括主题型、链接型和图片型三种；
(c)判断网页是否为主题型网页，如果是主题型网页则转到步骤d)；如果不是主题型网页，则转到步骤e)；
(d)根据主题型网页主题的相关度计算，提取出网页主题内容块；
(e)利用基于标记的正则表达式过滤器对网页的噪音信息进行过滤；
(f)提取网页的中文文本；
本发明基于关键词频度分析的中文网页分类方法主要包含网页中文提取部分、中文分词及关键词频度分析部分和中文网页分类模糊匹配部分。其中网页中文提取部分涉及到基于内容规则的网页中文提取方法。通过首先获取到网页的HTML源码，对网页进行预处理。通过测试和分析，发现网页中包括各种标签、脚本语言代码、广告及图片链接、设计人员注释、函数声明以及版权信息等冗余的信息。与主题无关的噪音信息会对网页正文内容的提取的速度和精度造成很大影响，有必要进行去除。在提取出网页的标签树以后，我们通过阈值对比的方法判断出网页的类型，当是主题型网页的时候我们采用一种基于标记的正则表达式匹配过滤器来过滤掉网页中的非主题信息。通过几层的过滤器过滤之后，再提取出网页中的中文文本信息。接着通过分词器和关键词频度分析器来将所提取的中文文本信息进行分词，通过该词在文本中的权重，得到按权重排名的关键词排序，至此表达该网页主题的关键词已经分析出来。之后，将所得出的关键词排序结果和我们的分类主题词库进行匹配，存入一张由该网页关键词和所属类别构成的数据表中，通过网页模糊分类算法，得到该网页关键词所属类别的类别排名，取其中前几位，进行隶属率的计算，最终可以得出该网页的所属类别的模糊匹配结果。
基于关键词频度分析的中文网页分类方法能快速掌握网页的关键信息及其所属类别，从而有利于高效的组织网络上海量信息，具有广泛的意义和应用价值。主要可以应用在：互联网用户兴趣度分析；搜索引擎目录更新；Web内容挖掘；在线文档管理；数字图书馆建设。
具体实施方式
一种基于关键词频度分析的中文网页分类方法，是根据所分析出的中文网页的关键词，依照中文分类主题词库进行中文网页分类模糊匹配，其步骤为：
1)根据用户所输入的网址URL获取中文网页的HTML源码，对所获取的源码进行过滤和去噪，提取该网页中的中文文本；
目的是实现对各类编码的中文网页进行预处理，去除与主题无关的噪音信息，包括各种标签、脚本语言代码、广告及图片链接、设计人员注释、函数声明以及版权信息等冗余的信息。与主题无关的噪音信息会对网页正文内容的提取的速度和精度造成很大影响，有必要进行去除。
2)利用分词器对所提取出的中文文本进行分词操作，得到中文网页的分词后文本；
3)通过关键词频度分析器，对该中文网页分词后文本的主要内容的关键词进行提取，并按照关键词权重对关键词进行排序；
4)初始化数据表：该数据表是用于存储文本关键词和关键词所对应的类别，其中初始类别依据中图分类法得到，同时依据关键词类别设定训练集即事先准备好的已知分类的网页，在查找具体的网页时将未知分类网页同训练集进行比较计算，得到同训练集中最相似的类别作为需要查找的类别；关键词按照前一步骤所得出的权重进行排序，录入至数据表；为了提高效率，一般取关键词排序的前项100项就够了，大于100项取100项作为上限值，小于100项则按原关键词数目录入；
5)按照上述数据表中关键词的顺序进入分类主题词库进行查找；
6)判断分类主题词表中该关键词出现时所在的类别，如果分类主题词表中存在匹配的关键词和类别，则转入下一步骤7)；如果分类主题词表中不存在该关键词，则转到上一步骤5)；
7)将每个关键词查找的类别结果计入数据表的类别项中；
8)对数据表中的类别信息进行统计，分析出对该中文网页隶属率最高的不少于3个类别；
9)保存并输出分类结果。
基于内容规则的提取网页中的中文文本的方法，在于通过阈值对比对网页的类型进行判断，利用正则表达式过滤器对噪音信息进行过滤，并提取出网页的中文文本，该方法的步骤为：
(a)依照所获得的网页源码得到该网页的标签树；
(b)通过和标准网页的相关阈值对比，确定该网页的类型，网页类型包括主题型、链接型和图片型三种；
(c)判断网页是否为主题型网页，如果是主题型网页则转到步骤d)；如果不是主题型网页，则转到步骤e)；
(d)根据主题型网页主题的相关度计算，提取出网页主题内容块；
(e)利用基于标记的正则表达式过滤器对网页的噪音信息进行过滤；
(f)提取网页的中文文本；
首先数据采集层
功能：该层面提供根据用户所输入的URL获取中文网页的HTML源码，对所获取的源码进行过滤和去噪，以及提取该网页中的中文字符的技术。目的是实现对各类编码的中文网页进行预处理，并提取相应的中文文本。
接口：该层面与上一层的接口为通过流读写得到的中文文本流，为上一层提供输入数据。
该层主要包括基于关键词频度分析的中文网页分类方法中的一个部分：网页过滤以及中文提取部分。
其次数业务逻辑层
功能：该层面提供对中文文本的分词和根据分词结果进行关键词分析的工作。目的是对中文网页的中文文本内容进行分词，并依照相应算法对分词结果进行关键词频度的分析。
接口：该层面与上一层的接口为中文网页按照频度排序的关键词表，通过该表进一步实现中文网页分类模糊匹配。
该层主要包括基于关键词频度分析的中文网页分类方法中的两个部分：中文分词及关键词频度分析部分和中文网页分类模糊匹配部分。
最后表示层：该层面主要提供用户的输入和各个部分结果的反馈。
根据本发明设计的关键词频度分析中文网页分类系统在项目中得到了具体的验证。系统使用VS2005进行了前台的开发，SQLServer2005数据库进行后台协作，利用C#语言实现各项功能。用户在系统首页面输入相应网址的URL，按步骤操作即可分别得到该网页的HTML源码，所提取的网页中文文本，该网页的关键词按频度排序结果以及该网页的分类结果。系统所采用的分类主题词库是以《国家自然科学基金申请项目分类目录及代码》为框架，依照现有学科术语及常用语进行扩充得到的。在系统的测试网页达到800篇的时候，归类准确率封闭测试为71.2％，具有实际的应用价值。