《基于关键词频度分析的中文网页分类方法.pdf》由会员分享,可在线阅读,更多相关《基于关键词频度分析的中文网页分类方法.pdf(11页完整版)》请在专利查询网上搜索。
一种基于关键词频度分析的中文网页分类方法,是根据所分析出的中文网页的关键词,依照中文分类主题词库进行中文网页分类模糊匹配,通过首先获取到网页的HTML源码,对网页进行预处理。通过测试和分析,利用正则表达式过滤器对噪音信息进行过滤,并提取出网页的中文文本,接着通过分词器和关键词频度分析器来将所提取的中文文本信息进行分词,通过该词在文本中的权重排序,通过网页模糊分类算法,得到该网页关键词所属类别的类别。