《一种面向学科领域的新专业词汇识别方法.pdf》由会员分享,可在线阅读,更多相关《一种面向学科领域的新专业词汇识别方法.pdf(12页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 101950309 A (43)申请公布日 2011.01.19 CN 101950309 A *CN101950309A* (21)申请号 201010299588.7 (22)申请日 2010.10.08 G06F 17/30(2006.01) G06F 17/27(2006.01) (71)申请人 华中师范大学 地址 430079 湖北省武汉市武昌区珞瑜路 152 号 (72)发明人 刘清堂 黄涛 刘瑶瑶 黄焕 吴林静 (74)专利代理机构 武汉天力专利事务所 42208 代理人 吴晓颖 冯卫平 (54) 发明名称 一种面向学科领域的新专业词汇识别方法 (57)。
2、 摘要 本发明属于计算机应用和自然语言处理领 域, 提供一种面向学科领域的新专业词汇识别方 法, 其原理是将初始文档经过文本预处理、 新词串 统计、 垃圾词串过滤和结果排序等步骤后, 输出从 文中发现的新词语, 本发明可以较好地发现学科 领域的专业术语, 并对结果进行排序, 弥补了现有 算法的不足, 更有利于人们把握这个学科的发展 动向和核心价值。 (51)Int.Cl. (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 2 页 说明书 6 页 附图 3 页 CN 101950312 A1/2 页 2 1. 一种面向学科领域的新专业词汇识别方法, 该方法使用的硬件部分包括。
3、文本预处理 部件、 基于贪婪的原子词汇构词法的新词串构建与统计部件、 垃圾词串过滤部件、 重复子串 筛选部件、 新专业词汇提炼和结果排序部件, 其特征在于该方法包括以下步骤 : (1) 文本预处理部件对文本格式进行转换, 进行文本清洗、 去除噪音文字, 再抽取出文 中用特殊符号标志的长度不大于 10 的词串, 形成候选新词表 1 ; (2) 基于贪婪的原子词汇构词法的新词串构建与统计部件首先对经过上述文本预处理 后的内容进行分词, 然后按照词性去除不能构词的词语, 再采用原子词汇构词法对文中的 候选词串进行统计, 形成候选新词表 2 ; (3) 垃圾词串过滤部件针对领域特点对候选新词表进行过滤。
4、, 过滤掉不符合领域特点 的部分 ; (4) 重复子串筛选部件利用频率相减法对包含有相同内容的重复子串进行筛选 ; (5) 新专业词汇提炼和结果排序部件先借助领域词汇库的热点词根来筛选掉部分垃圾 词串, 生成新词表, 再通过排序算法计算所发现的每个新词的序值对结果进行排序 ; 其中领 域词汇库是从专业领域文献、 教材、 资料等中预先分拣出的属于该专业领域的词所组成的。 2. 根据权利要求 1 所述的一种面向学科领域的新专业词汇识别方法, 其特征在于 : 步 骤 (1) 中所述的文本预处理部件包括格式转换模块、 文档清洗模块和具有特殊符号标志的 词串抽取模块 ; 其中格式转换模块是把其他格式的文。
5、档全部转换为便于处理的 TXT 格式 ; 文档清洗模块是去除文中的无用信息, 包括图形图像、 图表、 作者信息和参考文献 ; 具有特 殊符号标志的词串抽取模块是指抽取出用 “” 、 、() 、 标记的长度不大于 10 的内容。 3. 根据权利要求 1 所述的一种面向学科领域的新专业词汇识别方法, 其特征在于步骤 (2) 中所述的基于贪婪的原子词汇构词法的新词串构建与统计部件的具体工作步骤如下 : (2-1) 用基于通用词库的分词系统对所有文章进行分词, 并做好词性标注 ; 分词结果 中, 词与词之间用空格隔开, 标点符号和停用词都去掉, 在其所在的位置用 “#” 代替 ; 所述 通用词库的分词。
6、系统为中国科学院的 ICTCLAS 系统、 哈尔滨工业大学统计分词系统或者 SEG 分词系统和 SEGTAG 系统 ; (2-2) 对于分词结果, 考虑到现代汉语中有很多不具有构词能力或者构词能力较弱的 词语, 而这些词语多是助词、 介词、 代词、 叹词、 副词、 连词、 语气词、 方位词、 时间词、 数词、 拟 声词、 成语, 所以将属于这些词性的词语直接从分词结果中删除 ; (2-3) 对处理过后的分词结果, 使用原子词汇构词法进行候选新词串统计, 将可能构成 新词的候选词串全部写进候选新词表 2 中 ; 具体实现过程如下 : (2-3-1) 针对分词结果, 以 “#/” 为分隔符将全文切。
7、分成一个个字符串, 并去掉只包含有 一个词语的字符串 ; (2-3-2) 对每个字符串从后向前进行扫描, 每次以一个词语作为一个扫描单位, 进行如 下处理 : (a) 将当前扫描的词串作为后缀 1, 后缀 2 为空 ; (b) 扫描下一个词语, 作为前缀 ; (c) 判断后缀 1 是否为空, 若为空转到步骤 (e) , 如果不为空, 用前缀 + 后缀 1 组成新词 串 ; (d) 判断新词串是否已存在于候选新词表 2 中, 如果在就将其频次加 1, 如果不在就将 权 利 要 求 书 CN 101950309 A CN 101950312 A2/2 页 3 它加到新词表 2 中 ; (e) 判断。
8、后缀 2 是否为空, 如果是, 转到步骤 (g) , 如果不为空, 用前缀 + 后缀 2 组成新 词串 ; (f) 判断新词串是否已存在于候选新词表 2 中, 如果在就将其频次加 1, 如果不在就将 它加到新词表 2 中 ; (g) 将当前前缀作为后缀 2, 当前词串作为后缀 1 ; (h) 判断当前前缀是否为该字符串中最后一个字符, 如果是则算法结束, 如果不是转向 步骤 (b) 。 4. 根据权利要求 1 所述的一种面向学科领域的新专业词汇识别方法, 其特征在于步骤 (3) 中所述的垃圾词串过滤部件的具体工作步骤如下 : 对构造出来的候选新词串, 利用已有 的规则库、 词库或者模式库, 如。
9、常用前缀词汇库、 后缀词汇库、“互斥性子串” 过滤规则、 特殊 词过滤、 模式匹配规则, 对于凡是不满足上述规则要求的词串全部删除。 5. 根据权利要求 1 所述的一种面向学科领域的新专业词汇识别方法, 其特征在于步骤 (5) 中所述的新专业词汇提炼和结果排序部件的具体工作步骤如下 : (5-1) 利用已有的领域词汇库, 根据库中各热点词根的频度, 计算新词串为专业词汇的 概率值 ; 库中各词根频度的计算方法为, 取该词根在领域词汇库中的出现频次, 除以该表中 所有词根的总频次, 若新词串中包含有领域词汇库中的词, 那么直接利用各个热点词根的 频度 ; 若构成新词串的词不在领域词汇库中, 那么。
10、其频度的计算方法为 : 以把该词加入到 领域词汇库中后的词根数量作为被除数, 除数为 1, 取二者之商作为其频度 ; 最后通过将构 成该新词串的所有词语的频度值相乘得到该新词串的概率值 ; 即对于新词 ABC, 若词根 A、 B 和 C 在学科领域词汇库中的概率分别为 P(A)、 P(B) 和 P(C), 则新词 ABC 的领域相关度的计 算方法为P(A)P(B)P(C)。 经多次实验测试, 根据数据的正态分布特征, 取所有数据的前 25% 进行保留, 加入新词表, 否则进行删除 ; (5-2) 对于已选出来候选新词表 1 中的内容, 如果词条的长度大于 6, 将其进行分词, 按 以上步骤进行。
11、处理, 对于长度不大于 6 的词条, 去掉表示序号而与新词无关的词, 然后将其 直接加入新词表中 ; (5-3) 计算各个新词的序值, 对新词进行排序输出。 权 利 要 求 书 CN 101950309 A CN 101950312 A1/6 页 4 一种面向学科领域的新专业词汇识别方法 技术领域 0001 本发明属于计算机应用和自然语言处理领域, 特别涉及一种面向学科领域的新专 业词汇识别方法。 背景技术 0002 面向学科领域的专业词汇与通用词汇不同, 具有鲜明的领域特色, 通常由基本词 根、 专业基础词汇等构成, 是在通用词汇基础上发展起来的词汇用语。 新专业词汇是专业领 域的未登录词和。
12、新词。未登录词被定义为未在词典中出现的词, 通常包括缩略词、 专有名 词、 派生词、 复合词、 数字类复合词等。新词也是未在词典中出现的词, 属于未登录词, 包含 两层含义 : 通过各种途径产生的、 具有基本词汇所没有的新形式、 新意义或新用法的词语 ; 出现在某一时间段内或自某一时间点以来首次出现的具有新词形、 新词义或者新用法的词 汇等。 0003 自然语言处理领域的专家一直尝试借助计算机从大规模的文本中自动抽取新词 和未登录词。 0004 新词发现的方法通常有基于规则或基于统计方法。 基于规则的方法是根据构词特 征或词语外型特点建立规则库或模式库, 然后通过匹配规则发现新词。领域专家根据。
13、语言 学原理, 结合领域知识体系制定一系列规则来处理各种语言现象, 以发现新词。 这种方法可 发现较高质量的新词, 但是灵活性差, 而且要制定全面的规则费时费力。 基于统计的方法是 通过对词语的共现进行概率统计来提取候选串, 然后再利用语言知识过滤掉垃圾串 ; 或计 算相关度, 寻找相关度最大的字与字的组合。 这种方法适用于任何领域, 但需要大量的训练 语料, 而且查找的效率并不是很高。 主要原因是忽略了不同词语的构词模式, 构词能力和上 下文语义关系等对各个词语构成新词的影响。 比较实用的方法是结合概率统计和规则几何 方法进行新词发现, 如采用二元统计模型或质子串分解等, 利用频次统计选择候。
14、选词串, 然 后利用组词规则等过滤, 最后由人工选择确定最终的新词结果。 0005 目前, 由于新词出现的速度之快, 形式之灵活, 且没有固定的形成规律, 导致当前 并没有权威的标准来判断一个词语是否为新词, 所以对结果的检验很大程度上依赖于人工 的经验判断。 常用的方法中, 统计的方法会受数据稀疏问题的影响, 不利于低频新词和长度 较长的新词的发现。基于规则的方法中, 过滤的效果也依赖于规则获取的完备性。 发明内容 0006 本发明就是针对上述背景技术中的不足之处, 而提出的一种面向学科领域的新专 业词汇识别方法, 以快速发现较高质量的新词。 0007 本发明的目的是通过如下技术措施来实现的。
15、。 0008 一种面向学科领域的新专业词汇识别方法, 该方法使用的硬件部分包括文本预处 理部件、 基于贪婪的原子词汇构词法的新词串构建与统计部件、 垃圾词串过滤部件、 重复子 串筛选部件、 新专业词汇提炼和结果排序部件, 其特征在于该方法依次包括以下步骤 : 说 明 书 CN 101950309 A CN 101950312 A2/6 页 5 (1) 文本预处理部件对文本格式进行转换, 然后进行文本清洗、 去除噪音文字, 再抽取 出文中用特殊符号标志的长度不大于 10 的词串, 形成候选新词表 1 ; (2) 基于贪婪的原子词汇构词法的新词串构建与统计部件首先对经过上述文本预处理 后的内容进行。
16、分词, 然后按照词性去除不能构词的词语, 再采用原子词汇构词法对文中的 候选词串进行统计, 形成候选新词表 2 ; (3) 垃圾词串过滤部件主要是针对领域特点来对候选新词表进行过滤, 过滤掉不符合 领域特点的部分, 具体可以利用专业词库、 规则库或者模式库等进行匹配过滤 ; (4) 重复子串筛选部件利用频率相减法对包含有相同内容的重复子串进行筛选 ; (5) 新专业词汇提炼和结果排序部件先借助领域词汇库的热点词根来进一步筛选掉部 分垃圾词串, 生成新词表, 再通过排序算法计算所发现的每个新词的序值来对结果进行排 序。 领域词汇库主要是从专业领域文献、 教材、 资料等中预先分拣出的属于该专业领域。
17、的词 所组成的。 0009 在上述技术方案中, 步骤 (1) 中所述的文本预处理部件包括格式转换模块、 文档清 洗模块和具有特殊符号标志的词串抽取模块 ; 其中格式转换模块是把其他格式的文档全部 转换为便于处理的 TXT 格式 ; 文档清洗模块是去除文中的无用信息, 包括图形图像、 图表、 作者信息和参考文献 ; 具有特殊符号标志的词串抽取模块是指抽取出用 “” 、 、() 、 标记 的长度不大于 10 的内容。 0010 在上述技术方案中, 步骤 (2) 中所述的基于贪婪的原子词汇构词法的新词串构建 与统计部件的具体工作步骤如下 : (2-1) 用基于通用词库的分词系统, 如中国科学院的 I。
18、CTCLAS 系统、 哈尔滨工业大学 统计分词系统或者 SEG 分词系统和 SEGTAG 系统等对所有文章进行分词, 并做好词性标注 ; 分词结果中, 词与词之间用空格隔开, 标点符号和停用词都去掉, 在其所在的位置用 “#” 代 替 ; (2-2) 对于分词结果, 考虑到现代汉语中有很多不具有构词能力或者构词能力较弱的 词语, 而这些词语多是助词、 介词、 代词、 叹词、 副词、 连词、 语气词、 方位词、 时间词、 数词、 拟 声词、 成语等, 所以将属于这些词性的词语直接从分词结果中删除 ; (2-3) 对处理过后的分词结果, 使用原子词汇构词法进行候选新词串统计, 将可能构成 新词的候。
19、选词串全部写进候选新词表 2 中。具体实现过程如下 : (2-3-1) 针对分词结果, 以 “#/” 为分隔符将全文切分成一个个字符串, 并去掉只包含 有一个词语的字符串, 例如 : 从教 /v 学 /v 技术 /n #/ 学习 /v 技术 /n #/ 嬗变 /vn #/ 顺 应 /v #/ 这种 /r 发展 /v 趋势 /n, 切分为 :“从教 /v 学 /v 技术 /n ” 、“学习 /v 技术 /n” 、 “这种 /r 发展 /v 趋势 /n” 三个字符串 ; (2-3-2) 对剩下的由多个词连续构成的字符串从后向前进行扫描, 每次以一个词语作 为一个扫描单位, 进行如下处理 : (a)。
20、 将当前扫描的词串作为后缀 1, 后缀 2 为空 ; (b) 扫描下一个词语, 作为前缀 ; (c) 判断后缀 1 是否为空, 若为空转到步骤 (e) , 如果不为空, 用前缀 + 后缀 1 组成新词 串 ; (d) 判断新词串是否已存在于候选新词表 2 中, 如果在就将其频次加 1, 如果不在就将 说 明 书 CN 101950309 A CN 101950312 A3/6 页 6 它加到新词表 2 中 ; (e) 判断后缀 2 是否为空, 如果是, 转到步骤 (g) , 如果不为空, 用前缀 + 后缀 2 组成新 词串 ; (f) 判断新词串是否已存在于候选新词表 2 中, 如果在就将其频。
21、次加 1, 如果不在就将 它加到新词表 2 中 ; (g) 将当前前缀作为后缀 2, 当前词串作为后缀 1 ; (h) 判断当前前缀是否为该字符串中最后一个字符, 如果是则算法结束, 如果不是转向 步骤 (b) 。 0011 在上述技术方案中, 步骤 (3) 中所述的垃圾词串过滤部件的具体工作步骤如下 : 对构造出来的候选新词串, 利用已有的规则库、 词库或者模式库, 如常用前缀词汇库、 后缀 词汇库、“互斥性子串” 过滤规则、 特殊词过滤、 模式匹配规则等, 对于凡是不满足上述规则 要求的词串全部删除。 0012 在上述技术方案中, 步骤 (5) 中所述的新专业词汇提炼和结果排序部件的具体工。
22、 作步骤如下 : (5-1) 利用已有的领域词汇库, 根据库中各热点词根的频度, 计算新词串为专业词汇的 概率值 ; 库中各词根频度的计算方法为, 取该词根在领域词汇库中的出现频次, 除以该表中 所有词根的总频次, 若新词串中包含有领域词汇库中的词, 那么直接利用各个热点词根的 频度 ; 若构成新词串的词不在领域词汇库中, 那么其频度的计算方法为 : 以把该词加入到 领域词汇库中后的词根数量作为被除数, 除数为 1, 取二者之商作为其频度 ; 最后通过将构 成该新词串的所有词语的频度值相乘得到该新词串的概率值 ; 即对于新词 ABC, 若词根 A、 B 和 C 在学科领域词汇库中的概率分别为 。
23、P(A)、 P(B) 和 P(C), 则新词 ABC 的领域相关度的计 算方法为P(A)P(B)P(C)。 经多次实验测试, 根据数据的正态分布特征, 取所有数据的前 25% 进行保留, 加入新词表, 否则进行删除 ; (5-2) 对于已选出来候选新词表 1 中的内容, 如果词条的长度大于 6, 将其进行分词, 按 以上步骤进行处理, 对于长度不大于 6 的词条, 去掉表示序号而与新词无关的词, 然后将其 直接加入新词表中 ; (5-3) 计算各个新词的序值, 对新词进行排序输出。 0013 本发明一种面向学科领域的新专业词汇识别方法可以较好地发现学科领域的专 业术语, 并对结果进行排序, 弥。
24、补了现有算法的不足, 更有利于人们把握这个学科的发展动 向和核心价值。 附图说明 0014 图 1 是本发明的基本原理图。 0015 图 2 是本发明核心算法基于贪婪的原子词汇构词法的流程图。 0016 图 3 是本发明重复子串处理的流程图。 具体实施方式 0017 下面结合附图及实施例对本发明作进一步的描述。 0018 如图 1 所示, 为本发明的基本原理图。初始文档经过文本预处理、 新词串统计、 垃 说 明 书 CN 101950309 A CN 101950312 A4/6 页 7 圾词串过滤和结果排序后, 将从文中发现的新词语输出, 其中要用到一个分词系统、 一个或 多个规则库, 在词。
25、汇领域相关度的计算部分, 用到了已经构建好的领域词汇库, 并且在计算 新词的序值以对结果进行排序时还要用已发现的新词来充实分词系统的通用词典。 本发明 的核心算法用在候选新词串的统计部分, 同时在过滤垃圾词串的过程中充分考虑了词性、 词语的构词能力和构词方式等因素。 在对重复子串进行处理, 在对结果进行排序的过程中, 也直观地体现了该新词的 “热点” 程度。 0019 本发明一种面向学科领域的新专业词汇识别方法, 该方法使用的硬件部分包括文 本预处理部件、 基于贪婪的原子词汇构词法的新词串构建与统计部件、 垃圾词串过滤部件、 重复子串筛选部件、 新专业词汇提炼和结果排序部件, 其特征在于该方法。
26、依次包括以下步 骤 : (1) 文本预处理部件对文本格式进行转换, 然后进行文本清洗、 去除噪音文字, 再抽取 出文中用特殊符号标志的长度不大于 10 的词串, 形成候选新词表 1 ; (2) 基于贪婪的原子词汇构词法的新词串构建与统计部件首先对经过上述文本预处理 后的内容进行分词, 然后按照词性去除不能构词的词语, 再采用原子词汇构词法对文中的 候选词串进行统计, 形成候选新词表 2 ; (3) 垃圾词串过滤部件主要是针对领域特点来对候选新词表进行过滤, 过滤掉不符合 领域特点的部分, 具体可以利用专业词库、 规则库或者模式库等进行匹配过滤 ; (4) 重复子串筛选部件利用频率相减法对包含有。
27、相同内容的重复子串进行筛选 ; (5) 新专业词汇提炼和结果排序部件先借助领域词汇库的热点词根来进一步筛选掉部 分垃圾词串, 生成新词表, 再通过排序算法计算所发现的每个新词的序值来对结果进行排 序。 领域词汇库主要是从专业领域文献、 教材、 资料等中预先分拣出的属于该专业领域的词 所组成的。 0020 在上述实施例中, 步骤 (1) 中所述的文本预处理部件包括格式转换模块、 文档清洗 模块和具有特殊符号标志的词串抽取模块 ; 其中格式转换模块是把其他格式的文档全部转 换为便于处理的 TXT 格式, 为了不影响效果, 要求尽量保留原文的格式和字符顺序 ; 文档清 洗模块是去除文中的无用信息, 。
28、包括图形图像、 图表、 作者信息和参考文献 ; 具有特殊符号 标志的词串抽取模块是指对所有文章进行扫描, 抽取出文中用 “” 、 、() 、 、等标记 的长度不大于 10 的内容, 形成候选新词表 1, 并从原文中剔除关联内容, 在其出现的位置用 “#” 填补。 0021 在上述实施例中, 步骤 (2) 中所述的基于贪婪的原子词汇构词法的新词串构建与 统计部件的工作步骤如下 : (2-1) 用通用词汇库构造的分词系统对所有文章进行分词, 并做好词性标注。分词结 果中, 词与词之间用空格隔开 ; 去掉标点符号和停用词, 将其所在的位置用 “#” 代替。例如 : “从工业社会到信息社会的巨大转折中。
29、。 ” 的分词结果为 :“从 /p 工业 /n 社会 /n #/ 信息 /n 社会 /n #/ 巨大 /a 转折 /vn 中 /f。 ” ; (2-2) 对于分词结果, 考虑到某些词性的词语不具有构词能力, 或者构词能力较弱, 将 这些词从文中删除。被删除的对象是属于助词、 介词、 代词、 叹词、 副词、 连词、 语气词、 方位 词、 时间词、 数词、 拟声词、 成语等的词语, 如 “的” ,“在” 、“前” 等, 将其所在的位置用 “#” 代 替 ; 说 明 书 CN 101950309 A CN 101950312 A5/6 页 8 (2-3) 对处理过后的文档, 使用贪婪的原子词汇构词法。
30、构建候选词串, 统计候选词串形 成候选新词表 2。构建候选新词的算法的主要思想为 : 如果一个词语的前面或后面紧跟着 的是标点符号, 那么这个词语不可能与标点符号前面或者后面的词语构成新词, 如果这个 词语的前面或者后面紧挨着的是 “的” ,“了” ,“地” ,“还” 之类构词能力很差的词语, 那么这 个词语也不可能与这些词语或者这些词之前与之后的词语构成新词 ; 具体实现过程如下 : (2-3-1) 针对分词结果, 以 “#/” 为分隔符将全文切分成一个个字符串, 并去掉只包含 有一个词语的字符串, 例如 : 从教 /v 学 /v 技术 /n #/ 学习 /v 技术 /n #/ 嬗变 /vn。
31、 #/ 顺 应 /v #/ 这种 /r 发展 /v 趋势 /n, 切分为 :“从教 /v 学 /v 技术 /n ” 、“学习 /v 技术 /n” 、 “这种 /r 发展 /v 趋势 /n” 三个字符串 ; (2-3-2) 对剩下的由多个词连续构成的字符串从后向前进行扫描, 每次以一个词语作 为一个扫描单位, 进行如下处理 : (a) 将当前扫描的词串作为后缀 1, 后缀 2 为空 ; (b) 扫描下一个词语, 作为前缀 ; (c) 判断后缀 1 是否为空, 若为空转到步骤 (e) , 如果不为空, 用前缀 + 后缀 1 组成新词 串 ; (d) 判断新词串是否已存在于候选新词表中, 如果在就将。
32、其频次加 1, 如果不在就将它 加到候选新词表 2 中 ; (e) 判断后缀 2 是否为空, 如果是, 转到步骤 (g) , 如果不为空, 用前缀 + 后缀 2 组成新 词串 ; (f) 判断新词串是否已存在于候选新词表中, 如果在就将其频次加 1, 如果不在就将它 加到候选新词表 2 中 ; (g) 将当前前缀作为后缀 2, 当前词串作为后缀 1 ; (h) 判断当前前缀是否为该字符串中最后一个字符, 如果是则算法结束, 如果不是转向 步骤 (b) 。 0022 上述算法的步骤流程如图 2 所示, 为本发明中核心算法。使用这个算法进行统计, 是基于以下前提 : 如果一个词语的前面或后面紧跟着。
33、的是标点符号, 那么这个词语不可能 与标点符号前面或者后面词语构成新词, 如果这个词语的前面或者后面紧挨着的是 “的” , “了” ,“地” ,“还” 之类的停用词, 那么这个词语也不可能与这些停用词之前或之后的词语构 成新词。如果以一个词语作为一个单位, 那么每三个或者两个连续的单位构成的新词串都 是统计的对象, 按照从后向前的顺序扫描整个字符串, 在算法的执行过程中, 如果以当前读 取的词作为前缀, 那么后缀就有两个, 根据当前新词串的后缀对象的不同, 分别进行处理。 0023 在上述实施例中, 步骤 (3) 中所述的垃圾词串过滤部件的具体工作步骤如下 : 对 构造出来的候选新词串, 已有。
34、的规则库、 词库或者模式库, 如常用前缀词汇库、 后缀词汇库、 “互斥性子串” 过滤规则、 特殊词过滤、 模式匹配规则等, 对于凡是不满足上述规则要求的词 串全部删除。 0024 在上述实施例中, 步骤 (4) 中所述的重复子串筛选部件的具体工作步骤为对于候 选词串表中剩下的词串, 类似于 “手提电脑” 、“手提电” 、“ 提电脑” 含有相同内容的部分, 采 用频率相减法进行过滤, 该方法的执行过程如图 3 所示 : 说 明 书 CN 101950309 A CN 101950312 A6/6 页 9 计算长词串 Y 的频率 PL(Y) 减去短词串 X 的频率 PL(X), 建立规则 : R1。
35、 : 若差值 =0, 则说明 X 每次均出现在 Y 中, 则将其去除 ; R2 : 若差值 0, 则说明 X 也作为新词串单独出现, 则将 X 保留, 且 PL(X)=PL(X)-PL(Y) ; R3 : 若差值 0 且 PL(Y)=3, 则将长词串 Y 删除。 0025 其原理为对于含有相同内容的子串和父串, 计算其频度差, 然后根据不同的结果 进行取舍, 即可淘汰一部分出现频度比较低的词串。 0026 在上述实施例中, 步骤 (5) 中所述的新专业词汇提炼和结果排序部件包括新专业 词汇提炼模块和结果排序模块。其中新专业词汇提炼模块的具体工作步骤如下 : 利用已有 的学科领域词汇库, 根据库。
36、中各热点词根的频度, 计算新词串为专业词汇的概率值 ; 库中各 词根频度的计算方法为, 取该词根在领域词汇库中的出现频次, 除以该表中所有词根的总 频次, 若新词串中包含有领域词汇库中的词, 那么直接利用各个热点词根的频度 ; 若构成 新词串的词不在领域词汇库中, 那么其频度的计算方法为 : 以把该词加入到领域词汇库中 后的词根数量作为被除数, 除数为 1, 取二者之商作为其频度 ; 最后通过将构成该新词串的 所有词语的频度值相乘得到该新词串的概率值。即对于新词 ABC, 若词根 A、 B 和 C 在学科 领域词汇库中的概率分别为 P(A)、 P(B) 和 P(C), 则新词 ABC 的领域相。
37、关度的计算方法为 P(A)P(B)P(C)。经多次实验测试, 根据数据的正态分布特征, 取所有数据的前 25% 进行 保留, 加入最终新词表, 将其保留, 否则进行删除。 步骤 (5) 中所述的结果排序模块的具体工作步骤为 : (5-1) 对于候选新词表 1 中存放的用 “ ” 、 、() 、 等特殊符号标记的长度不大于 10 的词条, 如果词条的长度大于 6, 将其进行分词, 按以上方法进行处理, 对于长度不大于 6 的 词条, 去掉 “1” ,“2” , “一” ,“二” ,“图一” ,“图二” , “第一” ,“第二” ,“如图一所示” , 等表示 序号而与新词无关的词, 然后将其直接加。
38、入新词表中 ; (5-2) 将经过上述处理的新词加到分词系统的词典中, 再次对原文进行分词, 并统计重 新分词后的词语个数, 新词串的个数 ; (5-3) 计算各个新词的序值, 对新词进行排序, 新词序值的计算公式为 : F(w)=f(w)*N*p(w) 其中 w 为某一新词串 ; F(w) 为词串 w 经计算后的最终序值 ; f(w) 为测试语料中词串 w 的出现频度 ; p(w) 为词串 w 在测试语料中的文档覆盖率 ; N 为测试语料中的总词数。 0027 对于所有构造出来的候选词串, 总是有相当一部分不符合语法要求, 也缺乏实在 的语法意义, 需要过滤掉。在具体的处理过程中, 采用三个。
39、步骤来实现 :(1) 垃圾词串筛选, 利用常用前缀词汇库、 后缀词汇库、“互斥性子串” 过滤规则、 特殊词过滤、 模式匹配规则等, 将不满足规则要求的词串全部删除。在这一处理中充分考虑了词义对构词的影响。 (2) 重 复子串的处理, 对于 “手提电脑” 、“手提电” 、“ 提电脑” 这样含有相同内容的词串, 通过分析 发现, 总有部分是垃圾串, 像该例中的 “手提电” 和 “提电脑” 就不符合语法要求, 采用频率 相减法, 通过比较子串和父串的频度关系, 可以过滤掉部分垃圾词串。 (3) 专业词汇频度计 算, 这个步骤中利用已经构建好的领域词汇库, 计算各个词语为专业词汇的概率值, 这里主 要是利用了词语的频度差异, 所以测试语料库的大小会对结果有一定影响。 说 明 书 CN 101950309 A CN 101950312 A1/3 页 10 图 1 说 明 书 附 图 CN 101950309 A CN 101950312 A2/3 页 11 图 2 说 明 书 附 图 CN 101950309 A CN 101950312 A3/3 页 12 图 3 说 明 书 附 图 CN 101950309 A 。