基于模式匹配的汉语错别字识别方法及系统.pdf

上传人:齐** 文档编号:10727246 上传时间:2021-08-09 格式:PDF 页数:12 大小:389.88KB
收藏 版权申诉 举报 下载
基于模式匹配的汉语错别字识别方法及系统.pdf_第1页
第1页 / 共12页
基于模式匹配的汉语错别字识别方法及系统.pdf_第2页
第2页 / 共12页
基于模式匹配的汉语错别字识别方法及系统.pdf_第3页
第3页 / 共12页
文档描述:

《基于模式匹配的汉语错别字识别方法及系统.pdf》由会员分享,可在线阅读,更多相关《基于模式匹配的汉语错别字识别方法及系统.pdf(12页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201911219533.8 (22)申请日 2019.12.03 (71)申请人 中国标准化研究院 地址 100089 北京市海淀区知春路4号 (72)发明人 曹馨宇王海涛刘亮亮付雪 赵静张帆赵超吴刚丁文兴 周长青 (74)专利代理机构 北京酷爱智慧知识产权代理 有限公司 11514 代理人 梁波 (51)Int.Cl. G06F 40/232(2020.01) G06F 40/295(2020.01) (54)发明名称 基于模式匹配的汉语错别字识别方法及系 统 (57)摘要 。

2、本发明公开了一种基于模式匹配的错别字 识别方法, 包括步骤: S1.根据语言的结构特征, 定义错别字识别模式; S2.基于图存储结构建立 错别字识别模式的索引; S3.通过错别字识别模 式的索引对待查错文本进行自动查错和自动纠 错。 本发明方法通过定义错别字识别模式把语法 限制和条件函数搭配融合进行错别字识别, 能够 有效针对违背局部或长距离语法约束条件的错 误, 具备很好的准确率; 本发明系统通过程序实 现错别字识别模式的定义和索引的建立以及利 用错别字识别模式索引自动对待查错文本查错、 纠错; 基于图存储结构的灵活性建立索引结构实 现对数据的广度优先搜索、 深度优先搜索, 利于 构建完善的。

3、数据库(搭配库), 继而提高错别字识 别的准确度。 权利要求书2页 说明书8页 附图1页 CN 110991166 A 2020.04.10 CN 110991166 A 1.一种基于模式匹配的错别字识别方法, 其特征在于: 包括步骤: S1.根据语言的结构特征, 定义错别字识别模式; S2.基于图存储结构建立错别字识别模式的索引; S3.通过错别字识别模式的索引对待查错文本进行自动查错和自动纠错。 2.根据权利要求1所述的基于模式匹配的错别字识别方法, 其特征在于: 步骤S1.中根 据汉语的语法结构和语义限制特征, 建立错别字识别模式, 包括设置识别匹配条件并关联 语义操作作为识别规则, 形。

4、成所述错别字识别模式。 3.根据权利要求2所述的基于模式匹配的错别字识别方法, 其特征在于: 所述识别匹配 条件由限制函数搭配构成; 限制函数包括 NOTCONTAIN(,), 用于判断待查错句子 “S” 是否包含目标词 “W” 或 词类 “WORDCLASS1” , 如果不包含则返回TRUE, 否则返回FALSE; NOTENDWITH(,), 用于判断待查错句子 “S” 是否以目标词 “W” 或词 类 “WORDClASS1” 结尾, 如果不以结尾返回TRUE, 否则返回FALSE; MATCHED(,)用于判断待查错句子 “S” 是否匹配目标词 “W” 或词类 “WORDClASS1” 。

5、,如果匹配成功返回TRUE, 否则返回FALSE; 限制函数的搭配通过连接符完成。 4.根据权利要求3所述的基于模式匹配的错别字识别方法, 其特征在于: 步骤S11.设置 识别匹配条件并关联语义操作中, 语义操作包括: OK(): 表示如果待查错句子满足识别匹配条件, 该 “目标词” 是正确的; MARK(): 表示如果待查错句子满足识别匹配条件, 该 “目标词” 可能错误并进 行标记; REWRITE(,): 表示如果待查错句子满足识别匹配条件, 该 “目标词” 是错误的, 包含错别字,“正确词” 是对应的正确的词, 自动进行替换。 5.根据权利要求4所述的基于模式匹配的错别字识别方法, 其。

6、特征在于: 所述步骤S2. 基于图存储结构建立错别字识别模式的索引, 包括 S21.通过代码定义图结构; S21.通过代码定于图结构中的参数。 6.根据权利要求4所述的基于模式匹配的错别字识别方法, 其特征在于: 所述步骤S3. 通过错别字识别模式的索引对待查错文本进行自动查错和自动纠错, 包括: S31.对待查错句子进行分词并对每个位置的词进行标记; S32.依次过滤待查错句子中的词, 如果达到句子的末尾, 则退出查错, 否则转向S33.; S33.将待查错句子中的词和错别字识别模式索引进行匹配, 如果匹配成功, 将匹配的 结果放入临时数组中; S34.对临时数组中的结果取交集, 判断匹配成。

7、功的元素个数是否等于该匹配规则的长 度, 将有长度相等的规则索引号放入到最终数组; S35.依次遍历最终数组中的每一条规则, 看匹配成功的规则的顺序是否和规则一致, 如果规则一致, 则匹配成功; S36.匹配成功后, 根据错别字识别模式的后件执行语义操作; S37.输出查错结果, 当前句子查错结束。 权利要求书 1/2 页 2 CN 110991166 A 2 7.一种基于模式匹配的错别字识别系统, 其特征在于: 包括处理器和存储器, 存储器中 存储有程序, 程序被处理器运行时, 执行如下步骤: D1.根据语言的结构特征, 定义错别字识别模式; D2.基于图存储结构建立错别字识别模式的索引; 。

8、D3.通过建立的索引结构对待查错文本进行自动查错和自动纠错。 8.根据权利要求7所述的基于模式匹配的错别字识别系统, 其特征在于: 步骤S1.中根 据汉语的语法结构和语义限制特征, 建立错别字识别模式, 包括 设置识别匹配条件并关联语义操作作为识别规则, 形成所述错别字识别模式。 9.根据权利要求8所述的基于模式匹配的错别字识别方法, 其特征在于: 所述识别匹配 条件由限制函数搭配构成; 限制函数包括 NOTCONTAIN(,), 用于判断待查错句子 “S” 是否包含目标词 “W” 或 词类 “WORDCLASS1” , 如果不包含则返回TRUE, 否则返回FALSE; NOTENDWITH(。

9、,), 用于判断待查错句子 “S” 是否以目标词 “W” 或词 类 “WORDClASS1” 结尾, 如果不以结尾返回TRUE, 否则返回FALSE; MATCHED(,)用于判断待查错句子 “S” 是否匹配目标词 “W” 或词类 “WORDClASS1” ,如果匹配成功返回TRUE, 否则返回FALSE; 限制函数的搭配通过连接符完成。 10.根据权利要求9所述的基于模式匹配的错别字识别方法, 其特征在于: 所述设置识 别匹配条件并关联语义操作中, 语义操作包括: OK(): 表示如果待查错句子满足识别匹配条件, 该 “目标词” 是正确的; MARK(): 表示如果待查错句子满足识别匹配条件。

10、, 该 “目标词” 可能错误并进 行标记; REWRITE(,): 表示如果待查错句子满足识别匹配条件, 该 “目标词” 是错误的, 包含错别字,“正确词” 是对应的正确的词, 自动进行替换。 权利要求书 2/2 页 3 CN 110991166 A 3 基于模式匹配的汉语错别字识别方法及系统 技术领域 0001 本发明涉及人工智能计算机对自然语言处理技术领域, 具体而言, 为一种基于模 式匹配的汉语错别字识别方法及系统。 背景技术 0002 中文文本自动校对是自然语言处理的主要应用之一, 也是自然语言理解的难题。 随着大数据时代的到来, 中文文本中的错误也越来越多, 基于统计的方法和机器学习。

11、的方 法能有效的发现文本中的一些错别字, 并实现自动校正, 但文本中有些错别字是因为违背 了局部或长距离的语法或语义约束条件而导致的错误, 这难以用一些上下文来发现准备错 别字, 需要通过一些语法规则和语义搭配来完成。 例如 “那” 与 “哪” ,“的” 与 “得” 及 “地” 等常 见词人们常常混淆, 常发生错误, 一般自动校对方法难以发现或者误纠率特别高, 而发现这 种错误, 用单一的上下文或搭配识别是不足以判定是否发生错误的。 0003 有鉴于此, 特提出本发明。 发明内容 0004 针对现有技术中的缺陷, 本发明提供一种基于模式匹配的汉语错别字识别方法及 系统, 提高识别准确度。 00。

12、05 为实现上述目的, 本发明的技术方案如下: 0006 一种基于模式匹配的错别字识别方法, 包括步骤: 0007 S1.根据语言的结构特征, 定义错别字识别模式; 0008 S2.基于图存储结构建立错别字识别模式的索引; 0009 S3.通过错别字识别模式的索引对待查错文本进行自动查错和自动纠错。 0010 进一步的, 上述的基于模式匹配的错别字识别方法中, 步骤S1.中根据汉语的语法 结构和语义限制特征, 建立错别字识别模式, 包括 0011 设置识别匹配条件并关联语义操作作为识别规则, 形成所述错别字识别模式。 0012 进一步的, 上述的基于模式匹配的错别字识别方法中, 步骤S11.中。

13、所述识别匹配 条件由限制函数搭配构成; 限制函数包括 0013 NOTCONTAIN(,), 用于判断待查错句子 “S” 是否包含目标词 “W” 或词类 “WORDCLASS1” , 如果不包含则返回TRUE, 否则返回FALSE; 0014 NOTENDWITH(,), 用于判断待查错句子 “S” 是否以目标词 “W” 或词类 “WORDClASS1” 结尾, 如果不以结尾返回TRUE, 否则返回FALSE; 0015 MATCHED(,)用于判断待查错句子 “S” 是否匹配目标词 “W” 或 词类 “WORDClASS1” ,如果匹配成功返回TRUE, 否则返回FALSE; 0016 限制。

14、函数的搭配通过连接符完成。 0017 进一步的, 上述的基于模式匹配的错别字识别方法中, 设置识别匹配条件并关联 语义操作中, 语义操作包括: 说明书 1/8 页 4 CN 110991166 A 4 0018 OK(): 表示如果待查错句子满足识别匹配条件, 该 “目标词” 是正确的; 0019 MARK(): 表示如果待查错句子满足识别匹配条件, 该 “目标词” 可能错误 并进行标记; 0020 REWRITE(,): 表示如果待查错句子满足识别匹配条件, 该 “目标 词” 是错误的, 包含错别字,“正确词” 是对应的正确的词, 自动进行替换。 0021 进一步的, 上述的基于模式匹配的错。

15、别字识别方法中, 所述步骤S2.基于图存储结 构建立错别字识别模式的索引, 包括 0022 S21.通过代码定义图结构; 0023 S21.通过代码定于图结构中的参数。 0024 进一步的, 上述的基于模式匹配的错别字识别方法中, 所述步骤S3.通过错别字识 别模式的索引对待查错文本进行自动查错和自动纠错, 包括: 0025 S31.对待查错句子进行分词并对每个位置的词进行标记; 0026 S32.依次过滤待查错句子中的词, 如果达到句子的末尾, 则退出查错, 否则转向 S33.; 0027 S33.将待查错句子中的词和错别字识别模式索引进行匹配, 如果匹配成功, 将匹 配的结果放入临时数组中。

16、; 0028 S34.对临时数组中的结果取交集, 判断匹配成功的元素个数是否等于该匹配规则 的长度, 将有长度相等的规则索引号放入到最终数组; 0029 S35.依次遍历最终数组中的每一条规则, 看匹配成功的规则的顺序是否和规则一 致, 如果规则一致, 则匹配成功; 0030 S36.匹配成功后, 根据错别字识别模式的后件执行语义操作。 0031 S37.输出查错结果, 当前句子查错结束。 0032 另一方面, 本发明还涉及一种基于模式匹配的错别字识别系统, 包括处理器和存 储器, 存储器中存储有程序, 程序被处理器运行时, 执行如下步骤: 0033 D1.根据语言的结构特征, 定义错别字识别。

17、模式; 0034 D2.基于图存储结构建立错别字识别模式的索引; 0035 D3.通过建立的索引结构对待查错文本进行自动查错和自动纠错。 0036 进一步的, 上述的基于模式匹配的错别字识别系统中, 步骤D1.中根据汉语的语法 结构和语义限制特征, 建立错别字识别模式, 包括 0037 设置识别匹配条件并关联语义操作作为识别规则, 形成所述错别字识别模式。 0038 进一步的, 上述的基于模式匹配的错别字识别系统中, 所述识别匹配条件由限制 函数搭配构成; 限制函数包括 0039 NOTCONTAIN(,), 用于判断待查错句子 “S” 是否包含目标词 “W” 或词类 “WORDCLASS1”。

18、 , 如果不包含则返回TRUE, 否则返回FALSE; 0040 NOTENDWITH(,), 用于判断待查错句子 “S” 是否以目标词 “W” 或词类 “WORDClASS1” 结尾, 如果不以结尾返回TRUE, 否则返回FALSE; 0041 MATCHED(,)用于判断待查错句子 “S” 是否匹配目标词 “W” 或 词类 “WORDClASS1” ,如果匹配成功返回TRUE, 否则返回FALSE; 0042 限制函数的搭配通过连接符完成。 说明书 2/8 页 5 CN 110991166 A 5 0043 进一步的, 上述的基于模式匹配的错别字识别系统中, 所述设置识别匹配条件并 关联语。

19、义操作中, 语义操作包括: 0044 OK(): 表示如果待查错句子满足识别匹配条件, 该 “目标词” 是正确的; 0045 MARK(): 表示如果待查错句子满足识别匹配条件, 该 “目标词” 可能错误 并进行标记; 0046 REWRITE(,): 表示如果待查错句子满足识别匹配条件, 该 “目标 词” 是错误的, 包含错别字,“正确词” 是对应的正确的词, 自动进行替换。 0047 与传统技术相比, 本发明的有益效果体现在: 0048 本发明方法通过定义错别字识别模式把语法限制和条件函数搭配融合, 继而用于 错别字识别, 能够有效针对违背局部或长距离语法约束条件的错误, 具备很好的准确率。

20、, 具 有一定的实用性; 本发明系统实施上述方法, 通过程序实现错别字识别模式的定义和索引 的建立, 以及利用错别字识别模式索引自动对待查错文本查错、 纠错; 基于图存储结构的灵 活性建立索引结构实现对数据的广度优先搜索、 深度优先搜索, 利于构建完善的数据库(搭 配库), 继而提高错别字识别的准确度。 附图说明 0049 为了更清楚地说明本发明具体实施方式或现有技术中的技术方案, 下面将对具体 实施方式或现有技术描述中所需要使用的附图作简单地介绍。 在所有附图中, 类似的元件 或部分一般由类似的附图标记标识。 附图中, 各元件或部分并不一定按照实际的比例绘制。 0050 图1为本发明基于模式。

21、匹配的错别字识别方法的一个具体实施例流程图; 具体实施方式 0051 下面将结合附图对本发明技术方案的实施例进行详细的描述。 以下实施例仅用于 更加清楚地说明本发明的技术方案, 因此只作为示例, 而不能以此来限制本发明的保护范 围。 0052 需要注意的是, 除非另有说明, 本申请使用的技术术语或者科学术语应当为本发 明所属领域技术人员所理解的通常意义。 0053 实施例1 0054 如图1所示, 一种基于模式匹配的错别字识别方法, 包括步骤: 0055 S1.根据语言的结构特征, 定义错别字识别模式; 0056 S2.基于图存储结构建立错别字识别模式的索引; 0057 S3.通过错别字识别模。

22、式的索引对待查错文本进行自动查错和自动纠错。 0058 本发明方法尤其适用于汉语文本的错别字识别, 利用汉语的语法结构和语义限制 等特征, 定义错别字识别模式, 把一些语法结构和条件限制搭配融合在模式中, 再利用定义 的模式去匹配待查错语句文本, 进行查错、 纠错。 0059 具体的, 本发明给出的一个具体实施例中, 步骤S1.中根据汉语的语法结构和语义 限制特征, 建立错别字识别模式, 具体包括: 设置识别匹配条件并关联语义操作作为识别规 则, 形成所述错别字识别模式。 0060 本实施例中, 所述错别字识别模式作为错别字识别规则, 其结构包括识别匹配条 说明书 3/8 页 6 CN 110。

23、991166 A 6 件和识别匹配条件关联的语义操作, 以将符合识别匹配条件的句子进行后续的语义操作; 其中所述识别匹配条件是通过条件函数(限制函数)对语法结构和语义限制特征进行定义。 本发明给出的示例中, 所述错别字识别模式的结构如下: 0061 Rule1: NOTCONTAIN(S,)&NOTENDWITH(S,)&MATCHED(S, *)OK(); 0062 Rule2: NOTCONTAIN(S,)&NOTENDWITH(S,*)MARK (); 0063 Rule3: NOTCONTAIN(S,)&MATCHED(S,*)REWRITE (,)。 0064 其中, 上述模式中使用。

24、的通配符均为常规意义, 如 “*” 表示中间可以隔开任意多个 字符; &表示 “与” 等等。 上述符号 “” 用于示意该字符前面的匹配条件关联其后的语义操 作。 0065 上述模式中限制函数定义如下: 0066 NOTCONTAIN(,)用于判断待查错句子 “S” 是否包含目标词 “W” 或词类 “WORDClASS1” , 如果不包含则返回TRUE, 否则返回FALSE; 0067 NOTENDWITH(,)用于判断待查错句子 “S” 是否以目标词 “W” 或 词类 “WORDClASS1” 结尾, 如果不以结尾返回TRUE, 否则返回FALSE; 0068 MATCHED(,)用于判断待查。

25、错句子 “S” 是否匹配目标词 “W” 或 词类 “WORDClASS1” ,如果匹配成功返回TRUE, 否则返回FALSE。 0069 需说明, 上述 “W” 在函数中用于指代目标词;“WORDClASS” 在函数中用于指代词类, “S” 在函数中用于指待查错句子。 0070 汉语词类包括名词、 动词、 形容词、 数词、 量词、 代词、 区别词、 副词、 介词、 连词、 助 词、 叹词、 语气词、 拟声词等, 则进一步的, 本实施例中所述词类定义: ; W表示具体的字或词。 0071 本实施例中, 所述错别字识别模式的语义操作包括三种类型, 分别定义如下: 0072 OK(): 表示如果满足。

26、该模式, 该 “” 是正确的; 0073 MARK(): 表示如果句子满足该模式, 该 “目标词” 可能错误并进行标记; 0074 REWRITE(,): 表示如果句子满足该模式, 该 “目标词” 是错误的, 包含错别字,“” 即是其对应的正确的词, 并自动进行替换, 实现校对。 0075 在本发明方法中, 对错别字识别模式进行切分, 利用图的结构存储错别字识别模 式的索引, 建立基于图的索引结构。 图存储结构(简称 “图结构” )由多个节点构成, 节点之间 可以互相连接组成一个网络, 在计算机数据结构中, 图是最为灵活的数据结构之一; 本发明 利用图结构来存储错别字识别模式的索引结构, 以实。

27、现广度优先搜索, 实现深度优先搜索。 0076 所述步骤S2.包括: 0077 S21.代码定义图结构; 对图的边数、 顶点、 入度、 节点、 标号等进行定义; 本发明给 出代码定义图结构的一个具体实施例为: 0078 static int nEdge; /边数 0079 static vectorGW; 0080 static int nRuW; /入度 说明书 4/8 页 7 CN 110991166 A 7 0081 static int nTypeW; /1词语, 2词类 0082 static int nBelongW; /属于哪一个规则类, 初始为-1, 如不为-1, nType值。

28、必 为4(是规则点) 0083 /索引(全局) 0084 static int nSum; /FindID元素个数,图节点总数 0085 static mapFindID; /对应图中标号 0086 static mapFindName; /建立索引与词的映射 0087 S22.代码定义所述规则的结构(规则即错别字识别模式); 0088 static int nRuleClass; 0089 static vectorRuleClass; 0090 因此, 根据错别字识别模式的结构对应定义图结构, 即建立基于图存储结构的错 别字识别模式索引。 0091 建立索引以后, 通过建立的索引结构对待查。

29、错文本(中文句子)进行模式匹配, 并 根据匹配的错别字识别模式中的语义操作进行相应的操作, 以实现自动查错、 自动纠错。 0092 所述步骤S3.包括 0093 S31.对待查错句子进行分词并对每个位置的词进行标记; 0094 该步骤中分词后的待查错句子 “S” W1W2WN, 对分词后的句子利用标记数组 StatusN对每个位置的词Wi进行标记: 0095 初始状态, Statusi0(1in); 0096 S32.依次扫描上述待查错句子 “S” 中的词Wi, 如果达到句子S的末尾, 则退出查错, 转向S37., 否则转向S33.; 0097 S33.将待查错句子 “S” 中的词Wi和错别字。

30、识别模式索引进行匹配, 如果匹配成功, 将匹配的结果放入数组vecTempResult(临时数组)中; 0098 S34.然后对数组vecTempResult中的结果取交集, 判断匹配成功的元素个数是否 等于该匹配规则的长度, 将有长度相等的规则索引号(即代码定义图结构中的标号)放入到 数组vecResult(最终数组): 其中规则的长度以规则中的 “&” 为分割符判断, 如上述Rule1 中, 包含两个 “&” 分割符, 则长度为3。 0099 S35.依次遍历数组vecResult中的每一条错别字识别模, 检查匹配成功的错别字 识别模式的顺序是否和错别字识别模式中的匹配条件等一致, 如果一。

31、致, 说明匹配的规则 有效, 即匹配成功; 0100 例如: 识别句子 “这些孩子们这是去那呀? ” ; 0101 错别字识别模式中, 有规则: NOTCONTAIN(S,)&MATCHED(S,*)MARK(那); 0102 匹配过程如下: 0103 NOTCONTAIN(S,)TRUE 0104 MATCHED(S,*)TRUE 0105 则匹配成功, 执行这一规则中的后件, 标记句子中 “那” 可能有错; 0106 S36.匹配成功, 如果后件是MARK, 则标记当前目标词的Statusi1, 表示该词有 错误, 如果后件是REWRITE, 则标记当前目标词的Statusi2, 表示该词。

32、有错, 并用错别字 说明书 5/8 页 8 CN 110991166 A 8 识别模式后件中的正确词进行替换。 0107 S37.输出查错结果, 当前句子查错结束。 0108 本发明方法通过定义错别字识别模式把语法限制和条件函数搭配融合, 继而用于 错别字识别, 能够有效针对违背局部或长距离语法约束条件的错误, 特别是类似于 “那” 和 “哪” ,“的” 与 “地” 等常见、 但通过机器学习方法难以发现和自动纠错的错误; 本发明经过实 际实验, 人工总结了1000多条常用词错误的错别字识别模式, 实验采用1万行句子的测试语 料, 人工构造语料句子中的同音词错误300处, 实验结果召回率达到95。

33、, 准确率达到90; 因此本发明方法应用于错别字识别, 具备很好的准确率, 具有一定的实用性。 0109 实施例2 0110 本发明还提供了一种基于模式匹配的错别字识别系统, 用于实施本发明上述方 法, 该系统包括处理器和存储器, 存储器中存储有程序, 程序被处理器运行时, 执行如下步 骤: 0111 D1.根据语言的结构特征, 定义错别字识别模式; 0112 D2.基于图存储结构建立错别字识别模式的索引; 0113 D3.通过建立的索引结构对待查错文本进行自动查错和自动纠错。 0114 本发明系统实施上述方法, 尤其适用于汉语文本的错别字识别, 利用汉语的语法 结构和语义限制等特征, 定义错。

34、别字识别模式, 进行查错、 纠错。 0115 在一个具体实施例中, 本发明程序被运行, 执行步骤D1.时, 根据汉语的语法结构 和语义限制特征, 建立错别字识别模式, 包括: 设置识别匹配条件并关联语义操作作为识别 规则, 形成所述错别字识别模式。 0116 本实施例中, 所述错别字识别模式作为错别字识别规则, 其结构包括识别匹配条 件和识别匹配条件关联的语义操作, 以将符合识别匹配条件的句子进行后续的语义操作; 其中所述识别匹配条件是通过条件函数(限制函数)和通配符等对语法结构和特征进行定 义, 例如所述错别字识别模式的结构如下: 0117 Rule1: NOTCONTAIN(S,)&NOT。

35、ENDWITH(S,)&MATCHED(S, *)OK(); 0118 Rule2: NOTCONTAIN(S,)&NOTENDWITH(S,*)MARK () 0119 Rule2: NOTCONTAIN(S,)&MATCHED(S,*)REWRITE (,) 0120 其中, 上述模式中使用的通配符均为常规意义, 如 “*” 表示中间可以隔开任意多个 字符; &表示 “与” 等等; 上述符号 “” 用于示意该字符前面的匹配条件关联其后的语义操 作。 0121 上述模式中限制函数定义如下: 0122 NOTCONTAIN(,)用于判断待查错句子 “S” 是否包含目标词 “W” 或词类 “WO。

36、RDClASS1” , 如果不包含则返回TRUE, 否则返回FALSE; 0123 NOTENDWITH(,)用于判断待查错句子 “S” 是否以目标词 “W” 或 词类 “WORDClASS1” 结尾, 如果不以结尾返回TRUE, 否则返回FALSE; 0124 MATCHED(,)用于判断待查错句子 “S” 是否匹配目标词 “W” 或 说明书 6/8 页 9 CN 110991166 A 9 词类 “WORDClASS1” ,如果匹配成功返回TRUE, 否则返回FALSE。 0125 汉语词类包括名词、 动词、 形容词、 数词、 量词、 代词、 区别词、 副词、 介词、 连词、 助 词、 叹。

37、词、 语气词、 拟声词等, 则进一步的, 本实施例中所述词类定义: ; W表示具体的字或词。 0126 本实施例中, 所述错别字识别模式的语义操作包括三种类型, 分别定义如下: 0127 OK(): 表示如果满足该模式, 该 “目标词” 是正确的; 0128 MARK(): 表示如果句子满足该模式, 该 “目标词” 可能错误进行标记; 0129 REWRITE(,): 表示如果句子满足该模式, 该 “目标词” 是错误的, 包含错别字,“正确词” 即是其对应的正确的词, 并自动进行替换, 实现校对。 0130 在本发明系统中, 本发明程序被运行, 执行所述步骤D2.时, 包括: 0131 D21。

38、.定义图结构; 对图的边数、 顶点、 入度、 节点等进行定义, 本发明给出的一个具 体实施为: 0132 static int nEdge; /边数 0133 static vectorGW; 0134 static int nRuW; /入度 0135 static int nTypeW; /1词语, 2词类 0136 static int nBelongW; /属于哪一个规则类 0137 /索引(全局) 0138 static int nSum; /FindID元素个数,图节点总数 0139 static mapFindID; /对应图中标号 0140 static mapFindName。

39、; /建立索引与词的映射 0141 D22.定义所述规则的结构(规则即错别字识别模式); 0142 static int nRuleClass; 0143 static vectorRuleClass; 0144 建立索引以后, 通过建立的索引结构对待查错文本(中文句子)进行模式匹配, 并 根据匹配的错别字识别模式中的语义操作进行相应的操作, 以实现自动查错、 自动纠错。 0145 本发明程序被运行, 执行所述步骤D3.包括 0146 D31.对待查错句子进行分词并对每个位置的词进行标记; 0147 该步骤中分词后的待查错句子 “S” W1W2WN, 对分词后的句子利用标记数组 StatusN。

40、对每个位置的词Wi进行标记: 0148 初始状态, Statusi0(1in); 0149 D32.依次扫描上述待查错句子 “S” 中的词Wi, 如果达到句子S的末尾, 则退出查错, 转向D37., 否则转向D33.; 0150 D33.将待查错句子 “S” 中的Wi和错别字识别模式索引进行匹配, 如果匹配成功, 将 匹配的结果放入临时数组(vecTempResult)中; 0151 D34.然后对临时数组(vecTempResult)中的结果取交集, 判断匹配上的个数是否 等于规则的长度, 将有长度相等的规则索引号放入到最终数组vecResult: 0152 D35.依次遍历数组vecRes。

41、ult中的每一条规则, 看匹配上的规则的顺序是否和规 则一致, 如果规则一致, 说明匹配的规则有效 说明书 7/8 页 10 CN 110991166 A 10 0153 例如: 识别句子 “这些孩子们这是去那呀? ” ; 0154 错别字识别模式中, 有规则: NOTCONTAIN(S,)&MATCHED(S,*)MARK(那); 0155 匹配过程如下: 0156 NOTCONTAIN(S,)TRUE 0157 MATCHED(S,*)TRUE 0158 则匹配成功, 执行这一规则中的后件, 标记句子中 “那” 可能有错; 0159 D36.匹配成功, 如果后件(指的是计算机语言中, 数据。

42、结构的后件)是MARK, 则标记 当前目标词的Statusi1, 表示该词有错误, 如果后件是REWRITE, 则标记当前目标词的 Statusi2, 表示该词有错, 并用错别字识别模式后件中的正确词进行替换。 0160 D37.输出查错结果, 当前句子查错结束。 0161 本发明系统实施上述方法, 通过程序实现错别字识别模式的定义和索引的建立, 以及利用错别字识别模式索引自动对待查错文本查错、 纠错; 基于图存储结构的灵活性建 立索引结构实现对数据的广度优先搜索、 深度优先搜索, 利于构建完善的数据库(搭配库), 继而提高错别字识别的准确度。 0162 特别的, 根据本发明公开的实施例, 其。

43、参考的附图(逻辑框图)描述的结构可以被 实现为计算机软件程序, 例如, 上述公开的实施例2包括一种计算机程序产品, 为承载在计 算机可读介质上的计算机程序, 该计算机程序包含用于实现附图1结构中所示流程的代码。 0163 通过程序构建本发明上述基于模式匹配的错别字识别系统; 构建该系统的程序设 计语言包括面向对象的程序设计语言诸如Java、 Smalltalk、 C+, 还包括常规的过程式程 序设计语言诸如 “C” 语言或类似的程序设计语言。 构建出的所述基于模式匹配的错别字 识别系统作为程序代码可以完全地在用户计算机/智能移动终端(如手机、 pad等)上执行、 部分地在用户计算机/智能移动终。

44、端(如手机、 pad等)上执行、 作为一个独立的软件包执行、 部分在用户计算机/智能移动终端(如手机、 pad等)上且部分在远程计算机上执行、 或者完 全在远程计算机或服务器上执行。 在涉及远程计算机的情形中, 远程计算机可以通过任意 种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算机或智能移动终端, 或 者, 可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。 0164 最后应说明的是: 以上各实施例仅用以说明本发明的技术方案, 而非对其限制; 尽 管参照前述各实施例对本发明进行了详细的说明, 本领域的普通技术人员应当理解: 其依 然可以对前述各实施例所记载的技术方案进行修改, 或者对其中部分或者全部技术特征进 行等同替换; 而这些修改或者替换, 并不使相应技术方案的本质脱离本发明各实施例技术 方案的范围, 其均应涵盖在本发明的权利要求和说明书的范围当中。 说明书 8/8 页 11 CN 110991166 A 11 图1 说明书附图 1/1 页 12 CN 110991166 A 12 。

展开阅读全文
内容关键字: 基于 模式 匹配 汉语 错别字 识别 方法 系统
关于本文
本文标题:基于模式匹配的汉语错别字识别方法及系统.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10727246.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1