《识别图像块中文字的方向的方法和装置.pdf》由会员分享,可在线阅读,更多相关《识别图像块中文字的方向的方法和装置.pdf(27页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102855477 A (43)申请公布日 2013.01.02 CN 102855477 A *CN102855477A* (21)申请号 201110189288.8 (22)申请日 2011.06.29 G06K 9/20(2006.01) (71)申请人 富士通株式会社 地址 日本神奈川县 (72)发明人 孙俊 直井聪 (74)专利代理机构 北京集佳知识产权代理有限 公司 11227 代理人 杜诚 李春晖 (54) 发明名称 识别图像块中文字的方向的方法和装置 (57) 摘要 本发明公开了一种识别图像块中文字的方向 的方法和装置。所述方法包括 : 分别以不同方。
2、向 作为假设文字方向对图像块进行光学字符识别处 理, 以得到在各个所述假设文字方向上的子图像 块、 子图像块对应的识别字符及其正确性度量 ; 在互相为 180关系的假设文字方向上的子图像 块中, 搜索子图像块的最小匹配对 ; 所述最小匹 配对是在互相为 180关系的假设文字方向上位 置对应、 大小相同、 包含最小个数的子图像块的两 个子图像块集合 ; 调整搜索到的最小匹配对中的 子图像块, 以消除各个假设文字方向上的子图像 块个数的不同对识别结果的影响 ; 基于调整后的 子图像块计算各个所述假设文字方向上的累积正 确性度量 ; 以及根据所述累积正确性度量识别图 像块中文字的方向。 (51)In。
3、t.Cl. 权利要求书 2 页 说明书 16 页 附图 8 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 2 页 说明书 16 页 附图 8 页 1/2 页 2 1. 一种识别图像块中文字的方向的方法, 包括 : 分别以不同的方向作为假设文字方向对所述图像块进行光学字符识别 OCR 处理, 以得 到在各个所述假设文字方向上的子图像块、 子图像块对应的识别字符及其正确性度量 ; 在互相为 180关系的假设文字方向上的子图像块中, 搜索子图像块的最小匹配对 ; 所述最小匹配对是在互相为 180关系的假设文字方向上位置对应、 大小相同、 包含最小个 数的子图像块的两个子。
4、图像块集合 ; 调整搜索到的最小匹配对中的子图像块, 以消除各个所述假设文字方向上的子图像块 个数的不同对识别结果的影响 ; 基于调整后的子图像块计算各个所述假设文字方向上的累积正确性度量 ; 以及 根据所述累积正确性度量识别图像块中文字的方向。 2. 根据权利要求 1 所述的方法, 其中所述调整搜索到的最小匹配对中的子图像块包 括 : 当最小匹配对中一个假设文字方向上的 M 个子图像块对应于另一个假设文字方向上 的 N 个子图像块且 M N 时, 调整子图像块对应的正确性度量, 其中, M、 N 为正整数。 3. 根据权利要求 1 所述的方法, 其中所述调整搜索到的最小匹配对中的子图像块包 。
5、括 : 当最小匹配对中一个假设文字方向上的 M 个子图像块对应于另一个假设文字方向上 的 N 个子图像块且 M N 时, 调整子图像块的个数使得最小匹配对中两个假设文字方向上 的子图像块个数相同, 其中, M、 N 为正整数。 4. 根据权利要求 2 所述的方法, 其中所述调整子图像块对应的正确性度量包括 : 将所述M个子图像块的正确性度量乘以C/M, 并将所述N个子图像块的正确性度量乘以 C/N, 其中 C 为 M 和 N 的最小公倍数 ; 或者将所述 M 个子图像块的正确性度量乘以 N, 并将所 述 N 个子图像块的正确性度量乘以 M。 5. 根据权利要求 2 所述的方法, 其中所述调整子。
6、图像块对应的正确性度量包括 : 将所述 M 个子图像块的正确性度量除以 M, 并将所述 N 个子图像块的正确性度量除以 N。 6. 根据权利要求 2 所述的方法, 其中所述调整子图像块对应的正确性度量包括 : 将所述 M 个子图像块的正确性度量乘以 N/M。 7. 根据权利要求 3 所述的方法, 其中所述调整子图像块的个数使得最小匹配对中两个 假设文字方向上的子图像块个数相同包括 : 将所述M个子图像块中的每一个复制为C/M个, 并将所述 N 个子图像块中的每一个复制为 C/N 个, 其中 C 为 M 和 N 的最小公倍数 ; 或者将所 述 M 个子图像块中的每一个复制为 N 个, 并将所述 。
7、N 个子图像块中的每一个复制为 M 个。 8. 根据权利要求 3 所述的方法, 其中所述调整子图像块的个数使得最小匹配对中两个 假设文字方向上的子图像块个数相同包括 : 将所述M个子图像块合并为N个新子图像块, 所 述 N 个新子图像块的正确性度量之和是所述 M 个子图像块的正确性度量之和乘以 N/M。 9. 根据权利要求 3 所述的方法, 其中所述调整子图像块的个数使得最小匹配对中两个 假设文字方向上的子图像块个数相同包括 : 将所述 M 个子图像块合并为一个新子图像块, 所述一个新子图像块的正确性度量是所述 M 个子图像块的正确性度量的算术平均值 ; 并将 所述 N 个子图像块合并为另一个。
8、新子图像块, 所述另一个新子图像块的正确性度量是所述 权 利 要 求 书 CN 102855477 A 2 2/2 页 3 N 个子图像块的正确性度量的算术平均值。 10. 一种识别图像块中文字的方向的装置, 包括 : 光学字符识别 OCR 处理单元, 配置为分别以不同的方向作为假设文字方向对所述图像 块进行光学字符识别 OCR 处理, 以得到在各个所述假设文字方向上的子图像块、 子图像块 对应的识别字符及其正确性度量 ; 最小匹配对搜索单元, 配置为在互相为 180关系的假设文字方向上的子图像块中, 搜 索子图像块的最小匹配对 ; 所述最小匹配对是在互相为 180关系的假设文字方向上位置 对。
9、应、 大小相同、 包含最小个数的子图像块的两个子图像块集合 ; 子图像块调整单元, 配置为调整搜索到的最小匹配对中的子图像块, 以消除各个所述 假设文字方向上的子图像块个数的不同对识别结果的影响 ; 累积正确性度量计算单元, 配置为基于调整后的子图像块计算各个所述假设文字方向 上的累积正确性度量 ; 以及 文字方向识别单元, 配置为根据所述累积正确性度量识别图像块中文字的方向。 权 利 要 求 书 CN 102855477 A 3 1/16 页 4 识别图像块中文字的方向的方法和装置 技术领域 0001 本发明一般地涉及文档图像处理。具体而言, 本发明涉及一种识别图像块中文字 的方向的方法和装。
10、置。 背景技术 0002 当用户使用扫描仪等设备对一叠文档进行扫描时, 理想的输入是每个文档的每一 页都以正向放置。以正向放置文档时, 用户能够轻松阅读该文档, 扫描出的文档图像也无 需用户调整方向即可阅读。然而, 实际使用中, 用户要扫描的文档往往是以正向 0、 反向 180、 横向 90和 270交叠放置。如果用户需要在扫描时对文档的放置方向进行逐页的 检查和调整, 工作是繁重而耗时的。因此, 扫描仪设计有自动文档图像方向判别的功能。基 于自动文档图像方向判别功能, 扫描得到的文档图像可以被调整为正向, 从而减轻了用户 的负担, 提高了用户的使用效率。 0003 传统的文档图像自动判别方法。
11、是 : 找到文档图像中的文本行, 在 4 个可能的方向 上分别做光学字符识别OCR(Optical Character Recognition)处理, 得到4个可能方向上 的识别字符及对应的置信度或识别距离, 并计算文本行的平均置信度或平均识别距离。平 均置信度最大或平均识别距离最小的方向被判别为文本行的方向。 进而根据文本行的方向 判断文档图像的方向。文本行的方向是指文本行的正向, 文档图像的方向是指文档图像的 正向。下文中, 文字 ( 的 ) 方向是指文字的正向。 发明内容 0004 在下文中给出了关于本发明的简要概述, 以便提供关于本发明的某些方面的基本 理解。应当理解, 这个概述并不是。
12、关于本发明的穷举性概述。它并不是意图确定本发明的 关键或重要部分, 也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概 念, 以此作为稍后论述的更详细描述的前序。 0005 如图 1 所示, 输入文本行 “TIP AMOUNT” 的图像块, 设该方向为 0方向, 将该文 本行图像块旋转 180得到 180方向的文本行图像块。由于 90和 270方向与 0和 180方向的处理类似, 因此这里仅以 0和 180为例进行说明。分别对 0和 180上的 文本行图像块进行OCR处理, 得到如图1中所示的两个方向上的子图像块、 子图像块对应的 识别字符及其置信度。 0006 采用传统的方法, 。
13、0方向上识别字符的平均置信度 (0.54+0.36+0.48+0.61+0. 71+0.61+0.58+0.65)/8 0.5675, 180方向上识别字符的平均置信度 (0.62+0.58+0.6 5+0.62+0.40+0.50+0.61)/7 0.5686。由于 0.5675 小于 0.5686, 传统的方法会将 180 方向 ( 即平均置信度高的方向 ) 错误地判断为文本行图像块中文字的方向。 0007 产生上述错误的原因是在0方向上图像块被分割为8个子图像块, 而在180方 向上图像块被分割为 7 个子图像块, 旋转前后的图像块对应相同的文字内容, 因此分割出 不同个数的子图像块必然。
14、是错误的。 正是分块个数的不同导致了图像块中文字方向的识别 说 明 书 CN 102855477 A 4 2/16 页 5 结果的错误。 0008 本发明的目的是针对上述问题, 提出了一种能够正确识别图像块中文字的方向的 方法和装置。该方案能够在 OCR 处理导致分块个数不同时仍正确识别出图像块中文字的方 向, 提高自动文档图像方向判别的正确率。 0009 为了实现上述目的, 根据本发明的一个方面, 提供了一种识别图像块中文字的方 向的方法, 包括 : 分别以不同的方向作为假设文字方向对所述图像块进行光学字符识别 OCR 处理, 以得到在各个所述假设文字方向上的子图像块、 子图像块对应的识别字。
15、符及其正 确性度量 ; 在互相为 180关系的假设文字方向上的子图像块中, 搜索子图像块的最小匹 配对 ; 所述最小匹配对是在互相为 180关系的假设文字方向上位置对应、 大小相同、 包含 最小个数的子图像块的两个子图像块集合 ; 调整搜索到的最小匹配对中的子图像块, 以消 除各个所述假设文字方向上的子图像块个数的不同对识别结果的影响 ; 基于调整后的子图 像块计算各个所述假设文字方向上的累积正确性度量 ; 以及根据所述累积正确性度量识别 图像块中文字的方向。 0010 根据本发明的一个具体实施例, 所述调整搜索到的最小匹配对中的子图像块包 括 : 当最小匹配对中一个假设文字方向上的 M 个子。
16、图像块对应于另一个假设文字方向上的 N 个子图像块且 M N 时, 调整子图像块对应的正确性度量, 其中, M、 N 为正整数。 0011 根据本发明的一个具体实施例, 所述调整搜索到的最小匹配对中的子图像块包 括 : 当最小匹配对中一个假设文字方向上的 M 个子图像块对应于另一个假设文字方向上的 N个子图像块且MN时, 调整子图像块的个数使得最小匹配对中两个假设文字方向上的子 图像块个数相同, 其中, M、 N 为正整数。 0012 根据本发明的一个具体实施例, 所述调整子图像块对应的正确性度量包括 : 将所 述 M 个子图像块的正确性度量乘以 C/M, 并将所述 N 个子图像块的正确性度量。
17、乘以 C/N, 其 中 C 为 M 和 N 的最小公倍数 ; 或者将所述 M 个子图像块的正确性度量乘以 N, 并将所述 N 个 子图像块的正确性度量乘以 M。 0013 根据本发明的一个具体实施例, 所述调整子图像块对应的正确性度量包括 : 将所 述 M 个子图像块的正确性度量除以 M, 并将所述 N 个子图像块的正确性度量除以 N。 0014 根据本发明的一个具体实施例, 所述调整子图像块对应的正确性度量包括 : 将所 述 M 个子图像块的正确性度量乘以 N/M。 0015 根据本发明的一个具体实施例, 所述调整子图像块的个数使得最小匹配对中两个 假设文字方向上的子图像块个数相同包括 : 。
18、将所述M个子图像块中的每一个复制为C/M个, 并将所述 N 个子图像块中的每一个复制为 C/N 个, 其中 C 为 M 和 N 的最小公倍数 ; 或者将所 述 M 个子图像块中的每一个复制为 N 个, 并将所述 N 个子图像块中的每一个复制为 M 个。 0016 根据本发明的一个具体实施例, 所述调整子图像块的个数使得最小匹配对中两个 假设文字方向上的子图像块个数相同包括 : 将所述M个子图像块合并为N个新子图像块, 所 述 N 个新子图像块的正确性度量之和是所述 M 个子图像块的正确性度量之和乘以 N/M。 0017 根据本发明的一个具体实施例, 所述调整子图像块的个数使得最小匹配对中两个 。
19、假设文字方向上的子图像块个数相同包括 : 将所述 M 个子图像块合并为一个新子图像块, 所述一个新子图像块的正确性度量是所述 M 个子图像块的正确性度量的算术平均值 ; 并将 所述 N 个子图像块合并为另一个新子图像块, 所述另一个新子图像块的正确性度量是所述 说 明 书 CN 102855477 A 5 3/16 页 6 N 个子图像块的正确性度量的算术平均值。 0018 根据本发明的一个具体实施例, 所述基于调整后的子图像块计算各个所述假设文 字方向上的累积正确性度量包括 : 将各个所述假设文字方向上的调整后的子图像块的正确 性度量之和除以相应假设文字方向上的最小匹配对数的结果作为相应假设。
20、文字方向上的 累积正确性度量。 0019 根据本发明的一个具体实施例, 所述正确性度量包括置信度或识别距离 ; 以及所 述不同方向包括所述图像块的横向上的两个方向和纵向上的两个方向。 0020 根据本发明的另一个方面, 提供了一种识别图像块中文字的方向的装置, 包括 : 光 学字符识别 OCR 处理单元, 配置为分别以不同的方向作为假设文字方向对所述图像块进行 光学字符识别 OCR 处理, 以得到在各个所述假设文字方向上的子图像块、 子图像块对应的 识别字符及其正确性度量 ; 最小匹配对搜索单元, 配置为在互相为 180关系的假设文字 方向上的子图像块中, 搜索子图像块的最小匹配对 ; 所述最。
21、小匹配对是在互相为 180关 系的假设文字方向上位置对应、 大小相同、 包含最小个数的子图像块的两个子图像块集合 ; 子图像块调整单元, 配置为调整搜索到的最小匹配对中的子图像块, 以消除各个所述假设 文字方向上的子图像块个数的不同对识别结果的影响 ; 累积正确性度量计算单元, 配置为 基于调整后的子图像块计算各个所述假设文字方向上的累积正确性度量 ; 以及文字方向识 别单元, 配置为根据所述累积正确性度量识别图像块中文字的方向。 0021 根据本发明的一个具体实施例, 所述子图像块调整单元包括 : 子图像块正确性度 量调整单元, 配置为当最小匹配对中一个假设文字方向上的 M 个子图像块对应于。
22、另一个假 设文字方向上的 N 个子图像块且 M N 时, 调整子图像块对应的正确性度量, 其中, M、 N 为 正整数。 0022 根据本发明的一个具体实施例, 所述子图像块调整单元包括 : 子图像块个数调整 单元, 配置为当最小匹配对中一个假设文字方向上的 M 个子图像块对应于另一个假设文字 方向上的 N 个子图像块且 M N 时, 调整子图像块的个数使得最小匹配对中两个假设文字 方向上的子图像块个数相同, 其中, M、 N 为正整数。 0023 根据本发明的一个具体实施例, 所述累积正确性度量计算单元被配置为将各个所 述假设文字方向上的调整后的子图像块的正确性度量之和除以相应假设文字方向上。
23、的最 小匹配对数的结果作为相应假设文字方向上的累积正确性度量。 0024 另外, 根据本发明的另一方面, 还提供了一种存储介质。 所述存储介质包括机器可 读的程序代码, 当在信息处理设备上执行所述程序代码时, 所述程序代码使得所述信息处 理设备执行根据本发明的上述方法。 0025 此外, 根据本发明的再一方面, 还提供了一种程序产品。 所述程序产品包括机器可 执行的指令, 当在信息处理设备上执行所述指令时, 所述指令使得所述信息处理设备执行 根据本发明的上述方法。 附图说明 0026 参照下面结合附图对本发明实施例的说明, 会更加容易地理解本发明的以上和其 它目的、 特点和优点。附图中的部件只。
24、是为了示出本发明的原理。在附图中, 相同的或类似 的技术特征或部件将采用相同或类似的附图标记来表示。附图中 : 说 明 书 CN 102855477 A 6 4/16 页 7 0027 图 1 示出了文本行图像块在 OCR 处理后所得到的 0和 180方向上的子图像块、 识别字符、 置信度 ; 0028 图 2 示出了文本行图像块在 OCR 处理后所得到的 0和 180方向上的子图像块、 识别字符、 识别距离 ; 0029 图 3 示出根据本发明的第一实施例的识别图像块中文字的方向的方法的流程图 ; 0030 图 4 示出根据本发明的第二实施例的识别图像块中文字的方向的方法的流程图 ; 003。
25、1 图 5 示出根据本发明的第三实施例的识别图像块中文字的方向的方法的流程图 ; 0032 图 6 示出根据本发明的第四实施例的识别图像块中文字的方向的方法的流程图 ; 0033 图 7 示出根据本发明的一个实施例的识别图像块中文字的方向的识别装置的结 构方框图 ; 以及 0034 图 8 示出可用于实施根据本发明实施例的方法和装置的计算机的示意性框图。 具体实施方式 0035 在下文中将结合附图对本发明的示范性实施例进行详细描述。 为了清楚和简明起 见, 在说明书中并未描述实际实施方式的所有特征。然而, 应该了解, 在开发任何这种实际 实施例的过程中必须做出很多特定于实施方式的决定, 以便实。
26、现开发人员的具体目标, 例 如, 符合与系统及业务相关的那些限制条件, 并且这些限制条件可能会随着实施方式的不 同而有所改变。此外, 还应该了解, 虽然开发工作有可能是非常复杂和费时的, 但对得益于 本公开内容的本领域技术人员来说, 这种开发工作仅仅是例行的任务。 0036 在此, 还需要说明的一点是, 为了避免因不必要的细节而模糊了本发明, 在附图中 仅仅示出了与根据本发明的方案密切相关的装置结构和 / 或处理步骤, 而省略了与本发明 关系不大的其他细节。 另外, 还需要指出的是, 在本发明的一个附图或一种实施方式中描述 的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结。
27、合。 0037 下面将参照图 3- 图 6 描述根据本发明的实施例的识别图像块中文字的方向的方 法的流程。 0038 在本文中进行如下假设, 已经从文档图像中找到文本行, 并从文档图像中分割出 包含文本行的图像块。本发明的重点并不在于如何从文档图像中搜索文本行的位置, 而关 注如何正确识别包含文本行的图像块中文字的正确方向。 0039 一般而言, 主要考虑四个主要方向作为假设文字方向。即图像块本身的方向 (0 方向 )、 将图像块旋转 180的方向、 将图像块旋转 90的方向、 将图像块旋转 270的方 向, 也可称为图像块的横向上的两个方向和纵向上的两个方向。 90和270方向主要应用 于汉。
28、语、 日语等可能竖写文字的情形。由于 0和 180方向与 90和 270方向的情况类 似, 因此, 在下文中以 0和 180方向为例进行说明。 0040 下面将参照图 3 描述根据本发明的第一实施例的识别图像块中文字的方向的方 法的流程。 0041 首先, 以 0和 180作为假设文字方向对图像块进行 OCR 处理, 以得到 0和 180方向上的子图像块、 子图像块对应的识别字符及其置信度 ( 步骤 S301)。图 1 示出了 0和 180方向上的子图像块、 识别字符、 置信度的示例, 并对子图像块设置了序号。OCR 识别结果一般包括分割出的子图像块、 子图像块对应的识别字符、 识别字符的正确。
29、性度量。 说 明 书 CN 102855477 A 7 5/16 页 8 正确性度量反映了识别字符的可靠程度, 通常为置信度或识别距离。 置信度越大, 识别字符 正确的可能性越大 ; 识别距离越小, 识别字符正确的可能性越大。在第一和第二实施例中, 将以识别结果中包括置信度为例进行说明。 在第三和第四实施例中将对识别结果中包括识 别距离的情况进行说明。 0042 接着, 在 0和 180方向上的子图像块中, 搜索子图像块的最小匹配对 ( 步骤 S302)。所述最小匹配对是在互相为 180关系的假设文字方向上位置对应、 大小相同、 包 含最小个数的子图像块的两个子图像块集合。最小匹配对包括两个子。
30、图像块集合, 这两个 子图像块集合中包括的子图像块分别位于互相为 180关系的两个假设文字方向上, 并且 两个子图像块集合的位置对应, 大小相同, 即两个子图像块集合中的任一子图像块集合在 随着其所在的文本行旋转 180后, 会与同属于一个最小匹配对中的另一个子图像块集合 重合。当这两个子图像块集合中包含的子图像块个数最小时, 称这两个子图像块集合构成 了最小匹配对。例如, 在图 1 中, P1 与 N7 构成最小匹配对。类似地, P2 与 N6、 P3 和 P4 与 N5、 P5 与 N4、 P6 与 N3、 P7 与 N2、 P8 与 N1 分别构成最小匹配对。最小匹配对的搜索方法有 很多。
31、, 例如, 可以根据最小匹配对的定义从两个方向的对应侧依次寻找最小匹配对。 具体地 说, 如图 1 所示, 在 0方向的最左侧和 180方向的最右侧, 分别找到第一个子图像块 P1 和 N7, 判断两个子图像块大小相同, 因此将 P1 和 N7 确定为一个最小匹配对。然后, 继续沿 上述两个方向寻找下一个子图像块 P2 和 N6, 判断两个图像块大小相同, 因此将 P2 和 N6 确 定为一个最小匹配对。继而, 继续沿上述两个方向寻找下一个子图像块 P3 和 N5, 判断两个 子图像块大小不同, 根据最小匹配对的定义, 在较小的子图像块 P3 所在的 0方向上继续 寻找到子图像块 P4, 比较。
32、包含子图像块 P3 和 P4 的子图像块集合的大小与包含子图像块 N5 的子图像块集合的大小, 判断为上述两个子图像块集合大小一致, 因此, 将包含子图像块 P3 和 P4 的子图像块集合与包含子图像块 N5 的子图像块集合确定为一个最小匹配对。依次类 推, 直至互相为 180关系的两个假设文字方向上的所有最小匹配对均被找到。 0043 如上所述, 出现错误的原因在于互相为 180关系的假设文字方向上的图像块在 OCR 处理后被分割为数目不同的子图像块。通过上述步骤 S302 中找到的最小匹配对, 可以 认定为将文本行的图像块进一步细分的结果。 由于最小匹配对的大小相同、 位置对应, 最小 匹。
33、配对的分割必然是正确的, 最小匹配对中的两个子图像块集合对应着相同的文字内容。 相应地, 与文本行层面的情况类似, 在最小匹配对的层面上, 如果最小匹配对中两个方向上 的子图像块集合包含有相同个数的子图像块, 则不会由于分割结果不一致造成对文本行方 向的错误判断。如果最小匹配对中两个方向上的子图像块集合包含有不同个数的子图像 块, 则这样的分割结果可能造成对文本行方向的错误判断。 换言之, 本发明所要解决的问题 的根源在于对不同方向的相同文本内容进行 OCR 处理后, 得到的分割的子图像块的个数不 同。通过寻找最小匹配对, 将文本行层面上两个不同方向的文本行图像块中包含的子图像 块个数不同, 。
34、转化为最小匹配对层面上两个方向的子图像块集合中包含的子图像块个数不 同。 0044 因此, 在步骤 S303 中, 判断最小匹配对中两个假设文字方向上子图像块的个数是 否相同。如果判断结果为是, 则表示没有分割不一致的情况发生, 进行到步骤 S305 进行后 续处理, 而无需调整。如果判断为否, 则进入步骤 S304, 对最小匹配对中的子图像块对应的 置信度进行调整。 说 明 书 CN 102855477 A 8 6/16 页 9 0045 调整最小匹配对中的子图像块对应的置信度是为了消除各个假设文字方向上的 子图像块个数的不同对识别结果的影响。具体的方式有多种。在此, 给出几种示例性的实 施。
35、方式。这里假设最小匹配对中一个假设文字方向上的 M 个子图像块对应于另一个假设文 字方向上的 N 个子图像块, 其中, M、 N 为正整数, 由上面分析可知, 当 M N 时, 子图像块的 切割结果正确, 无需进行调整, 因此, 仅对 M N 的情形, 调整子图像块对应的正确性度量, 在本实施例中, 正确性度量是置信度。 0046 方式一 : 将所述 M 个子图像块的置信度乘以 N, 并将所述 N 个子图像块的置信度乘 以 M。 0047 如图 1 所示, 只有包含 P3 和 P4 与 N5 的最小匹配对中两个方向的子图像块个数不 同。因此, M 2, N 1。将 P3 和 P4 的置信度均乘。
36、以 1, 并将 N5 的置信度乘以 2 作为 N5 的新的置信度, 即调整后的 N5 所对应的置信度为 0.402 0.80。 0048 方式二 : 将所述 M 个子图像块的置信度均乘以 C/M, 并将所述 N 个子图像块的置信 度均乘以 C/N, 其中 C 为 M 和 N 的最小公倍数。 0049 在图 1 中的示例中, M 与 N 互质。如果 M 4, N 3, 根据方式一可以使得所述 M 个子图像块的正确性度量乘以 N, 并将所述 N 个子图像块的正确性度量乘以 M。但显然, 优 选地, 也可以计算 M 与 N 的最小公倍数 C, 并将所述 M 个子图像块的正确性度量乘以 C/M, 并 。
37、将所述 N 个子图像块的正确性度量乘以 C/N。 0050 方式三 : 将所述 M 个子图像块的置信度均除以 M, 并将所述 N 个子图像块的置信度 均除以 N。 0051 如图 1 所示, 只有包含 P3 和 P4 与 N5 的最小匹配对中两个方向的子图像块个数不 同。因此, M 2, N 1。将 P3 和 P4 的置信度均除以 2 作为 P3 和 P4 的新的置信度, 即调 整后的 P3 和 P4 所对应的置信度分别为 0.24 和 0.305, 并将 N5 的置信度除以 1 作为 N5 的 新的置信度。 0052 方式四 : 将所述 M 个子图像块的置信度乘以 N/M。 0053 如图 。
38、1 所示, 只有包含 P3 和 P4 与 N5 的最小匹配对中两个方向的子图像块个数不 同。因此, M 2, N 1。将 P3 和 P4 的置信度均乘以 1/2 作为 P3 和 P4 的新的置信度, 即 调整后的 P3 和 P4 所对应的置信度分别为 0.24 和 0.305, 并将 N5 的置信度除以 1 作为 N5 的新的置信度。 0054 在步骤 S304 中调整了在其两个方向上的子图像块集合中包含不同个数的子图像 块的最小匹配对的置信度之后, 获得了经调整的置信度, 处理进行到步骤 S305, 基于调整后 的置信度计算各个假设方向上的累积置信度, 并根据累积置信度识别文本行图像块中文字。
39、 的方向。 0055 累积置信度是用来表征一个方向上文本行图像块的识别结果整体的正确性度量。 通常有两种具体方式计算累积置信度。 可以将一个假设文字方向上的所有子图像块对应的 置信度之和作为该方向上的累积置信度。 也可以将一个假设文字方向上的所有子图像块对 应的置信度的算术平均值作为该方向上的累积置信度。 累积置信度更高的方向更有可能是 正确的识别结果。 0056 在上述步骤 S304 中, 方式一到方式四的目的都是通过调整最小匹配对中的置信 度来消除各个假设文字方向上的子图像块个数的不同对识别结果的影响, 调整的结果都 说 明 书 CN 102855477 A 9 7/16 页 10 是最小。
40、匹配对中两个子图像块集合整体的置信度具有了更好的可比性, 对于累积置信度而 言, 采用置信度求和的方式, 通过增加了具有较少子图像块的方向上的置信度或者通过减 少了具有较多子图像块的方向上的置信度来使得两个方向上的累积置信度 ( 该方向上的 置信度之和 ) 具有更高的可信度。而采用平均置信度计算累积置信度时, 相当于调整了作 为分子的置信度之和, 显然如果两个方向上计算累积置信度时的分母不同, 仍会体现出各 个假设文字方向上的子图像块个数不同, 从而对识别结果造成负面影响。 因此, 在第一实施 例中, 采用置信度的算术平均值计算累积置信度时, 计算平均值时的分母应一致, 可以取调 整前的任意方。
41、向上的子图像块个数, 如图1所示的示例中, 可取7或8。 优选地, 取一个假设 文字方向上的最小匹配对数, 此时的物理意义是将最小匹配对中的子图像块集合作为文本 行图像块分割得到的结果的基本单位, 调整了最小匹配对中两个子图像块集合对外整体的 置信度, 不难理解, 此时宜取最小匹配对数作为计算平均置信度时的分母。 0057 显然, 各个假设文字方向中, 累积置信度最高的假设文字方向应被判定为正确的 识别结果所在的方向。 0058 以取一个假设文字方向上的所有置信度的总和作为累积置信度为例, 采用上述步 骤 S304 的方式一至方式四, 计算的累积置信度分别为 : 0059 方式一 : 0060。
42、 0方向累积置信度 0.54+0.36+0.48+0.61+0.71+0.61+0.58+0.65 4.54 0061 180方向累积置信度 0.62+0.58+0.65+0.62+0.80+0.50+0.61 4.38 0062 方式二 : 0063 0方向累积置信度 0.54+0.36+0.48+0.61+0.71+0.61+0.58+0.65 4.54 0064 180方向累积置信度 0.62+0.58+0.65+0.62+0.80+0.50+0.61 4.38 0065 方式三 : 0066 0方向累积置信度 0.54+0.36+0.24+0.305+0.71+0.61+0.58+0.。
43、65 3.995 0067 180方向累积置信度 0.62+0.58+0.65+0.62+0.40+0.50+0.61 3.98 0068 方式四 : 0069 0方向累积置信度 0.54+0.36+0.24+0.305+0.71+0.61+0.58+0.65 3.995 0070 180方向累积置信度 0.62+0.58+0.65+0.62+0.40+0.50+0.61 3.98 0071 可见, 采用上述四种方式调整置信度后, 均为 0方向累积置信度大于 180方向 累积置信度。 如果采用除以最小匹配对数7计算平均置信度的方式, 显然0方向累积置信 度也仍均大于180方向累积置信度。 因此。
44、, 消除了各个假设文字方向上的子图像块个数的 不同对识别结果的影响。 0072 下面将参照图 4 描述根据本发明的第二实施例的识别图像块中文字的方向的方 法的流程。 0073 步骤 S401-S403、 S405 与上文中第一实施例的步骤 S301-S303、 S305 分别相同, 故 在此省略对其的详细描述。与第一实施例相比, 第二实施例的主要区别之处在于调整最小 匹配对中两个子图像块集合中的子图像块的个数使得两个子图像块集合中的子图像块个 数相同。 0074 如上所述, 出现错误的原因在于互相为 180关系的假设文字方向上的图像块在 OCR 处理后被分割为数目不同的子图像块。通过步骤 S4。
45、02 中找到的最小匹配对, 将文本行 说 明 书 CN 102855477 A 10 8/16 页 11 层面上两个不同方向的文本行图像块中包含的子图像块个数不同, 转化为最小匹配对层面 上两个方向的子图像块集合中包含的子图像块个数不同。在第一实施例中, 调整最小匹配 对中两个方向上的子图像块集合对外整体的置信度, 但对在各个假设文字方向上, 分割出 来的子图像块个数仍然不同, 故而在计算平均置信度时, 通过优选最小匹配对对数作为分 子, 或者取其它相同数值的分子来得到正确的识别结果。由于问题的根源在于最小匹配对 中的两个方向上的子图像块集合中的子图像块个数不同, 因此, 本发明人意识到可以将。
46、最 小匹配对中两个假设文字方向上的子图像块的个数调整为相同来克服解决本发明所要解 决的技术问题。 0075 在步骤 S404 中, 调整最小匹配对中的子图像块个数使得最小匹配对中两个假设 文字方向上的子图像块个数相同是为了消除各个假设文字方向上的子图像块个数的不同 对识别结果的影响。具体的方式有多种。在此, 给出几种示例性的实施方式。这里假设最 小匹配对中一个假设文字方向上的M个子图像块对应于另一个假设文字方向上的N个子图 像块, 其中, M、 N 为正整数, 由上面分析可知, 当 M N 时, 子图像块的切割结果正确, 无需进 行调整, 因此, 仅对 M N 的情形, 调整子图像块对应的正确。
47、性度量, 在本实施例中, 正确性 度量是置信度。 0076 方式一 : 将所述M个子图像块中的每一个复制为N个, 并将所述N个子图像块中的 每一个复制为 M 个。 0077 应注意 : 这里, 复制意味着每个被复制的子图像块被复制 M 或 N 次, 从而得到 M 或 N 个相同的被复制的子图像块, 子图像块的置信度在复制前后没有变化。并且, 这里的复制 主要是为了判断正确的文字方向, 并不意味着文本行对应的识别字符中会出现多个被复制 的相同字符。 0078 如图 1 所示, 只有包含 P3 和 P4 与 N5 的最小匹配对中两个方向的子图像块个数不 同。因此, M 2, N 1。将 N5 复制。
48、为 2 个, 使得 180方向具有两个子图像块 N5, 每个 N5 的置信度均为 0.4。 0079 方式二 : 将所述M个子图像块中的每一个复制为C/M个, 并将所述N个子图像块中 的每一个复制为 C/N 个, 其中 C 为 M 和 N 的最小公倍数。 0080 在图 1 中的示例中, M 与 N 互质。如果 M 4, N 6, 根据方式一可以使得将所述 M 个子图像块中的每一个复制为 N 个, 并将所述 N 个子图像块中的每一个复制为 M 个。但 显然, 优选地, 也可以计算 M 与 N 的最小公倍数 C, 并将将所述 M 个子图像块中的每一个复 制为 C/M 个, 并将所述 N 个子图像块中的每一个复制为 C/N 个。例如, 在 M 4, N 6 时, C 12, 因此将 4 个子图像块中的每一个复制为 3 个, 将 6 个子图像块中的每一个复制为 2 个。 0081 方式三 : 将所述M个子图像块合并为N个新子图像块, 所述N个新子图像块的置信 度之和是所述 M 个子图像块的置信度之和乘以 N/M。 0082 如图 1 所示, 只有包含 P3 和 P4 与 N5 的最小匹配对中两个方向的子图像块个数不 同。因此, M 2, N 1。将 P3 和 P4 合并为一个新的子图像块 P34, 其置信度为 P3 和 P4 对应的置信。