影像文字识别方法及装置.pdf
![影像文字识别方法及装置.pdf_第1页](https://img.zhuanlichaxun.net/fileroot4/2021-6/3/00b86107-a34e-43d0-aff7-ab09d97b9fe9/00b86107-a34e-43d0-aff7-ab09d97b9fe91.gif)
![影像文字识别方法及装置.pdf_第2页](https://img.zhuanlichaxun.net/fileroot4/2021-6/3/00b86107-a34e-43d0-aff7-ab09d97b9fe9/00b86107-a34e-43d0-aff7-ab09d97b9fe92.gif)
![影像文字识别方法及装置.pdf_第3页](https://img.zhuanlichaxun.net/fileroot4/2021-6/3/00b86107-a34e-43d0-aff7-ab09d97b9fe9/00b86107-a34e-43d0-aff7-ab09d97b9fe93.gif)
《影像文字识别方法及装置.pdf》由会员分享,可在线阅读,更多相关《影像文字识别方法及装置.pdf(24页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010283832.4 (22)申请日 2020.04.13 (71)申请人 中国工商银行股份有限公司 地址 100140 北京市西城区复兴门内大街 55号 (72)发明人 张鹏齐蓉童华臣张敏华 (74)专利代理机构 北京三友知识产权代理有限 公司 11127 代理人 刘熔王涛 (51)Int.Cl. G06K 9/34(2006.01) G06K 9/00(2006.01) (54)发明名称 影像文字识别方法及装置 (57)摘要 本发明公开了一种影像文字识别方法及装 置,。
2、 其中, 该方法包括: 获取原始影像, 对原始影 像进行影像背景去除处理, 以生成去除背景图 像; 对去除背景图像进行二值化处理, 以生成二 值化图像; 将二值化图像进行膨胀处理, 并对膨 胀处理后的图像进行干扰形状去除处理, 以生成 去除干扰形状的二值化图像; 根据预先设置的数 据字典对去除干扰形状的二值化图像进行文字 识别, 以识别原始影像中的文字。 通过本发明, 可 以提高影像文字识别的准确率。 权利要求书3页 说明书11页 附图9页 CN 111476243 A 2020.07.31 CN 111476243 A 1.一种影像文字识别方法, 其特征在于, 所述方法包括: 获取原始影像,。
3、 对所述原始影像进行影像背景去除处理, 以生成去除背景图像; 对所述去除背景图像进行二值化处理, 以生成二值化图像; 将所述二值化图像进行膨胀处理, 并对膨胀处理后的图像进行干扰形状去除处理, 以 生成去除干扰形状的二值化图像; 根据预先设置的数据字典对所述去除干扰形状的二值化图像进行文字识别, 以识别所 述原始影像中的文字。 2.根据权利要求1所述的方法, 其特征在于, 对所述原始影像进行影像背景去除处理, 以生成去除背景图像包括: 对所述原始影像进行灰度处理, 以生成灰度图像; 对所述灰度图像进行直方图均衡化处理和平滑去噪处理, 以生成所述去除背景图像。 3.根据权利要求1所述的方法, 其。
4、特征在于, 对所述去除背景图像进行二值化处理, 以 生成二值化图像包括: 将所述去除背景图像输入至训练好的图像分类模型, 以生成应用于该去除背景图像的 二值化分割阈值; 根据所述二值化分割阈值对所述去除背景图像进行二值化处理, 以生成二值化图像。 4.根据权利要求3所述的方法, 其特征在于, 在识别所述原始影像中的文字之后, 所述 方法还包括: 根据预定规则对文字识别结果进行有效性判断; 响应于所述文字识别结果有效, 根据所述文字识别结果更新所述数据字典, 以及根据 所述去除背景图像和所述二值化分割阈值更新所述图像分类模型。 5.根据权利要求4所述的方法, 其特征在于, 所述文字识别结果包括:。
5、 多个单词, 通过如 下方式判断所述文字识别结果有效: 当识别的多个单词中的有效单词数量与总单词数量的比值大于预定阈值时, 判断所述 文字识别结果有效。 6.根据权利要求1所述的方法, 其特征在于, 将所述二值化图像进行膨胀处理包括: 将所述二值化图像进行像素反转处理, 以生成像素反转的二值化图像; 根据预定的膨胀算法对所述像素反转的二值化图像进行膨胀处理。 7.根据权利要求1所述的方法, 其特征在于, 对膨胀处理后的图像进行干扰形状去除处 理, 以生成去除干扰形状的二值化图像包括: 根据预定的轮廓识别算法对所述膨胀处理后的图像进行轮廓查找操作, 以生成多个轮 廓; 根据预定的非文字区域识别规。
6、则对所述多个轮廓进行识别, 以识别属于非文字区域的 轮廓; 去除识别的属于非文字区域的轮廓, 以生成所述去除干扰形状的二值化图像。 8.根据权利要求7所述的方法, 其特征在于, 根据预定的非文字区域识别规则对所述多 个轮廓的以下至少之一进行识别: 轮廓面积信息、 轮廓边界矩形的长宽信息和面积信息、 轮廓直线拟合直线与原始影像 图像的横轴或纵轴夹角信息。 权利要求书 1/3 页 2 CN 111476243 A 2 9.一种影像文字识别装置, 其特征在于, 所述装置包括: 影像获取单元, 用于获取原始影像; 背景去除处理单元, 用于对所述原始影像进行影像背景去除处理, 以生成去除背景图 像; 二。
7、值化处理单元, 用于对所述去除背景图像进行二值化处理, 以生成二值化图像; 膨胀处理单元, 用于将所述二值化图像进行膨胀处理; 干扰形状去除处理单元, 用于对膨胀处理后的图像进行干扰形状去除处理, 以生成去 除干扰形状的二值化图像; 文字识别单元, 用于根据预先设置的数据字典对所述去除干扰形状的二值化图像进行 文字识别, 以识别所述原始影像中的文字。 10.根据权利要求9所述的装置, 其特征在于, 所述背景去除处理单元包括: 灰度处理模块, 用于对所述原始影像进行灰度处理, 以生成灰度图像; 背景去除处理模块, 用于对所述灰度图像进行直方图均衡化处理和平滑去噪处理, 以 生成所述去除背景图像。。
8、 11.根据权利要求9所述的装置, 其特征在于, 所述二值化处理单元包括: 二值化分割阈值生成模块, 用于将所述去除背景图像输入至训练好的图像分类模型, 以生成应用于该去除背景图像的二值化分割阈值; 二值化处理模块, 用于根据所述二值化分割阈值对所述去除背景图像进行二值化处 理, 以生成二值化图像。 12.根据权利要求11所述的装置, 其特征在于, 所述装置还包括: 识别结果判断单元, 用于根据预定规则对文字识别结果进行有效性判断; 更新单元, 用于响应于所述文字识别结果有效, 根据所述文字识别结果更新所述数据 字典, 以及根据所述去除背景图像和所述二值化分割阈值更新所述图像分类模型。 13.。
9、根据权利要求12所述的装置, 其特征在于, 所述文字识别结果包括: 多个单词, 所述 识别结果判断单元具体用于: 当识别的多个单词中的有效单词数量与总单词数量的比值大于预定阈值时, 判断所述 文字识别结果有效。 14.根据权利要求9所述的装置, 其特征在于, 所述膨胀处理单元包括: 像素反转处理模块, 用于将所述二值化图像进行像素反转处理, 以生成像素反转的二 值化图像; 膨胀处理模块, 用于根据预定的膨胀算法对所述像素反转的二值化图像进行膨胀处 理。 15.根据权利要求9所述的装置, 其特征在于, 所述干扰形状去除处理单元包括: 轮廓识别模块, 用于根据预定的轮廓识别算法对所述膨胀处理后的图。
10、像进行轮廓查找 操作, 以生成多个轮廓; 非文字区域识别模块, 用于根据预定的非文字区域识别规则对所述多个轮廓进行识 别, 以识别属于非文字区域的轮廓; 干扰形状去除处理模块, 用于去除识别的属于非文字区域的轮廓, 以生成所述去除干 扰形状的二值化图像。 权利要求书 2/3 页 3 CN 111476243 A 3 16.根据权利要求15所述的装置, 其特征在于, 所述非文字区域识别模块根据预定的非 文字区域识别规则对所述多个轮廓的以下至少之一进行识别: 轮廓面积信息、 轮廓边界矩形的长宽信息和面积信息、 轮廓直线拟合直线与原始影像 图像的横轴或纵轴夹角信息。 17.一种电子设备, 包括存储器。
11、、 处理器及存储在存储器上并可在处理器上运行的计算 机程序, 其特征在于, 所述处理器执行所述程序时实现权利要求1至8中任一项所述方法的 步骤。 18.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该计算机程序被 处理器执行时实现权利要求1至8中任一项所述方法的步骤。 权利要求书 3/3 页 4 CN 111476243 A 4 影像文字识别方法及装置 技术领域 0001 本发明涉及图像识别领域, 具体涉及一种影像文字识别方法及装置。 背景技术 0002 在当前的国际单证业务中, 业务人员需对客户提交的影像资料, 人工识别其中内 容并手工录入。 若要实现单证智能审单, 则首先。
12、需要对这些影像识别其中的文字, 并基于识 别结果形成结构化数据。 因此, 影像文字识别的准确性是智能审单的有效性必要前提。 0003 但是, 单证业务影像来自各行各业, 不同公司、 不同类别影像的板式和质量千差万 别, 很难使用同一标准进行图像预处理, 从而导致了影像文字识别的准确性较低。 发明内容 0004 有鉴于此, 本发明提供一种影像文字识别方法及装置, 以解决上述提及的至少一 个问题。 0005 根据本发明的第一方面, 提供一种影像文字识别方法, 所述方法包括: 获取原始影 像, 对所述原始影像进行影像背景去除处理, 以生成去除背景图像; 对所述去除背景图像进 行二值化处理, 以生成二。
13、值化图像; 将所述二值化图像进行膨胀处理, 并对膨胀处理后的图 像进行干扰形状去除处理, 以生成去除干扰形状的二值化图像; 根据预先设置的数据字典 对所述去除干扰形状的二值化图像进行文字识别, 以识别所述原始影像中的文字。 0006 根据本发明的第二方面, 提供一种影像文字识别装置, 所述装置包括: 影像获取单 元, 用于获取原始影像; 背景去除处理单元, 用于对所述原始影像进行影像背景去除处理, 以生成去除背景图像; 二值化处理单元, 用于对所述去除背景图像进行二值化处理, 以生成 二值化图像; 膨胀处理单元, 用于将所述二值化图像进行膨胀处理; 干扰形状去除处理单 元, 用于对膨胀处理后的。
14、图像进行干扰形状去除处理, 以生成去除干扰形状的二值化图像; 文字识别单元, 用于根据预先设置的数据字典对所述去除干扰形状的二值化图像进行文字 识别, 以识别所述原始影像中的文字。 0007 根据本发明的第三方面, 提供一种电子设备, 包括存储器、 处理器及存储在存储器 上并可在处理器上运行的计算机程序, 所述处理器执行所述程序时实现上述方法的步骤。 0008 根据本发明的第四方面, 本发明提供一种计算机可读存储介质, 其上存储有计算 机程序, 该计算机程序被处理器执行时实现上述方法的步骤。 0009 由上述技术方案可知, 通过对获取的原始影像进行影像背景去除处理生成去除背 景图像, 并对去除。
15、背景图像进行二值化处理生成二值化图像, 随后对二值化图像进行膨胀 处理后进行干扰形状去除处理生成去除干扰形状的二值化图像, 之后根据预先设置的数据 字典对去除干扰形状的二值化图像进行文字识别, 以识别所述原始影像中的文字, 通过对 原始影像进行影像背景去除处理、 二值化处理、 膨胀处理和干扰形状去除处理这些预处理, 去除了影像中和文本无关的内容, 仅保留了关注的信息, 从而可以获得更好的影像文字识 别的准确率。 说明书 1/11 页 5 CN 111476243 A 5 附图说明 0010 为了更清楚地说明本发明实施例或现有技术中的技术方案, 下面将对实施例或现 有技术描述中所需要使用的附图作。
16、简单地介绍, 显而易见地, 下面描述中的附图是本发明 的一些实施例, 对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下, 还可以根据 这些附图获得其他的附图。 0011 图1是根据本发明实施例的影像文字识别方法的流程图; 0012 图2是根据本发明实施例的影像文字识别装置的结构框图; 0013 图3是根据本发明实施例的背景去除处理单元22的结构框图; 0014 图4是根据本发明实施例的二值化处理单元23的结构框图; 0015 图5是根据本发明实施例的膨胀处理单元24的结构框图; 0016 图6是根据本发明实施例的干扰形状去除处理单元25的结构框图; 0017 图7是根据本发明实施例的影。
17、像文字识别装置的详细结构框图; 0018 图8是根据本发明实施例的自适应图像预处理系统的结构框图; 0019 图9是根据本发明实施例的影像背景去除装置1的结构框图; 0020 图10是根据本发明实施例的影像自适应二值化装置2的结构框图; 0021 图11(a)是原始图像, 图11(b)是根据本发明实施例的二值化后的图像; 0022 图12是根据本发明实施例的影像干扰形状去除装置3的结构框图; 0023 图13是根据本发明实施例的轮廓边界框示意图; 0024 图14是根据本发明实施例的轮廓拟合直线示意图; 0025 图15是根据本发明实施例的影像文字识别装置4的结构框图; 0026 图16是根据。
18、本发明实施例的基于图8所示系统的图像识别流程图; 0027 图17是根据本发明实施例的电子设备的示意图。 具体实施方式 0028 为使本发明实施例的目的、 技术方案和优点更加清楚, 下面将结合本发明实施例 中的附图, 对本发明实施例中的技术方案进行清楚、 完整的描述, 显然, 所描述的实施例是 本发明一部分实施例, 而不是全部的实施例。 基于本发明中的实施例, 本领域普通技术人员 在没有作出创造性劳动前提下所获得的所有其他实施例, 都属于本发明保护的范围。 0029 在识别单证业务影像过程中, 存在待处理影像差别较大、 无法使用同一预处理方 法处理的场景, 此时很难使用同一标准对待处理影像进行。
19、图像预处理, 而图像预处理的好 坏在很大程度上决定了影像文字识别的准确率。 基于此, 本发明实施例提供一种影像文字 识别方案, 以提高影像文字识别的准确率。 0030 图1是根据本发明实施例的影像文字识别方法的流程图, 如图1所示, 该方法包括: 0031 步骤101, 获取原始影像, 对所述原始影像进行影像背景去除处理, 以生成去除背 景图像。 0032 具体而言, 影像背景去除处理包括: 先对所述原始影像进行灰度处理, 以生成灰度 图像; 之后对所述灰度图像进行直方图均衡化处理和平滑去噪处理, 以生成所述去除背景 图像。 0033 步骤102, 对所述去除背景图像进行二值化处理, 以生成二。
20、值化图像。 说明书 2/11 页 6 CN 111476243 A 6 0034 在具体实施过程中, 可以先将去除背景图像输入至训练好的图像分类模型, 以生 成应用于该去除背景图像的二值化分割阈值; 之后, 根据所述二值化分割阈值对所述去除 背景图像进行二值化处理, 以生成二值化图像。 0035 步骤103, 将所述二值化图像进行膨胀处理, 并对膨胀处理后的图像进行干扰形状 去除处理, 以生成去除干扰形状的二值化图像。 0036 具体地, 在进行膨胀处理时, 先要对所述二值化图像进行像素反转处理, 以生成像 素反转的二值化图像; 之后根据预定的膨胀算法对所述像素反转的二值化图像进行膨胀处 理。。
21、 这里的膨胀算法可以依据现有算法而定, 本发明不限于此。 0037 像素反转处理, 即为将像素原为白点置为黑点, 原黑点置为白点。 0038 随后, 根据预定的轮廓识别算法对所述膨胀处理后的图像进行轮廓查找操作, 生 成多个轮廓; 再根据预定的非文字区域识别规则对所述多个轮廓进行识别, 以识别属于非 文字区域的轮廓; 最后去除识别的属于非文字区域的轮廓, 以生成所述去除干扰形状的二 值化图像。 0039 在根据预定非文字区域识别规则对所述多个轮廓进行识别时, 具体可以根据以下 的一种或多种进行识别: 轮廓面积信息、 轮廓边界矩形的长宽信息和面积信息、 轮廓直线拟 合直线与原始影像图像的横轴或纵。
22、轴夹角信息。 0040 这里的轮廓识别算法可以依据现有算法而定, 本发明不限于此。 0041 步骤104, 根据预先设置的数据字典对所述去除干扰形状的二值化图像进行文字 识别, 以识别所述原始影像中的文字。 0042 通过对获取的原始影像进行影像背景去除处理生成去除背景图像, 并对去除背景 图像进行二值化处理生成二值化图像, 随后对二值化图像进行膨胀处理后进行干扰形状去 除处理生成去除干扰形状的二值化图像, 之后根据预先设置的数据字典对去除干扰形状的 二值化图像进行文字识别, 以识别所述原始影像中的文字, 通过对原始影像进行影像背景 去除处理、 二值化处理、 膨胀处理和干扰形状去除处理这些预处。
23、理, 去除了影像中和文本无 关的内容, 仅保留了关注的信息, 从而可以获得更好的影像文字识别的准确率。 0043 在识别原始影像中的文字之后, 还可以根据预定规则对文字识别结果进行有效性 判断。 这里的文字识别结果主要包括多个单词, 当识别的多个单词中的有效单词数量与总 单词数量的比值大于预定阈值时, 判断文字识别结果有效。 0044 其中, 包含在数据字典中的单词认为是有效单词。 这里的预定阈值可以依据实际 情况而定, 本发明不限于此。 0045 当文字识别结果有效时, 可以根据所述文字识别结果更新步骤104中的数据字典, 以及根据步骤102中的去除背景图像和二值化分割阈值更新上述图像分类模。
24、型。 0046 本发明实施例通过分析图像背景、 底纹、 噪点和干扰线等形态学和统计学特征, 迭 代去除影像中和文本无关的内容, 仅保留关注的信息, 从而可以获得更好的影像文字识别 准确率。 0047 基于相似的发明构思, 本发明实施例还提供一种影像文字识别装置, 优选地, 该装 置用于实现上述方法实施例中的流程。 0048 图2是该影像文字识别装置的结构框图, 如图2所示, 该装置包括: 影像获取单元 21、 背景去除处理单元22、 二值化处理单元23、 膨胀处理单元24、 干扰形状去除处理单元25 说明书 3/11 页 7 CN 111476243 A 7 和文字识别单元26, 其中: 00。
25、49 影像获取单元21, 用于获取原始影像; 0050 背景去除处理单元22, 用于对所述原始影像进行影像背景去除处理, 以生成去除 背景图像; 0051 二值化处理单元23, 用于对所述去除背景图像进行二值化处理, 以生成二值化图 像; 0052 膨胀处理单元24, 用于将所述二值化图像进行膨胀处理; 0053 干扰形状去除处理单元25, 用于对膨胀处理后的图像进行干扰形状去除处理, 以 生成去除干扰形状的二值化图像; 0054 文字识别单元26, 用于根据预先设置的数据字典对所述去除干扰形状的二值化图 像进行文字识别, 以识别所述原始影像中的文字。 0055 通过背景去除处理单元22对影像。
26、获取单元21获取的原始影像进行影像背景去除 处理生成去除背景图像, 二值化处理单元23对去除背景图像进行二值化处理生成二值化图 像, 随后膨胀处理单元24对二值化图像进行膨胀处理, 干扰形状去除处理单元25对膨胀处 理后的图像进行干扰形状去除处理生成去除干扰形状的二值化图像, 之后文字识别单元26 根据预先设置的数据字典对去除干扰形状的二值化图像进行文字识别, 以识别所述原始影 像中的文字, 通过对原始影像进行影像背景去除处理、 二值化处理、 膨胀处理和干扰形状去 除处理这些预处理, 去除了影像中和文本无关的内容, 仅保留了关注的信息, 从而可以获得 更好的影像文字识别的准确率。 0056 具。
27、体地, 如图3所示, 背景去除处理单元22包括: 灰度处理模块221和背景去除处理 模块222, 其中: 0057 灰度处理模块221, 用于对所述原始影像进行灰度处理, 以生成灰度图像; 0058 背景去除处理模块222, 用于对所述灰度图像进行直方图均衡化处理和平滑去噪 处理, 以生成所述去除背景图像。 0059 如图4所示, 二值化处理单元23具体包括: 二值化分割阈值生成模块231和二值化 处理模块232, 其中: 0060 二值化分割阈值生成模块231, 用于将所述去除背景图像输入至训练好的图像分 类模型, 以生成应用于该去除背景图像的二值化分割阈值; 0061 二值化处理模块232。
28、, 用于根据所述二值化分割阈值对所述去除背景图像进行二 值化处理, 以生成二值化图像。 0062 如图5所示, 膨胀处理单元24具体包括: 像素反转处理模块241和膨胀处理模块 242, 其中: 0063 像素反转处理模块241, 用于将所述二值化图像进行像素反转处理, 以生成像素反 转的二值化图像; 0064 膨胀处理模块242, 用于根据预定的膨胀算法对所述像素反转的二值化图像进行 膨胀处理。 0065 如图6所示, 干扰形状去除处理单元25具体包括: 轮廓识别模块251、 非文字区域识 别模块252和干扰形状去除处理模块253, 其中: 0066 轮廓识别模块251, 用于根据预定的轮廓。
29、识别算法对所述膨胀处理后的图像进行 说明书 4/11 页 8 CN 111476243 A 8 轮廓查找操作, 以生成多个轮廓。 0067 非文字区域识别模块252, 用于根据预定的非文字区域识别规则对所述多个轮廓 进行识别, 以识别属于非文字区域的轮廓。 0068 非文字区域识别模块252具体识别: 轮廓面积信息、 轮廓边界矩形的长宽信息和面 积信息、 轮廓直线拟合直线与原始影像图像的横轴或纵轴夹角信息, 其中的一种或多种。 0069 干扰形状去除处理模块253, 用于去除识别的属于非文字区域的轮廓, 以生成所述 去除干扰形状的二值化图像。 0070 在实际操作中, 如图7所示, 上述装置还。
30、包括: 识别结果判断单元27和更新单元28, 其中: 0071 识别结果判断单元27, 用于根据预定规则对文字识别结果进行有效性判断。 该文 字识别识别包括: 多个单词。 当识别的多个单词中的有效单词数量与总单词数量的比值大 于预定阈值时, 识别结果判断单元27判断所述文字识别结果有效。 0072 更新单元28, 用于响应于所述文字识别结果有效, 根据所述文字识别结果更新所 述数据字典, 以及根据所述去除背景图像和所述二值化分割阈值更新所述图像分类模型, 从而提升二值化的准确性。 0073 上述各单元、 各模块的具体执行过程, 可以参见上述方法实施例中的描述, 此处不 再赘述。 0074 在实。
31、际操作中, 上述各单元、 各模块可以组合设置、 也可以单一设置, 本发明不限 于此。 0075 为了更好地理解本发明实施例, 以下结合图8所示的系统来详细描述。 0076 图8示出了基于统计学、 图像形态学和深度学习的自适应图像预处理系统, 如图8 所示, 该系统包括: 影像背景去除装置1、 影像自适应二值化装置2、 影像干扰形状去除装置 3、 影像文字识别装置4。 影像背景去除装置1与影像自适应二值化装置2相连; 影像自适应二 值化装置2与影像干扰形状去除装置3相连; 影像干扰形状去除装置3与影像文字识别装置4 相连; 影像文字识别装置4与影像自适应二值化装置2相连。 0077 优选地, 影。
32、像背景去除装置1具有上述背景去除处理单元22的功能, 影像自适应二 值化装置2具有上述二值化处理单元23的功能, 影像干扰形状去除装置3具有上述膨胀处理 单元24和干扰形状去除处理单元25的功能, 影像文字识别装置4具有上述文字识别单元26 的功能。 0078 以下结合附图分别详细描述各装置。 0079 (1)影像背景去除装置1 0080 影像背景去除装置1, 主要用于对原始影像进行灰度处理使其转化为灰度图, 再对 灰度图进行自适应的直方图均衡化取得最佳的对比度, 最后由暗及亮考察灰度图中每种亮 度点在影像中的分布情况, 对于在整个影像中分布非常平均的亮度可归属于背景, 将这些 亮度点置为最高。
33、亮度(即, 白色)实现对影像背景的去除。 再应用平滑去噪的方式去除图像 中较小的孤立的噪点。 0081 图9是该影像背景去除装置1的详细结构框图, 如图9所示, 该影像背景去除装置1 包括: 图像灰度化单元11、 直方图均衡化单元12、 背景点去除单元13和图像平滑去噪单元 14, 其中: 说明书 5/11 页 9 CN 111476243 A 9 0082 图像灰度化单元11: 用于将原始影像转化为灰度图, 为提高精度, 采用图像灰度化 的加权平均法, 应用如下公式(1), 其中, Gray表示灰度值, R、 G、 B分别表示彩色影像中的红 色、 绿色和蓝色的三分量: 0083 Gray0.。
34、114B+0.587G+0.299R (1) 0084 在实际操作中, 上述公式是根据心理学推导而成, 具有较高的精度。 但是, 由于浮 点运算较慢, 在大量图像数据处理时, 可采用精度稍低但运算速度较高的变体算法, 如整数 或位移算法来实现。 0085 直方图均衡化单元12: 采用自适应的直方图均衡化方式, 先将整幅图像分成很多 小块, 然后对每一个小块分别进行直方图均衡化, 最后, 为了去除每一个小块之间由于算法 造成的边界, 使用双线性差值, 对小块进行缝合生成完整的图像。 0086 直方图均衡化可以应用如下公式(2)或(3), 其中, r为原图中的像素值(灰度级), T (r)为均衡化。
35、后对应的像素值(灰度级)。 图像的灰度级为0,L, 一般为0,255; p(t)表示 灰度级t在图像中出现的概率。 0087 在数值连续情况下, 直方图均衡化应用如下公式(2): 0088 0089 在离散情况情况下, 直方图均衡化应用如下公式(3), 其中n是图像的像素总数, ni 是图像中第i个灰度级的像素总数: 0090 0091 背景点去除单元13: 将上述直方图均衡化单元12输出的直方图均衡化后的图像, 作为该单元的输入图像。 对输入的图像由暗及亮获取每种亮度点在图像中的坐标(x,y)数 据, 同种亮度的点组成一类数据集。 使用K-S检验等方法检验同类亮度数据集是否足够近似 服从均匀。
36、分布, 对于足够近似服从均匀分布的亮度, 在原图像中将这类亮度的点置为最高 亮度。 重复上述过程, 直到考察完所有亮度的点, 这样可以得到去除背景的图像。 0092 图像平滑去噪单元14: 对背景点去除单元13输出的图像, 应用高斯模糊或双边过 滤等方法, 去除图像中的高频成分, 如噪音等, 得到平滑后的图像。 0093 (2)影像自适应二值化装置2 0094 影像自适应二值化装置2: 使用标记好的数据训练一个图像分类模型, 模型输出可 应用于该图像的二值化分割阈值, 在应用该阈值得到的二值化图像中能够尽最大可能保留 原始影像的文字信息, 同时去除其他干扰信息。 0095 图10是影像自适应二。
37、值化装置2的结构框图, 如图10所示, 影像自适应二值化装置 2包括: 阈值模型生成单元21和图像最佳二值化单元22, 其中: 0096 阈值模型生成单元21: 用于收集足够多的专业领域的已标注的图像, 标注数据的 标签可以是一个数值。 一个图像对应一个数值, 可形成类似如下的数据结构: 说明书 6/11 页 10 CN 111476243 A 10 0097 0098 其中, image字段是字符串类型, 表示图片路径; threshold是数字类型, 表示适用 于该图像的最佳阈值, 取值范围是图像的灰度级, 一般为是0到255。 0099 在初始时, 按照如下步骤获取图像的最佳二值化分割阈。
38、值: 0100 步骤1、 随机选取一个数值, 应用该数值对图像进行二值化处理; 0101 步骤2、 如果二值化后的图像中文字较清晰但含有较多噪点, 则阈值可能取值过 低, 应适当提高阈值; 如果二值化后的图像中文字较不清晰, 则阈值可能取值过高, 应适当 降低阈值; 0102 步骤3, 更新阈值再次对原始图像二值化, 并依据上述规则对阈值进行再调整。 重 复上述步骤直到得到满意的结果, 对应的阈值即可作为该图像的最佳二值化分割阈值。 0103 所述数值应满足这样的特征: 对应的被标注的图像在应用该数值作为阈值进行二 值化后, 得到的二值化图像中能够尽最大可能保留文字信息, 同时去除其他干扰信息。
39、。 0104 参见图11(a)和图11(b), 其中, 图11(a)是原始图像, 图11(b)是二值化后的图像。 0105 如图11(a)所示, 原始图像是灰度图像, 灰度图像没有颜色只有亮度, 一般亮度范 围是0到255, 其中0为黑点, 255为白点, 中间数值即为灰点。 图像二值化是指选取一个数值, 例如, 175, 当像素的亮度大于等于该数值时重置为255, 即变为纯白点; 当像素的亮度小于 该数值时重置为0, 即变为纯黑点。 最终生成的二值化图像中仅有纯白点和纯黑点, 如图11 (b)所示。 0106 在实际操作中, 根据标记好的数据可以训练一个图像分类模型, 可以选用VGG (Vi。
40、sual Geometry Group Network, 神经网络)、 TesNet等深度学习图像分类技术。 阈值模 型生成单元21在系统初始时执行一次, 在系统运行期间适时执行。 0107 图像最佳二值化单元22: 将待处理图像作为所述阈值模型生成单元21生成的图像 分类模型的输入, 得到适用于该图像的最佳二值化分割阈值。 应用该阈值对待处理图像进 行二值化, 得到二值化图像。 所述二值化是当图像中的像素值高于阈值时, 给这个像素赋予 一个白色值, 否则赋予相反的黑色值。 0108 (3)影像干扰形状去除装置3 0109 影像干扰形状去除装置3: 对输入的二值化图像进行适度膨胀, 得到膨胀后。
41、的图 说明书 7/11 页 11 CN 111476243 A 11 像, 膨胀的目标是使归属同一段落的文字能够尽量连接在一起形成文字区域, 同时尽量使 非文字区域孤立, 使其不与文字区域连接在一起。 查找膨胀后图像中的轮廓, 计算轮廓的面 积、 周长、 边界矩形和直线拟合等轮廓特征, 根据这些特征判断非文字的轮廓区域, 并在二 值化图像中将这些非文字的形状去除, 得到去除干扰形状后的二值化图像。 0110 图12是影像干扰形状去除装置3的结构框图, 如图12所示, 所述影像干扰形状去除 装置3包括: 图像膨胀单元31、 形状轮廓识别单元32和非文字形状去除单元33, 其中: 0111 图像膨。
42、胀单元31: 将输入的二值化图像, 依像素进行反转, 即原白点置为黑点, 原 黑点置为白点, 生成反转后的二值化图像。 对反转后的图像应用膨胀算法在给定的水平下 进行适度膨胀, 使归属同一段落的文字能够尽量连接在一起, 得到膨胀后的图像。 这里的膨 胀算法可以是现有算法, 本发明不限于此。 0112 形状轮廓识别单元32: 对所述图像膨胀单元31输出的膨胀后的图像应用轮廓识别 算法, 查找所有的轮廓, 查找轮廓就是在黑色背景中找白色物体。 计算每个轮廓的面积、 周 长、 旋转的边界矩形和直线拟合等。 0113 非文字形状去除单元33: 逐个考察所述形状轮廓识别单元32输出的每个轮廓, 对 于非。
43、文字区域形状特征的轮廓, 在输入到所述图像膨胀单元31的原二值化图像中将这类轮 廓所包含的形状去除, 即将轮廓所包含区域的像素都置为白色点。 满足如下任意一个条件 的轮廓, 可视为非文字区域形状特征的轮廓。 0114 条件1: 给定一个预设数值, 若轮廓的面积小于这个数值, 则可视为非文字区域形 状特征的轮廓。 一般来说, 8号字体的大小为6px, 在单证系统中字体的大小一般不会小于 6px, 如果一个轮廓较小, 例如小于4px, 则可视为是非文字轮廓。 这一判断一般用于较小的 噪点。 0115 条件2: 给定一个预设数值, 若轮廓边界矩形的宽长比小于这个数值, 则可视为非 文字区域形状特征的。
44、轮廓。 字体的长宽比一般不小于1: 5, 若一个轮廓的长宽比小于1: 10, 即可视为干扰线等非文字区域。 0116 条件3: 给定一个预设数值, 若轮廓面积与边界矩形面积的比值小于这个数值, 则 可视为非文字区域形状特征的轮廓。 如图13所示的正方形框是轮廓的边界矩形, 白色区域 是轮廓。 一般来说, 文字区域的轮廓面积占其边界矩形的面积较大, 一般为80以上, 若这 个比值小于20则可认为是非文字区域。 该方式主要用于去除表格线等本身轮廓体积不 大, 但是产生的边界矩形很大, 甚至能够横跨整个影像的这样特征的轮廓。 0117 条件4: 给定一个预设数值, 若轮廓直线拟合的直线与原影像图像横。
45、轴或纵轴的夹 角小于这个数值, 则可视为非文字区域形状特征的轮廓。 如图14所示的直线即是轮廓的拟 合直线, 对于文字区域拟合的直线, 一般近乎平行于原影像图像的横轴或垂直于纵轴, 若一 个轮廓的直线拟合与图像横轴或纵轴的夹角在40 和50 之间, 则可认为是非轮廓区域。 0118 上述条件中的各预设数值, 可以依据实际情况而定, 只需能够满足识别非文字区 域形状特征轮廓的需求即可, 本发明对此不作限定。 0119 (4)影像文字识别装置4 0120 影像文字识别装置4: 对输入的二值化图像应用OCR(Optical Character Recognition, 光学字符识别)技术识别其中的文。
46、字。 可以先构建包含通用的和影像所属专 业领域的自定义数据字典, 包含在该字典中的单词称为有效单词。 当评价识别结果中的有 说明书 8/11 页 12 CN 111476243 A 12 效单词占识别到的总单词的比值高于预设阈值时, 表示识别有效, 此时可将相关图像和二 值化阈值作为潜在训练数据, 提升图像二值化效果。 0121 图15是该影像文字识别装置4的结构框图, 如图15所示, 该影像文字识别装置4包 括: 专业字典构建单元41、 图像文字识别单元42和识别结果评价单元43, 其中: 0122 专业字典构建单元41: 构建包含通用单词和影像所属领域专业单词的数据字典。 所述专业字典构建。
47、单元41不是每次都执行, 在系统初始时执行一次, 在系统运行期间适时 执行, 更新通用单词或新发现的专业领域单词。 0123 图像文字识别单元42: 利用Tesseract等OCR技术对二值化图像进行OCR识别, 识别 出文本。 0124 识别结果评价单元43: 计算图像文字识别单元42识别到的文本的单词总数。 计算 识别文本中的单词在专业字典里的单词个数, 称为有效单词数。 若有效单词数占识别到的 总单词数的比值高于预设值, 则认为本次影像识别处理有效。 0125 图16是基于图8所示系统的图像识别流程图, 该流程包括: 0126 步骤S601: 应用系统初始化; 0127 步骤S602: 。
48、执行影像自适应二值化装置2的阈值模型生成单元, 生成初始的最佳阈 值图像分类模型; 0128 步骤S603: 执行文字识别装置4的专业字典构建单元, 生成初始的专业字典; 0129 步骤S604: 应用系统开始启动; 0130 步骤S605: 获取待处理的原始影像; 0131 步骤S606: 将原始影像应用于影像背景去除装置1, 得到去除背景后的影像; 0132 步骤S607: 将去除背景后的影像应用于影像自适应二值化装置2, 得到二值化后的 影像和最佳分割阈值; 0133 步骤S608: 将二值化后的影像应用于影像干扰形状去除装置3, 得到去除干扰形状 后的影像; 0134 步骤S609: 。
49、将去除干扰形状后的影像应用于影像文字识别装置4, 得到识别到的文 字结果, 和该图像处理是否有效的评价结果, 当有效时, 执行步骤S611, 否则执行步骤S612; 0135 步骤S610: 将识别到的文字结果输出; 0136 步骤S611: 对于步骤S609评价处理有效的图像, 将步骤S606输出的图像和步骤 S607输出的分割阈值作为新的标注数据, 输入到影像自适应二值化装置2, 积累到足够的新 的标注数据后, 重新执行模型训练, 以更新模型; 0137 步骤S612: 对于步骤S609评价处理非有效的图像, 比较原始影像与识别结果, 若发 现新的专业领域单词, 则将该单词输入到影像文字识。
50、别装置4, 以扩充专业字典。 0138 图17是根据本发明实施例的电子设备的示意图。 图17所示的电子设备为通用数据 处理装置, 其包括通用的计算机硬件结构, 其至少包括处理器1701和存储器1702。 处理器 1701和存储器1702通过总线1703连接。 存储器1702适于存储处理器1701可执行的一条或多 条指令或程序。 该一条或多条指令或程序被处理器1701执行以实现上述影像文字识别方法 中的步骤。 0139 上述处理器1701可以是独立的微处理器, 也可以是一个或者多个微处理器集合。 由此, 处理器1701通过执行存储器1702所存储的命令, 从而执行如上所述的本发明实施例 说明书 。
- 内容关键字: 影像 文字 识别 方法 装置
输液杆的线缆伸缩结构.pdf
环境大气粉尘采样仪.pdf
降低虾苗孵化水中氨氮含量的装置.pdf
高压线圈浇注模具.pdf
反应釜控温系统.pdf
金属锂浇铸装置.pdf
医用输液管加热保温装置.pdf
螺杆钻具清洗装置.pdf
多功能布料收卷装置.pdf
用于图书馆的高处夹持取书装置.pdf
智能化接触网几何参数测量仪.pdf
便携式环境检测仪.pdf
便于安装的防结垢环保矿用管材.pdf
曝气生物滤池除磷装置.pdf
基于睡眠感知的音乐振动理疗仪.pdf
钢板建材加工的激光切割装置.pdf
毫米波被动辐射成像测距装置.pdf
医用分叶球囊.pdf
基于波码通信的分层注水执行装置.pdf
折合型保鲜膜切割滑刀.pdf
注塑件自动化生产设备及其智能调控方法.pdf
书本包装设备.pdf
道路桥梁施工用测量辅助工具.pdf
作物种植地膜拆除装置.pdf
水平放置的可搬运激光稳频腔的安装结构.pdf
气体静压转台的控制方法、装置及气体静压转台.pdf
数据要素处理方法和装置.pdf
用于组装气雾剂产品的组装设备.pdf
老年人用吞咽障碍康复训练设备.pdf
全液晶仪表故障报警存储系统及方法.pdf
木通皂苷D在制备抗骨骼肌萎缩、肌病药物中的应用.pdf
不依赖地图信息的车辆轨迹预测方法.pdf
石墨烯卟啉类有机物纳米材料及其制备方法.pdf
N杂双咔唑类化合物及其制备方法、中间体和应用以及有机电致发光器件.pdf
吡唑类化合物的制备方法.pdf
卟啉衍生物及其制备方法和催化剂底物对和水相体系中断裂酰胺键和/或酯键的方法.pdf
具有生物活性的钴配合物及其制备方法.pdf
一种4取代胺基6甲氧羰基苯并呋喃并2,3D嘧啶类化合物及制备和应用.pdf
吡啶稠合去甲咔咯化合物及其制备方法.pdf
一种多索茶碱的制备方法.pdf
一种2氮叔丁氧羰基8羟甲基5氧34辛烷的制备方法.pdf
具有生物活性的苯并哌啶并苯胺基类化合物的制备方法.pdf
恩替卡韦的合成方法及其中间体化合物.pdf
奥格列汀盐及其晶型、它们的制备方法和药物组合物.pdf
色胺酮及其衍生物在制备HIDO2抑制剂中的用途.pdf
N芳基、苄基色胺酮及其衍生物在制备HIDO2抑制剂中的用途.pdf
喹啉类化合物的盐,其晶型、制备方法、组合物与应用.pdf
(2苄基1,2,3,4四氢吡咯并1,2A吡嗪)4甲醇的合成方法.pdf
一类新型的EGFR野生型和突变型的激酶抑制剂.pdf
喹啉类化合物及其盐的晶型、制备方法、组合物与应用.pdf
一种喹嗪酮类化合物的制备方法.pdf
相关文档
更多![高效中空挤出吹瓶机.pdf](/Images/s.gif)
![浅海海底电缆管道检测维修结构及其施工方法.pdf](/Images/s.gif)
![虚拟道具的操作方法、装置、设备及存储介质.pdf](/Images/s.gif)
![对患者开刀伤口进行低温抑菌治疗护理康复器.pdf](/Images/s.gif)
![双免疫磁珠分选试剂及其制备方法和在体液外泌体富集中的应用.pdf](/Images/s.gif)
![用于农业的受热均匀的谷物烘干设备.pdf](/Images/s.gif)
![弹力柔软锦纶面料的染整工艺.pdf](/Images/s.gif)
![水银体温计回收预处理装置.pdf](/Images/s.gif)
![消化科用胃管防拔专用护理床.pdf](/Images/s.gif)
![装配式预制梁台座底模.pdf](/Images/s.gif)
![便携式打气筒.pdf](/Images/s.gif)
![制动分离式液态金属研磨盘装置.pdf](/Images/s.gif)
![从糠醛制备高熔点蜡的方法.pdf](/Images/s.gif)
![配网线路无功补偿情况分析方法.pdf](/Images/s.gif)
![治疗肥厚梗阻型心肌病的方法.pdf](/Images/s.gif)
![路基沉降处理方法.pdf](/Images/s.gif)
![实心轮胎基部结构成型装置.pdf](/Images/s.gif)
![米制膨化食品废水处理回用方法.pdf](/Images/s.gif)
![表达人表皮生长因子的基因工程菌及其应用.pdf](/Images/s.gif)
![光影流动式LED洗墙灯.pdf](/Images/s.gif)