文字识别方法、装置、电子设备以及可读存储介质.pdf
《文字识别方法、装置、电子设备以及可读存储介质.pdf》由会员分享,可在线阅读,更多相关《文字识别方法、装置、电子设备以及可读存储介质.pdf(30页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201911313107.0 (22)申请日 2019.12.18 (71)申请人 北京旷视科技有限公司 地址 100080 北京市海淀区中关村大街1号 10层1018室 (72)发明人 万昭祎何明航陈浩然姚聪 (74)专利代理机构 北京润泽恒知识产权代理有 限公司 11319 代理人 莎日娜 (51)Int.Cl. G06K 9/34(2006.01) G06K 9/62(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明。
2、名称 文字识别方法、 装置、 电子设备以及可读存 储介质 (57)摘要 本申请实施例提供一种文字识别方法、 装 置、 电子设备以及可读存储介质, 旨在提高文字 识别的识别准确性。 所述方法包括: 获得待识别 图像的N个字符顺序分割图, 所述N个字符顺序分 割图中的第n个字符顺序分割图中的每个像素点 的像素值表征: 该像素点对应的字符是第n个字 符的可能性; 获得所述待识别图像的M个字符类 别分割图, 所述M个字符类别分割图中的第m个字 符类别分割图中的每个像素点的像素值表征: 该 像素点属于第m类字符的可能性; 根据每个字符 顺序分割图中各个像素点的像素值、 和每个字符 类别分割图中各个像素点。
3、的像素值, 确定所述待 识别图像中每个字符的字符顺序和字符类别。 权利要求书3页 说明书16页 附图10页 CN 111178363 A 2020.05.19 CN 111178363 A 1.一种文字识别方法, 其特征在于, 所述方法包括: 对待识别图像进行字符类别分割, 获得所述待识别图像的M个字符类别分割图, 所述M 个字符类别分割图与M种字符类别一一对应, 所述M个字符类别分割图中的第m个字符类别 分割图中的每个像素点的像素值表征: 该像素点属于第m类字符的可能性; 对所述待识别图像进行字符顺序分割, 获得所述待识别图像的N个字符顺序分割图, 所 述N个字符顺序分割图中的第n个字符顺序。
4、分割图中的每个像素点的像素值表征: 该像素点 对应的字符是第n个字符的可能性; 根据每个字符顺序分割图中各个像素点的像素值、 和每个字符类别分割图中各个像素 点的像素值, 确定所述待识别图像中每个字符的字符顺序和字符类别。 2.根据权利要求1所述的方法, 其特征在于, 在确定所述待识别图像中每个字符的字符 顺序和字符类别之前, 所述方法还包括: 对所述待识别图像进行字符位置识别, 获得所述待识别图像的字符位置图, 所述字符 位置图中的每个像素点的像素值表征: 该像素点位于字符中心的可能性; 针对每个字符顺序分割图, 根据所述字符位置图中的各个像素点的像素值, 对该字符 顺序分割图中的各个像素点。
5、的像素值进行调整, 获得调整后的字符顺序分割图; 所述根据每个字符顺序分割图中各个像素点的像素值、 和每个字符类别分割图中各个 像素点的像素值, 确定所述待识别图像中每个字符的字符顺序和字符类别, 包括: 根据每个调整后的字符顺序分割图中各个像素点的像素值、 和每个字符类别分割图中 各个像素点的像素值, 确定所述待识别图像中每个字符的字符顺序和字符类别。 3.根据权利要求1或2所述的方法, 其特征在于, 所述对所述待识别图像进行字符顺序 分割, 获得所述待识别图像的N个字符顺序分割图, 包括: 对所述待识别图像进行特征提取, 获得该待识别图像的图像特征; 将所述图像特征输入下采样路径, 以针对。
6、所述图像特征执行下采样操作, 获得下采样 特征; 利用循环神经网络模块对所述下采样特征进行编码, 获得编码特征; 将所述编码特征输入上采样路径, 以针对所述编码特征执行上采样操作, 获得上采样 特征; 对所述上采样特征进行卷积处理, 获得所述待识别图像的N个字符顺序分割图。 4.根据权利要求3所述的方法, 其特征在于, 所述下采样路径包括多个串联的下采样节 点; 所述将所述图像特征输入下采样路径, 以针对所述图像特征执行下采样操作, 获得下采 样特征, 包括: 将所述图像特征输入所述下采样路径, 使得每个下采样节点执行完下采样操作后, 将 操作结果传入下一个下采样节点, 多个下采样节点依次获得。
7、各自对应的操作结果, 多个操 作结果为分辨率递减的多个下采样特征图; 将分辨率最低的下采样特征图确定为所述下采样特征。 5.根据权利要求4所述的方法, 其特征在于, 所述上采样路径包括多个串联的下采样节 点; 所述将所述编码特征输入上采样路径, 以针对所述编码特征执行上采样操作, 获得上采 样特征, 包括: 将所述下采样特征输入所述上采样路径, 使得每个上采样节点执行完上采样操作后, 权利要求书 1/3 页 2 CN 111178363 A 2 获得该上采样节点对应的上采样特征图, 然后对该上采样特征图与对应下采样特征图执行 相加操作, 并将所述相加操作的操作结果传入下一个上采样节点, 其中,。
8、 执行相加操作的上 采样特征图和下采样特征图两者的分辨率相等; 将所述上采样路径输出的分辨率最高的上采样特征图确定为所述上采样特征。 6.根据权利要求1所述的方法, 其特征在于, 所述根据每个字符顺序分割图中各个像素 点的像素值、 和每个字符类别分割图中各个像素点的像素值, 确定所述待识别图像中每个 字符的字符顺序和字符类别, 包括: 针对每个字符顺序分割图, 执行以下步骤: 针对每个字符类别分割图, 将该字符类别分割图中各个像素点的像素值与该字符顺序 分割图中各个像素点的像素值, 按照对应位置相乘, 得到该字符类别分割图中各个像素点 对应的像素值乘积; 针对每个字符类别分割图, 根据该字符类。
9、别分割图中各个像素点对应的像素值乘积, 确定该字符类别分割图对应的概率值, 所述概率值表征: 该字符顺序分割图对应的字符属 于该字符类别分割图对应的字符类别的可能性; 根据多个字符类别分割图各自对应的概率值, 确定该字符顺序分割图对应的字符的字 符类别。 7.根据权利要求6所述的方法, 其特征在于, 所述根据多个字符类别分割图各自对应的 概率值, 确定该字符顺序分割图对应的字符的字符类别, 包括: 从所述多个字符类别分割图各自对应的概率值中确定最大概率值; 在所述最大概率值大于或等于预设阈值的情况下, 将所述最大概率值对应的字符类别 分割图所对应的字符类别, 确定为该字符顺序分割图对应的字符的。
10、字符类别; 所述方法还包括: 在所述最大概率值小于所述预设阈值的情况下, 结束文字识别流程。 8.根据权利要求2所述的方法, 其特征在于, 在对待识别图像进行字符类别分割和字符 顺序分割之前, 所述方法还包括: 获得包含样本字符串的样本图像, 所述样本图像携带所述样本字符串的文字序列标 注; 将所述样本图像输入预设模型的特征提取模块, 以获得该样本图像的图像特征; 将该 图像特征输入所述预设模型的字符类别分割模块、 字符顺序分割模块、 以及字符位置预测 模块, 以分别获得字符类别分割图的预测结果、 字符顺序分割图的预测结果、 以及字符位置 图的预测结果; 利用所述字符位置图的预测结果对所述字符。
11、顺序分割图的预测结果进行调 整, 以获得所述字符顺序分割图的调整后的预测结果; 根据所述文字序列标注和所述字符类别分割图的预测结果, 确定所述字符顺序分割图 的期望结果, 并根据所述字符顺序分割图的期望结果和调整后的预测结果, 对所述特征提 取模块、 字符顺序分割模块以及字符位置预测模块进行更新。 9.根据权利要求8所述的方法, 其特征在于, 所述方法还包括: 根据所述文字序列标注和所述字符顺序分割图的调整后的预测结果, 确定所述字符类 别分割图的期望结果, 并根据所述字符类别分割图的期望结果和预测结果, 对所述特征提 取模块和字符类别分割模块进行更新。 权利要求书 2/3 页 3 CN 11。
12、1178363 A 3 10.一种文字识别装置, 其特征在于, 所述装置包括: 字符类别分割模块, 用于对待识别图像进行字符类别分割, 获得所述待识别图像的M个 字符类别分割图, 所述M个字符类别分割图与M种字符类别一一对应, 所述M个字符类别分割 图中的第m个字符类别分割图中的每个像素点的像素值表征: 该像素点属于第m类字符的可 能性; 字符顺序分割模块, 用于对所述待识别图像进行字符顺序分割, 获得所述待识别图像 的N个字符顺序分割图, 所述N个字符顺序分割图中的第n个字符顺序分割图中的每个像素 点的像素值表征: 该像素点对应的字符是第n个字符的可能性; 字符类别确定模块, 用于根据每个字。
13、符顺序分割图中各个像素点的像素值、 和每个字 符类别分割图中各个像素点的像素值, 确定所述待识别图像中每个字符的字符顺序和字符 类别。 11.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该计算机程序被 处理器执行时, 实现如权利要求1至9任一所述的方法中的步骤。 12.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算 机程序, 其特征在于, 所述处理器执行时实现如权利要求1至9任一所述的方法的步骤。 权利要求书 3/3 页 4 CN 111178363 A 4 文字识别方法、 装置、 电子设备以及可读存储介质 技术领域 0001 本申请实施例涉及。
14、计算机视觉技术领域, 具体而言, 涉及一种文字识别方法、 装 置、 电子设备以及可读存储介质。 背景技术 0002 计算机视觉技术是一门利用摄像机、 手机、 电脑等电子设备代替人眼, 对图像中的 目标进行识别、 跟踪或者测量的技术。 其中, 文字识别是计算机视觉技术领域中的重要分支 技术。 文字识别具有广泛的应用场景, 例如证件识别、 票据识别、 广告商标识别、 自动驾驶技 术中路牌识别、 车牌识别等等。 0003 相关技术中, 为了使电子设备代替人眼识别出图像中的字符串, 通常将基于循环 神经网络的注意力算法或者将基于语义分割的算法应用于电子设备。 这两种主流的识别技 术对于规整的、 无畸变。
15、的、 且字符间距较大的标准字符串具有良好的识别结果, 但是对于不 规整的、 存在畸变的、 字符间距较小的、 或者背景环境复杂的一般字符串, 难以获得准确的 识别结果。 例如对于字符间距较小的字符串, 这两种主流的识别技术容易将两个或多个连 续的字符错误地合并识别成一个字符, 或者容易将一个字符错误地拆分识别成两个字符。 0004 可见, 相关技术的适用场景十分局限, 利用相关技术进行文字识别的识别准确性 普遍偏低。 发明内容 0005 本申请实施例提供一种文字识别方法、 装置、 电子设备以及可读存储介质, 旨在提 高文字识别的识别准确性。 0006 本申请实施例第一方面提供一种文字识别方法, 。
16、所述方法包括: 0007 对待识别图像进行字符类别分割, 获得所述待识别图像的M个字符类别分割图, 所 述M个字符类别分割图与M种字符类别一一对应, 所述M个字符类别分割图中的第m个字符类 别分割图中的每个像素点的像素值表征: 该像素点属于第m类字符的可能性; 0008 对所述待识别图像进行字符顺序分割, 获得所述待识别图像的N个字符顺序分割 图, 所述N个字符顺序分割图中的第n个字符顺序分割图中的每个像素点的像素值表征: 该 像素点对应的字符是第n个字符的可能性; 0009 根据每个字符顺序分割图中各个像素点的像素值、 和每个字符类别分割图中各个 像素点的像素值, 确定所述待识别图像中每个字。
17、符的字符顺序和字符类别。 0010 本申请实施例第二方面提供一种文字识别装置, 所述装置包括: 0011 字符类别分割模块, 用于对待识别图像进行字符类别分割, 获得所述待识别图像 的M个字符类别分割图, 所述M个字符类别分割图与M种字符类别一一对应, 所述M个字符类 别分割图中的第m个字符类别分割图中的每个像素点的像素值表征: 该像素点属于第m类字 符的可能性; 0012 字符顺序分割模块, 用于对所述待识别图像进行字符顺序分割, 获得所述待识别 说明书 1/16 页 5 CN 111178363 A 5 图像的N个字符顺序分割图, 所述N个字符顺序分割图中的第n个字符顺序分割图中的每个 像。
18、素点的像素值表征: 该像素点对应的字符是第n个字符的可能性; 0013 字符类别确定模块, 用于根据每个字符顺序分割图中各个像素点的像素值、 和每 个字符类别分割图中各个像素点的像素值, 确定所述待识别图像中每个字符的字符顺序和 字符类别。 0014 本申请实施例第三方面提供一种可读存储介质, 其上存储有计算机程序, 该计算 机程序被处理器执行时, 实现如本申请第一方面所述的方法中的步骤。 0015 本申请实施例第四方面提供一种电子设备, 包括存储器、 处理器及存储在存储器 上并可在处理器上运行的计算机程序, 所述处理器执行时实现本申请第一方面所述的方法 的步骤。 0016 采用本申请提供的文。
19、字识别方法, 不仅获得了待识别图像的多个字符类别分割 图, 还获得了待识别图像的多个字符顺序分割图。 其中, 一个字符类别分割图对应一种字符 类别, 第m个字符类别分割图中的每个像素点的像素值表征: 该像素点属于第m类字符的可 能性。 一个字符顺序分割图对应待识别字符串中的一个字符, 第n个字符顺序分割图中的每 个像素点的像素值表征: 该像素点对应的字符是第n个字符的可能性。 0017 其中, 多个字符顺序分割图使得距离较近的字符或相同字符可以分别对应不同的 字符顺序分割图, 从而使距离较近的字符或相同字符被有效拆分开。 在识别期间, 结合多个 字符顺序分割图和多个字符类别分割图进行文字识别,。
20、 可以获得更准确的识别结果。 该识 别结果中, 各个字符间具有更准确的顺序性, 并且多个字符的总数更准确。 附图说明 0018 为了更清楚地说明本申请实施例的技术方案, 下面将对本申请实施例的描述中所 需要使用的附图作简单地介绍, 显而易见地, 下面描述中的附图仅仅是本申请的一些实施 例, 对于本领域普通技术人员来讲, 在不付出创造性劳动性的前提下, 还可以根据这些附图 获得其他的附图。 0019 图1是利用相关技术进行文字识别的效果图; 0020 图2是本申请一实施例提出的文字识别方法的流程图; 0021 图3是本申请一实施例提出的文字识别方法的示意图; 0022 图4(a)是本申请一实施例。
21、提出的一个字符类别分割图的示意图; 0023 图4(b)是本申请另一实施例提出的另一个字符类别分割图的示意图; 0024 图5(a)是本申请一实施例提出的第1个字符顺序分割图的示意图; 0025 图5(b)是本申请另一实施例提出的第5个字符顺序分割图的示意图; 0026 图5(c)是本申请另一实施例提出的第6个字符顺序分割图的示意图; 0027 图6是本申请一实施例提出的字符顺序分割模块的结构示意图; 0028 图7是本申请一实施例提出的确定字符类别可能性的示意图; 0029 图8是本申请另一实施例提出的文字识别方法的流程图; 0030 图9是本申请另一实施例提出的文字识别方法的示意图; 00。
22、31 图10是本申请一实施例提出的字符位置图的示意图; 0032 图11是本申请一实施例提出的模型训练流程图; 说明书 2/16 页 6 CN 111178363 A 6 0033 图12是本申请一实施例提出的确定字符顺序分割图的期望结果的示意图; 0034 图13是本申请一实施例提出的确定字符类别分割图的期望结果的示意图; 0035 图14是本申请一实施例提出的文字识别装置的示意图。 具体实施方式 0036 下面将结合本申请实施例中的附图, 对本申请实施例中的技术方案进行清楚、 完 整地描述, 显然, 所描述的实施例是本申请一部分实施例, 而不是全部的实施例。 基于本申 请中的实施例, 本领。
23、域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施 例, 都属于本申请保护的范围。 0037 在计算机视觉技术领域中, 文字识别的主流技术包括: 基于循环神经网络的注意 力算法和基于语义分割的算法。 这两种主流的识别技术对于规整的、 无畸变的、 且字符间距 较大的标准字符串具有良好的识别结果, 但是对于不规整的、 存在畸变的、 字符间距较小 的、 或者背景环境复杂的一般字符串, 难以获得准确的识别结果。 0038 参考图1, 图1是利用相关技术进行文字识别的效果图。 如图1所示, 测试图像A中的 字符串 “ZOMBIES” 呈现为艺术字形式, 测试图像B中的字符串 “KINGFISH。
24、ER” 也呈现为艺术字 形式。 此外, 测试图像B中还具有一排点状的环境干扰因素。 利用相关技术中的注意力算法 对测试图像A和测试图像B各自的字符串分别进行识别时, 由于测试图像B中字符 “F” 和字符 “I” 之间的间距较近, 该注意力算法并不能很好地应对这种情况, 错误地将字符 “F” 和 “I” 识 别成字符 “F” 和 “F” 。 利用相关技术中的语义分割算法对测试图像A和测试图像B各自的字符 串分别进行识别时, 该语义分割算法将测试图像A中的字符 “M” 错误地拆分识别成字符 “M” 和 “L” , 将测试图像A中的字符 “K”“I”“N” 错误地合并识别成字符 “K” 。 0039。
25、 可见, 相关技术的适用场景十分局限, 利用相关技术进行文字识别的识别准确性 普遍偏低。 0040 有鉴于此, 本申请实施例提出: 对待识别图像进行字符顺序分割和字符类别分割, 分别获得多个字符顺序分割图和多个字符类别分割图。 其中, 多个字符顺序分割图使得距 离较近的字符或相同字符可以有效拆分开。 在识别期间, 结合多个字符顺序分割图和多个 字符类别分割图进行文字识别, 可以获得更准确的识别结果。 该识别结果中, 各个字符间具 有更准确的顺序性, 并且多个字符的总数更准确。 0041 参考图2和图3, 图2是本申请一实施例提出的文字识别方法的流程图, 图3是本申 请一实施例提出的文字识别方法。
26、的示意图。 如图2所示, 该方法包括以下步骤: 0042 步骤S21: 对待识别图像进行字符类别分割, 获得所述待识别图像的M个字符类别 分割图, 所述M个字符类别分割图与M种字符类别一一对应, 所述M个字符类别分割图中的第 m个字符类别分割图中的每个像素点的像素值表征: 该像素点属于第m类字符的可能性。 0043 在某些实施例中, 为了对待识别图像进行字符类别分割, 以获得M个字符类别分割 图, 如图3所示, 可以首先利用特征提取模块CNN对待识别图像进行特征提取, 以获得该待识 别图像的图像特征。 然后将该图像特征输入字符类别分割模块, 该字符类别分割模块包括 两个卷积层和Softmax函。
27、数, 两个卷积层的卷积核大小分别为33和11。 在将图像特征输 入该字符类别分割模块后, 利用该字符类别分割模块的两个卷积层对该图像特征进行卷积 处理, 并利用该字符类别分割模块的Softmax函数对卷积处理后的图像特征进行归一化处 说明书 3/16 页 7 CN 111178363 A 7 理, 从而获得M个字符类别分割图。 其中, M个字符类别分割图相当于一个具有M个通道的特 征图像。 为简化附图, 图3将M个通道的特征图像可视化为一个图像。 0044 在利用上述特征提取模块CNN和字符类别分割模块获得M个字符类别分割图之前, 可以预先建立特征提取模块CNN和字符类别分割模块, 然后利用样。
28、本图像对其进行训练, 最 后利用训练完毕的特征提取模块CNN和字符类别分割模块获得M个字符类别分割图。 对于具 体的训练方式, 请参见下文。 需要说明的是, 在建立字符类别分割模块时, 需要根据M的具体 数值, 确定字符类别分割模块的参数和结构。 0045 其中, M是大于0的整数。 本申请在实施期间, 可以根据欲识别的字符种类数量, 确 定M的数值。 例如欲识别26个英文字母, 则可以将M的数值确定为27, 其中包括26种英文字母 类别和图像背景类别。 又例如欲识别26个英文字母和10种常用的标点符号, 则可以将M的数 值确定为37, 其中包括26种英文字母类别、 10种标点符号类别、 以及。
29、图像背景类别。 0046 通过执行上述步骤S21所获得的M个字符类别分割图与M种字符类别一一对应。 例 如第1个字符类别分割图与字符类别 “A” 对应, 第2个字符类别分割图与字符类别 “B” 对应, 以此类推, 第26个字符类别分割图与字符类别 “Z” 对应。 0047 以第1个字符类别分割图为例, 参考图4(a), 图4(a)是本申请一实施例提出的一个 字符类别分割图的示意图, 该字符类别分割图对应字符类别 “A” 。 如图4(a)所示, 该字符类 别分割图中靠右上角区域(如图中的虚线框)的像素点的像素值较高, 说明在待识别图像的 靠右上角区域很可能存在字符 “A” 。 0048 以第2个。
30、字符类别分割图为例, 参考图4(b), 图4(b)是本申请另一实施例提出的另 一个字符类别分割图的示意图, 该字符类别分割图对应字符类别 “B” 。 如图4(b)所示, 该字 符类别分割图中所有像素点的像素值均很低, 说明待识别图像中很可能不存在字符 “B” 。 0049 需要说明的是, 图4(a)和图4(b)中, 像素点的像素值越高, 该像素点属于对应字符 类别的可能性越大, 换言之, 像素值与可能性呈正相关。 应当理解的, 在某些场景下, 像素值 也可以与可能性呈负相关, 本申请对此不做限定。 0050 步骤S22: 对所述待识别图像进行字符顺序分割, 获得所述待识别图像的N个字符 顺序分。
31、割图, 所述N个字符顺序分割图中的第n个字符顺序分割图中的每个像素点的像素值 表征: 该像素点对应的字符是第n个字符的可能性。 0051 换言之, 第n个字符顺序分割图中的每个像素点的像素值表征: 该像素点属于第n 个字符的可能性。 0052 在某些实施例中, 为了对待识别图像进行字符顺序分割, 以获得N个字符顺序分割 图, 如图3所示, 可以首先获得特征提取模块CNN输出的图像特征, 然后将该图像特征输入字 符顺序分割模块, 利用该字符顺序分割模块依次进行上采样、 编码、 下采样、 卷积以及 Softmax函数归一化处理, 从而获得N个字符顺序分割图。 其中, N个字符顺序分割图相当于 一个。
32、具有N个通道的特征图像。 对于具体的处理方式, 请参见下文。 为简化附图, 图3将N个通 道的特征图像可视化为一个图像。 0053 在利用上述特征提取模块CNN和字符顺序分割模块获得N个字符顺序分割图之前, 可以预先建立特征提取模块CNN和字符顺序分割模块, 然后利用样本图像对其进行训练, 最 后利用训练完毕的特征提取模块CNN和字符顺序分割模块获得N个字符顺序分割图。 对于具 体的训练方式, 请参见下文。 需要说明的是, 在建立字符顺序分割模块时, 需要根据N的具体 说明书 4/16 页 8 CN 111178363 A 8 数值, 确定字符顺序分割模块的参数和结构。 0054 其中, N是。
33、大于0的整数。 本申请在实施期间, 可以根据识别规模确定N的数值。 例如 识别规模是: 一次性可最多识别32个字符, 则可以将N的数值确定为32。 又例如识别规模是: 一次性可最多识别128个字符, 则可以将N的数值确定为128。 0055 通过执行上述步骤S22所获得的N个字符顺序分割图中, 前L个字符顺序分割图与L 个字符一一对应, 其中, L是小于或等于N的正整数。 例如待识别图像中的字符串包括5个字 符, 则第1个字符顺序分割图与字符串中的第1个字符对应, 则第2个字符顺序分割图与字符 串中的第2个字符对应, 依次类推, 第5个字符顺序分割图与字符串中的第5个字符对应。 0056 以第。
34、1个字符顺序分割图为例, 参考图5(a), 图5(a)是本申请一实施例提出的第1 个字符顺序分割图的示意图。 如图5(a)所示, 该字符顺序分割图中靠左区域(如图中的虚线 框)的像素点的像素值较高, 说明待识别图像中的字符串的第1个字符, 很可能位于该待识 别图像的靠左区域。 0057 以第5个字符顺序分割图为例, 参考图5(b), 图5(b)是本申请另一实施例提出的第 5个字符顺序分割图的示意图。 如图5(b)所示, 该字符顺序分割图中靠右区域(如图中的虚 线框)的像素点的像素值较高, 说明待识别图像中的字符串的第5个字符, 很可能位于该待 识别图像的靠右区域。 0058 以第6个字符顺序分。
35、割图为例, 参考图5(c), 图5(c)是本申请另一实施例提出的第 6个字符顺序分割图的示意图。 如图5(c)所示, 该字符顺序分割图中所有像素点的像素值均 很低, 说明待识别图像中的字符串很可能不包括第6个字符, 换言之, 说明待识别图像中的 字符串很可能仅包括5个字符。 0059 可见, 多个字符顺序分割图使得距离较近的字符或相同字符可以分别对应不同的 字符顺序分割图, 从而使距离较近的字符或相同字符被有效拆分开, 确保了各个字符间具 有更准确的顺序性, 并且确保了字符总数的准确性。 0060 参考图3和图6, 图6是本申请一实施例提出的字符顺序分割模块的结构示意图。 如 图3和图6所示,。
36、 为了对待识别图像进行字符顺序分割, 以获得N个字符顺序分割图, 可以执 行以下子步骤: 0061 子步骤S22-1: 对所述待识别图像进行特征提取, 获得该待识别图像的图像特征; 0062 子步骤S22-2: 将所述图像特征输入下采样路径, 以针对所述图像特征执行下采样 操作, 获得下采样特征; 0063 子步骤S22-3: 利用循环神经网络模块对所述下采样特征进行编码, 获得编码特 征; 0064 子步骤S22-4: 将所述编码特征输入上采样路径, 以针对所述编码特征执行上采样 操作, 获得上采样特征; 0065 子步骤S22-5: 对所述上采样特征进行卷积处理, 获得所述待识别图像的N个。
37、字符 顺序分割图。 0066 其中, 子步骤S22-1即是图3中利用特征提取模块CNN对待识别图像进行特征提取, 以获得该待识别图像的图像特征的过程。 如图6所示, 字符顺序分割模块包括下采样路径、 循环神经网络模块RNN、 上采样路径、 两个卷积层、 以及Softmax函数。 在通过执行子步骤 S22-1获得图像特征后, 将该图像特征被输入字符顺序分割模块的下采样路径, 通过该下采 说明书 5/16 页 9 CN 111178363 A 9 样路径对该图像特征执行下采样操作后, 获得下采样特征。 然后利用循环神经网络模块RNN 对该下采样特征进行编码, 即上下文建模, 获得编码特征。 再将该。
38、编码特征输入字符顺序分 割模块的上采样路径, 通过该上采样特征对该编码特征执行上采样操作后, 获得上采样特 征。 最后利用字符顺序分割模块的卷积层和Softmax函数, 依次对上采样特征进行卷积处理 和归一化操作后, 获得待识别图像的N个字符顺序分割图。 0067 其中, 通过循环神经网络模块RNN对下采样特征进行编码以获得编码特征, 该编码 特征能反映待识别图像中的字符串的上下文信息, 从而进一步确保了识别结果的顺序性, 有利于进一步提高识别准确性。 0068 如图6所示, 下采样路径可以包括多个串联的下采样节点, 基于多个串联的下采样 节点执行上述子步骤S22-2时, 具体的执行方式可以是。
39、: 将所述图像特征输入所述下采样路 径, 使得每个下采样节点执行完下采样操作后, 将操作结果传入下一个下采样节点, 多个下 采样节点依次获得各自对应的操作结果, 多个操作结果为分辨率递减的多个下采样特征 图; 将分辨率最低的下采样特征图确定为所述下采样特征。 0069 示例地, 假设下采样路径包括4个下采样节点。 将一个分辨率为512384的图像特 征输入下采样路径的第1个下采样节点, 该下采样节点对该图像特征执行下采样操作, 获得 分辨率为256192的下采样特征图。 0070 然后将该分辨率为256192的下采样特征图输入第2个下采样节点, 该下采样节 点对该下采样特征图执行下采样操作, 。
40、获得分辨率为12896的下采样特征图。 0071 再将该分辨率为12896的下采样特征图输入第3个下采样节点, 该下采样节点对 该下采样特征图执行下采样操作, 获得分辨率为6448的下采样特征图。 0072 最后将该分辨率为6448的下采样特征图输入第4个下采样节点, 该下采样节点 对该下采样特征图执行下采样操作, 获得分辨率为3224的下采样特征图, 该下采样特征 图即作为下采样特征。 0073 如图6所示, 上采样路径可以包括多个串联的下采样节点, 基于多个串联的上采样 节点执行上述子步骤S22-4时, 具体的执行方式可以是: 将所述下采样特征输入所述上采样 路径, 使得每个上采样节点执行。
41、完上采样操作后, 获得该上采样节点对应的上采样特征图, 然后对该上采样特征图与对应下采样特征图执行相加操作, 并将所述相加操作的操作结果 传入下一个上采样节点, 其中, 执行相加操作的上采样特征图和下采样特征图两者的分辨 率相等; 将所述上采样路径输出的分辨率最高的上采样特征图确定为所述上采样特征。 0074 沿用上述示例地, 假设上采样路径包括3个上采样节点。 将分辨率为3224的编码 特征输入上采样路径的第1个上采样节点, 该上采样节点对该编码特征执行上采样操作, 获 得分辨率为6448的上采样特征图。 如图6所示, 将分辨率为6448的下采样特征图与分辨 率为6448的上采样特征图相加,。
42、 得到经过相加操作后的分辨率为6448的上采样特征 图。 0075 然后将经过相加操作后的分辨率为6448的上采样特征图输入第2个上采样节 点, 该上采样节点对该上采样特征图执行上采样操作, 获得分辨率为12896的上采样特征 图。 如图6所示, 将分辨率为12896的下采样特征图与分辨率为12896的上采样特征图相 加, 得到经过相加操作后的分辨率为12896的上采样特征图。 0076 最后将经过相加操作后的分辨率为12896的上采样特征图输入第3个上采样节 说明书 6/16 页 10 CN 111178363 A 10 点, 该上采样节点对该上采样特征图执行上采样操作, 获得分辨率为256。
43、192的上采样特 征图。 如图6所示, 将分辨率为256192的下采样特征图与分辨率为256192的上采样特征 图相加, 得到经过相加操作后的分辨率为256192的上采样特征图, 该下采样特征图即作 为下采样特征。 0077 其中, 上采样特征图与对应下采样特征图执行相加操作是指: 针对上采样特征图 中的每个像素点, 将该像素点的像素值加上对应下采样特征图中对应像素点的像素值。 0078 应当理解的, 图6和上述示例中所列举的分辨率数值仅发挥示意性作用, 不用于限 定本申请。 本申请在实施期间, 各个下采样特征图和上采样特征图的具体分辨率与输入图 像的原始分辨率有关, 且本申请也不限定输入图像。
44、的原始分辨率。 0079 通过在上采样期间, 对分辨率相同的上采样特征图和下采样特征图执行相加操 作, 可以使下采样特征图反映的全局特征叠加到上采样特征图反映的局部特征中, 使得字 符顺序分割图兼顾待识别图像的全局特征和局部特征, 有利于进一步提高识别结果准确 性。 0080 步骤S23: 根据每个字符顺序分割图中各个像素点的像素值、 和每个字符类别分割 图中各个像素点的像素值, 确定所述待识别图像中每个字符的字符顺序和字符类别。 0081 在某些实施例中, 可以针对多个字符顺序分割图中的每个字符顺序分割图, 根据 该字符顺序分割图中的各个像素点的像素值、 以及每个字符类别分割图中各个像素点的。
45、像 素值, 确定该字符顺序分割图对应的字符的字符类别。 0082 示例地, 假设字符类别分割图共27个, 第1至第26个字符类别分割图分别对应字母 “A” 至字母 “Z” , 第27个字符类别分割图对应背景类别。 0083 例如针对第1个字符顺序分割图, 首先第1个字符顺序分割图中各个像素点的像素 值, 以及根据第1个字符类别分割图中各个像素点的像素值, 确定待识别图像中第1个字符 (即字符串中字符顺序为1的字符)的字符类别是字母 “A” 的可能性。 0084 继续根据第1个字符顺序分割图中各个像素点的像素值, 以及根据第2个字符类别 分割图中各个像素点的像素值, 确定待识别图像中第1个字符(。
46、即字符串中字符顺序为1的 字符)的字符类别是字母 “B” 的可能性。 0085 依此类推, 确定出第1个字符属于27种类别中各个类别的可能性。 然后根据27种类 别各自对应的可能性, 确定第1个字符的类别。 通常可以将可能性最高的类别确定为第1个 字符的类别。 0086 依此类推, 按照字符串中的字符顺序, 依次确定出各个字符的字符类别。 换言之, 将针对第1个字符顺序分割图确定的字符类别, 作为识别结果中的第1个字符, 将针对第2个 字符顺序分割图确定的字符类别, 作为识别结果中的第2个字符, 依此类推, 依次确定出各 个字符的字符类别, 从而形成识别结果, 即预测的字符串。 0087 其中。
47、, 针对第n个字符顺序分割图, 在根据第n个字符顺序分割图中各个像素点的 像素值, 以及根据第m个字符类别分割图中各个像素点的像素值, 确定待识别图像中第n个 字符的字符类别是第m类字符的可能性时, 具体地, 参考图7, 图7是本申请一实施例提出的 确定字符类别可能性的示意图。 0088 如图7所示, 可以依次针对第n个字符顺序分割图中的每个像素点, 在该像素点的 像素值较大, 且第m个字符类别分割图中相同位置像素点的像素值也较大的情况下, 使得第 说明书 7/16 页 11 CN 111178363 A 11 n个字符顺序分割图中的该像素点获得一个较大的数值, 如7中实线框所圈示的内容。 否。
48、则, 使得第n个字符顺序分割图中的该像素点获得一个较小的数值, 如7中虚线框所圈示的内 容。 图7中以圈号表示像素点处获得了一个较大的数值, 以叉号表示像素点处获得了一个较 小的数值。 0089 最后, 统计第n个字符顺序分割图中多个像素点所获得的数值的总和, 确定待识别 图像中第n个字符的字符类别是第m类字符的可能性。 其中, 所述总和越大, 所述可能性越 大。 0090 通过以图7所示的方式确定字符类别可能性, 可以进一步减小识别误差。 如图7所 示, 第m个字符类别分割图中虚线框区域内的像素值较大, 但是第n个字符顺序分割图中同 样区域的像素值较小, 因此该区域很可能不是第n个字符的一部。
49、分。 通过图7所示的方式, 该 区域像素点所赋予的数值较小, 因此可以降低识别误差。 0091 同样地, 如图7所示, 第n个字符顺序分割图中虚线框区域内的像素值较大, 但是第 m个字符类别分割图中同样区域的像素值较小, 因此该区域很可能不是第m种字符类别, 或 者该区域很可能不存在字符。 通过图7所示的方式, 该区域像素点所赋予的数值较小, 因此 也可以降低识别误差。 0092 为了实现图7所示的确定过程, 在某些实施例中, 可以依次针对第n个字符顺序分 割图中的每个像素点, 在该像素点的像素值大于第一预设阈值(例如0.6), 且第m个字符类 别分割图中相同位置像素点的像素值大于第二预设阈值。
50、(例如0.8)的情况下, 对第n个字符 顺序分割图中的该像素点赋予数值 “1” , 否则赋予数值 “0” 。 0093 或者为了实现图7所示的确定过程, 在另一些实施例中, 可以采取一种计算量更小 的方式。 例如, 可以将第n个字符顺序分割图中的各个像素点的像素值, 与第m个字符类别分 割图中各个像素点的像素值对应相乘。 然后将第n个字符顺序分割图中每个像素点各自对 应的乘积, 作为赋予该像素点的数值。 基于这些实施例的构思, 上述步骤S23可以具体包括 以下子步骤: 0094 子步骤S23-1: 针对每个字符类别分割图, 将该字符类别分割图中各个像素点的像 素值与该字符顺序分割图中各个像素点。
- 内容关键字: 文字 识别 方法 装置 电子设备 以及 可读 存储 介质
相机模块.pdf
具有防堵机构的浆水处理用滤筛装置.pdf
打包设备.pdf
可回收动脉瘤辅助支架及输送系统.pdf
电梯井道相邻房间的复合隔声墙体构造.pdf
灯具的免接电线的导电铜片触点结构.pdf
管式反应器.pdf
陶瓷纤维管.pdf
留孔装置.pdf
冲压机用的送料机构.pdf
玻璃装饰条组装装置.pdf
电缆抗拉强度检测装置.pdf
电网建设的架线机.pdf
家电玻璃多向磨边机.pdf
用于土壤肥料的均匀泼洒机构.pdf
漏电电流检测仪及防护组件.pdf
洁净室多重复合杀菌过滤风口结构.pdf
纸垛自动整理装置.pdf
有机废气、有机废液及烟气的协同处理系统.pdf
铜锭抛光用夹具.pdf
指纹取景器.pdf
新型电动自楔式安全制动器.pdf
新型血糖试纸盒.pdf
中远距离传输零中频接收机电路.pdf
纳米铁强化磺胺废水厌氧消化的方法.pdf
鱼缸除垢机器人.pdf
可变形手持便携式三防平板电脑.pdf
步进电机散热方法、系统及介质.pdf
建筑施工降尘设备.pdf
防水防潮型家用可燃气体探测器.pdf
基于物联网的智能实验室安全管理策略确定方法及装置.pdf
基于双边带光频梳的快速布里渊光学时域分析仪.pdf