图像中的文本识别方法及系统.pdf

上传人:王** 文档编号:10418889 上传时间:2021-06-20 格式:PDF 页数:16 大小:707.90KB
收藏 版权申诉 举报 下载
图像中的文本识别方法及系统.pdf_第1页
第1页 / 共16页
图像中的文本识别方法及系统.pdf_第2页
第2页 / 共16页
图像中的文本识别方法及系统.pdf_第3页
第3页 / 共16页
文档描述:

《图像中的文本识别方法及系统.pdf》由会员分享,可在线阅读,更多相关《图像中的文本识别方法及系统.pdf(16页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010309711.2 (22)申请日 2020.04.17 (71)申请人 广州多益网络股份有限公司 地址 510000 广东省广州市黄埔区伴河路 90号 申请人 广东利为网络科技有限公司 多益网络有限公司 (72)发明人 徐波 (74)专利代理机构 广州三环专利商标代理有限 公司 44202 代理人 麦小婵郝传鑫 (51)Int.Cl. G06K 9/32(2006.01) G06K 9/46(2006.01) G06K 9/62(2006.01) G06N 3/04(。

2、2006.01) G06N 3/08(2006.01) (54)发明名称 一种图像中的文本识别方法及系统 (57)摘要 本发明公开了一种图像中的文本识别方法 及系统, 该方法先通过文本检测模型, 提取待识 别图像中的N个文本定位区域, 对应获得N个待合 并文本定位框; 其中, 每个待合并文本定位框为 待识别图像中对应的文本定位区域的区域轮廓; 根据每个待合并文本定位框的顶点坐标, 对所有 待合并文本定位框进行合并, 获得K个待检测文 本定位框; 其中, NK1; 基于文本识别模型, 识 别所有待检测文本定位框中的文本, 获得待检测 文本; 将待检测文本与预设的违规关键字字典中 的关键字进行比对。

3、, 获得待识别图像对应的识别 结果; 本发明技术方案能够提高复杂图像中的文 本识别的准确度和识别效率。 权利要求书3页 说明书9页 附图3页 CN 111666937 A 2020.09.15 CN 111666937 A 1.一种图像中的文本识别方法, 其特征在于, 包括: 基于预设的文本检测模型, 提取待识别图像中的N个文本定位区域, 对应获得N个待合 并文本定位框; 其中, 每个所述待合并文本定位框为所述待识别图像中对应的文本定位区 域的区域轮廓; 根据每个所述待合并文本定位框的顶点坐标, 对所有所述待合并文本定位框进行合 并, 获得K个待检测文本定位框; 其中, NK1; 基于预设的文。

4、本识别模型, 识别所有所述待检测文本定位框中的文本, 获得待检测文 本; 将所述待检测文本与预设的违规关键字字典中的关键字进行比对, 获得所述待识别图 像对应的识别结果。 2.如权利要求1所述的图像中的文本识别方法, 其特征在于, 所述文本检测模型包括残 差网络和分割网络; 则, 所述基于预设的文本检测模型, 提取待识别图像中的N个文本定位 区域, 对应获得N个待合并文本定位框, 具体为: 通过所述残差网络对所述待识别图像进行层级特征提取, 获得若干种尺寸的特征图; 通过所述分割网络将所有所述特征图进行融合, 获得待分割图像; 对所述待分割图像进行非极大值抑制处理, 获得N个所述文本定位区域,。

5、 对应获得N个 所述待合并文本定位框。 3.如权利要求2所述的图像中的文本识别方法, 其特征在于, 所述残差网络包括若干层 卷积层; 其中, 第i层卷积层的尺寸是第i+1层卷积层的尺寸的两倍, 第i层卷积层的卷积核 是第i+1层卷积层的卷积核的二分之一; i为0的整数; 则, 所述通过所述残差网络对所述 待识别图像进行层级特征提取, 获得若干种尺寸的特征图, 具体为: 将所述待识别图像分别输入到每层所述卷积层中进行特征提取, 获得若干种尺寸的特 征图。 4.如权利要求1所述的图像中的文本识别方法, 其特征在于, 所述方法通过以下步骤预 先构建所述文本检测模型: 通过标记工具对待训练图像中的文本。

6、框进行标记, 获得文本框的顶点坐标; 将所述待训练图像与所述待训练图像对应的文本框的顶点坐标输入到第一深度学习 网络模型中, 以构建待优化的文本检测模型; 其中, 所述第一深度学习网络模型包括残差网 络和分割网络; 利用第一损失函数反向训练所述待优化的文本检测模型, 获得所述文本检测模型; 其 中, 所述第一损失函数包括分图在文本内的损失、 文本边界与起始点的损失和文本回归坐 标点损失。 5.如权利要求1所述的图像中的文本识别方法, 其特征在于, 所述根据每个所述待合并 文本定位框的顶点坐标, 对所有所述待合并文本定位框进行合并, 获得K个待检测文本定位 框, 具体为: 对于第j个待合并文本定。

7、位框, 计算第j个待合并文本定位框与相邻的第j+1个待合并 文本定位框的横轴坐标值之差和纵轴坐标值之差; 其中, j1, 2, ., N; 判断所述纵轴坐标值之差是否小于第一预设阈值; 若所述纵轴坐标值之差小于第一预设阈值, 则判断所述横轴坐标值之差是否小于第二 权利要求书 1/3 页 2 CN 111666937 A 2 预设阈值; 若所述横轴坐标值之差小于第二阈值, 则将所述第j个待合并文本定位框和所述第j+1 个待合并文本定位框进行合并, 获得所述待检测文本定位框; 若所述纵轴坐标值之差大于第一预设阈值或所述横轴坐标值之差大于第二预设阈值, 则将所述第j个待合并文本定位框和所述第j+1个。

8、待合并文本定位框分别标记为所述待检 测文本定位框。 6.如权利要求1所述的图像中的文本识别方法, 其特征在于, 在获得所述N个待合并文 本定位框之后, 还包括: 判断每个所述待合并文本定位框的内角是否等于90 ; 若任一所述待合并文本定位框的内角不等于90 , 则通过仿射变换技术将该待合并文 本定位框的内角矫正为90 ; 若任一所述待合并文本定位框的内角等于90 , 则不对该待合并文本定位框进行矫正。 7.如权利要求1所述的图像中的文本识别方法, 其特征在于, 所述方法通过以下步骤预 先构建所述文本识别模型: 对待处理文本进行预处理, 获得待训练文本; 将所述待训练文本与所述待训练文本对应的识。

9、别结果输入到第二深度学习网络模型 中, 以构建待优化的文本识别模型; 其中, 所述第二深度学习网络模型包括卷积层、 第一稠 密块、 第一过度层、 第二稠密块、 第二过度层、 第三稠密块和转换层; 利用第二损失函数反向训练所述待优化的文本识别模型, 获得所述文本识别模型; 其 中, 所述第二损失函数由CTC算法组成。 8.如权利要求7所述的图像中的文本识别方法, 其特征在于, 所述预处理包括以下至少 任一: 字体变换处理、 字体大小缩放处理、 字体灰度处理、 字体模糊处理、 字体透视处理和字 体拉伸处理。 9.如权利要求1所述的图像中的文本识别方法, 其特征在于, 所述将所述待检测文本与 预设的。

10、违规关键字字典中的关键字进行比对, 获得所述待识别图像对应的识别结果, 具体 为: 将所述待检测文本与预设违规关键字字典中的关键字进行比对; 若所述预设违规关键字字典中存在所述待检测文本, 则将所述待识别图像标记为不合 格图像; 若所述预设违规关键字字典中不存在所述待检测文本, 则将所述待识别图像标记为合 格图像, 并将所述待检测文本作为所述待识别图像的最终识别结果。 10.一种图像中的文本识别系统, 其特征在于, 包括: 文本定位模块, 用于基于预设的文本检测模型, 提取待识别图像中的N个文本定位区 域, 对应获得N个待合并文本定位框; 其中, 每个所述待合并文本定位框为所述待识别图像 中对。

11、应的文本定位区域的区域轮廓; 文本定位框处理模块, 用于根据每个所述待合并文本定位框的顶点坐标, 对所有所述 待合并文本定位框进行合并, 获得K个待检测文本定位框; 其中, NK1; 文本识别模块, 用于基于预设的文本识别模型, 识别所有所述待检测文本定位框中的 文本, 获得待检测文本; 权利要求书 2/3 页 3 CN 111666937 A 3 图片识别模块, 用于将所述待检测文本与预设的违规关键字字典中的关键字进行比 对, 获得所述待识别图像对应的识别结果。 权利要求书 3/3 页 4 CN 111666937 A 4 一种图像中的文本识别方法及系统 技术领域 0001 本发明涉及文本检。

12、测与识别技术领域, 尤其涉及一种图像中的文本识别方法及系 统。 背景技术 0002 文本作为人类之间传递信息的桥梁, 特别是在互联网迅速发展的今天, 将文本信 息通过图像的形式进行传播随处可见。 然而用户上传的图像的内容信息参差不齐, 若单单 靠人眼从海量的图像中筛选出违规图像, 工作量大且效率低。 0003 现有技术中, 通过光学字符识别方法进行图像的文本识别, 然而现有的光学字符 识别方法适用于识别规整文档扫描件中的文本, 不适用于在图像这种具有复杂背景的下的 文本识别, 从而导致图像的文本识别的准确率低, 不仅如此, 现有的光学字符识别方法的检 测时间长, 效率低。 发明内容 0004 。

13、本发明实施例提供了一种图像中的文本识别方法及系统, 以解决现有的对图像中 的文本识别的准确度低和识别效率低的技术问题, 本发明实施例能够提高复杂图像中的文 本识别的准确度和识别效率。 0005 为了解决上述技术问题, 本发明实施例提供了一种图像中的文本识别方法, 包括: 0006 基于预设的文本检测模型, 提取待识别图像中的N个文本定位区域, 对应获得N个 待合并文本定位框; 其中, 每个所述待合并文本定位框为所述待识别图像中对应的文本定 位区域的区域轮廓; 0007 根据每个所述待合并文本定位框的顶点坐标, 对所有所述待合并文本定位框进行 合并, 获得K个待检测文本定位框; 其中, NK1;。

14、 0008 基于预设的文本识别模型, 识别所有所述待检测文本定位框中的文本, 获得待检 测文本; 0009 将所述待检测文本与预设的违规关键字字典中的关键字进行比对, 获得所述待识 别图像对应的识别结果。 0010 作为优选方案, 所述文本检测模型包括残差网络和分割网络; 则, 所述基于预设的 文本检测模型, 提取待识别图像中的N个文本定位区域, 对应获得N 个待合并文本定位框, 具体为: 0011 通过所述残差网络对所述待识别图像进行层级特征提取, 获得若干种尺寸的特征 图; 0012 通过所述分割网络将所有所述特征图进行融合, 获得待分割图像; 0013 对所述待分割图像进行非极大值抑制处。

15、理, 获得N个所述文本定位区域, 对应获得 N个所述待合并文本定位框。 0014 作为优选方案, 所述残差网络包括若干层卷积层; 其中, 第i层卷积层的尺寸是第i 说明书 1/9 页 5 CN 111666937 A 5 +1层卷积层的尺寸的两倍, 第i层卷积层的卷积核是第i+1层卷积层的卷积核的二分之一; i 为0的整数; 则, 所述通过所述残差网络对所述待识别图像进行层级特征提取, 获得若干 种尺寸的特征图, 具体为: 0015 将所述待识别图像分别输入到每层所述卷积层中进行特征提取, 获得若干种尺寸 的特征图。 0016 作为优选方案, 所述方法通过以下步骤预先构建所述文本检测模型: 0。

16、017 通过标记工具对待训练图像中的文本框进行标记, 获得文本框的顶点坐标; 0018 将所述待训练图像与所述待训练图像对应的文本框的顶点坐标输入到第一深度 学习网络模型中, 以构建待优化的文本检测模型; 其中, 所述第一深度学习网络模型包括残 差网络和分割网络; 0019 利用第一损失函数反向训练所述待优化的文本检测模型, 获得所述文本检测模 型; 其中, 所述第一损失函数包括分图在文本内的损失、 文本边界与起始点的损失和文本回 归坐标点损失。 0020 作为优选方案, 所述根据每个所述待合并文本定位框的顶点坐标, 对所有所述待 合并文本定位框进行合并, 获得K个待检测文本定位框, 具体为:。

17、 0021 对于第j个待合并文本定位框, 计算第j个待合并文本定位框与相邻的第j+1 个待 合并文本定位框的横轴坐标值之差和纵轴坐标值之差; 其中, j1, 2, ., N; 0022 判断所述纵轴坐标值之差是否小于第一预设阈值; 0023 若所述纵轴坐标值之差小于第一预设阈值, 则判断所述横轴坐标值之差是否小于 第二预设阈值; 0024 若所述横轴坐标值之差小于第二阈值, 则将所述第j个待合并文本定位框和所述 第j+1个待合并文本定位框进行合并, 获得所述待检测文本定位框; 0025 若所述纵轴坐标值之差大于第一预设阈值或所述横轴坐标值之差大于第二预设 阈值, 则将所述第j个待合并文本定位框。

18、和所述第j+1个待合并文本定位框分别标记为所述 待检测文本定位框。 0026 作为优选方案, 在获得所述N个待合并文本定位框之后, 还包括: 0027 判断每个所述待合并文本定位框的内角是否等于90 ; 0028 若任一所述待合并文本定位框的内角不等于90 , 则通过仿射变换技术将该待合 并文本定位框的内角矫正为90 ; 0029 若任一所述待合并文本定位框的内角等于90 , 则不对该待合并文本定位框进行 矫正。 0030 作为优选方案, 所述方法通过以下步骤预先构建所述文本识别模型: 0031 对待处理文本进行预处理, 获得待训练文本; 0032 将所述待训练文本与所述待训练文本对应的识别结。

19、果输入到第二深度学习网络 模型中, 以构建待优化的文本识别模型; 其中, 所述第二深度学习网络模型包括卷积层、 第 一稠密块、 第一过度层、 第二稠密块、 第二过度层、 第三稠密块和转换层; 0033 利用第二损失函数反向训练所述待优化的文本识别模型, 获得所述文本识别模 型; 其中, 所述第二损失函数由CTC算法组成。 0034 作为优选方案, 所述预处理包括以下至少任一: 字体变换处理、 字体大小缩放处 说明书 2/9 页 6 CN 111666937 A 6 理、 字体灰度处理、 字体模糊处理、 字体透视处理和字体拉伸处理。 0035 作为优选方案, 所述将所述待检测文本与预设的违规关键。

20、字字典中的关键字进行 比对, 获得所述待识别图像对应的识别结果, 具体为: 0036 将所述待检测文本与预设违规关键字字典中的关键字进行比对; 0037 若所述预设违规关键字字典中存在所述待检测文本, 则将所述待识别图像标记为 不合格图像; 0038 若所述预设违规关键字字典中不存在所述待检测文本, 则将所述待识别图像标记 为合格图像, 并将所述待检测文本作为所述待识别图像的最终识别结果。 0039 相应地, 本发明还提供一种图像中的文本识别系统, 包括: 0040 文本定位模块, 用于基于预设的文本检测模型, 提取待识别图像中的N个文本定位 区域, 对应获得N个待合并文本定位框; 其中, 每。

21、个所述待合并文本定位框为所述待识别图 像中对应的文本定位区域的区域轮廓; 0041 文本定位框处理模块, 用于根据每个所述待合并文本定位框的顶点坐标, 对所有 所述待合并文本定位框进行合并, 获得K个待检测文本定位框; 其中, NK1; 0042 文本识别模块, 用于基于预设的文本识别模型, 识别所有所述待检测文本定位框 中的文本, 获得待检测文本; 0043 图片识别模块, 用于将所述待检测文本与预设的违规关键字字典中的关键字进行 比对, 获得所述待识别图像对应的识别结果。 0044 实施本发明实施例, 具有如下有益效果: 0045 本发明实施例提供的图像中的文本识别方法, 该方法先通过文本。

22、检测模型, 提取 待识别图像中的N个文本定位区域, 对应获得N个待合并文本定位框; 其中, 每个待合并文本 定位框为待识别图像中对应的文本定位区域的区域轮廓; 根据每个待合并文本定位框的顶 点坐标, 对所有待合并文本定位框进行合并, 获得K个待检测文本定位框; 其中, NK1; 基 于文本识别模型, 识别所有待检测文本定位框中的文本, 获得待检测文本; 将待检测文本与 预设的违规关键字字典中的关键字进行比对, 获得待识别图像对应的识别结果; 相比于现 有的光学字符识别方法, 本发明技术方案主要针对图像中的文本检测, 文本识别的准确率 高, 且本发明技术方案不仅通过文本检测模型提取待识别图像中的。

23、定位框, 缩小识别范围, 减少文本识别时间, 提高文本识别的效率, 还将待合并文本定位框进行合并, 减少识别次 数, 进一步降低文本识别时间, 提高文本识别效率。 附图说明 0046 图1是本发明提供的图像中的文本识别方法的一个优选实施例的流程示意图; 0047 图2是本发明提供的待合并文本定位框获取方法的流程示意图; 0048 图3是本发明提供的预设的文本识别模型的结构示意图; 0049 图4是本发明提供的待识别图像以及待识别图像对应的识别结果的示意图; 0050 图5是本发明提供的图像中的文本识别系统的一个优选实施例的结构示意图。 具体实施方式 0051 下面将结合本发明实施例中的附图, 。

24、对本发明实施例中的技术方案进行清楚、 完 说明书 3/9 页 7 CN 111666937 A 7 整地描述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而不是全部的实施例。 基于 本发明中的实施例, 本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例, 都属于本发明保护的范围。 0052 本发明实施例提供一种图像中的文本识别方法, 参见图1所示, 是本发明提供的一 种图像中的文本识别方法的一个优选实施例的流程示意图, 该方法包括步骤101至步骤 104, 各步骤具体如下: 0053 步骤101: 基于预设的文本检测模型, 提取待识别图像中的N个文本定位区域, 对应 。

25、获得N个待合并文本定位框; 其中, 每个待合并文本定位框为待识别图像中的每个文本定位 区域的区域轮廓。 0054 在其中一种优选实施例中, 文本检测模型包括残差网络和分割网络; 则, 基于预设 的文本检测模型, 提取待识别图像中的N个文本定位区域, 对应获得 N个待合并文本定位 框, 具体为: 通过残差网络对待识别图像进行层级特征提取, 获得若干种尺寸的特征图; 通 过分割网络将所有特征图进行融合, 获得待分割图像; 对待分割图像进行非极大值抑制处 理, 获得N个文本定位区域, 对应获得N个待合并文本定位框。 0055 在本实施例中, 残差网络用于图像的特征提取; 其中, 残差网络包括若干层卷。

26、积 层, 其中, 第i层卷积层的尺寸是第i+1层卷积层的尺寸的两倍, 第i层卷积层的卷积核是第i +1层卷积层的卷积核的二分之一; i为0的整数; 则, 通过残差网络对待识别图像进行层级 特征提取, 获得若干种尺寸的特征图, 具体为: 将待识别图像分别输入到每层卷积层中进行 特征提取, 获得若干种尺寸的特征图。 0056 譬如, 残差网络包括五层卷积层, 分别为第一卷积层Conv_1、 第二卷积层 Conv_2、 第三卷积层Conv_3、 第四卷积层Conv_4、 第五卷积层Conv_5, 可参见图2, 卷积层的尺寸依次 减半, 卷积核的数量依次增倍, 通过这种方式可以抽取5种尺寸的特征图, 。

27、以实现不同尺度 文本行的检测; 第i层卷积层相对于第i+1 层卷积层感受野小, 特征图大, 与第i+1层卷积层 相比第i层卷积层擅长检测小物体。 0057 在本实施例中, 分割网络将前面抽取的特征图按照一定的规则进行合并, 其主要 作用是实现图像特征的融合, 特征提取层中抽取的最后一层(例如图2 中的第五卷积层)的 特征图被最先送入上采样层(Up sampling), 将图像放大1 倍, 接着与前一层(第四卷积层) 的特征图串起来(concat), 然后依次作卷积核大小为1x1, 3x3的卷积对第三卷积层、 第二卷 积层重复以上过程, 而卷积核的个数逐层递减, 依次为128, 64, 32最后。

28、经过32核, 3x3卷积后 将结果输出, 获得待分割图像。 0058 在本实施例中, 通过残差网络实现多尺度的文本检测, 提升文本定位框的定位精 度, 从而提高文本识别的准确率; 通过分割网络将其特征图的融合, 使得获取的待分割图像 的准确度更高, 从而提高文本识别的准确率。 0059 在其中一种优选实施例中, 通过以下步骤预先构建文本检测模型: 通过标记工具 对待训练图像中的文本框进行标记, 获得文本框的顶点坐标; 将待训练图像与待训练图像 对应的文本框的顶点坐标输入到第一深度学习网络模型中, 以构建待优化的文本检测模 型; 其中, 第一深度学习网络模型包括残差网络和分割网络, 残差网络由R。

29、esNet50构成, 分 割网络由Unet构成; 利用第一损失函数反向训练待优化的文本检测模型, 获得预设的文本 检测模型; 其中, 第一损失函数包括分图在文本内的损失、 文本边界与起始点的损失和文本 说明书 4/9 页 8 CN 111666937 A 8 回归坐标点损失。 0060 在本实施例中, 利用标记工具使用roLabelImg对待训练图像进行标记, 标记后的 每张待训练图像会生成对应的xml文件, 将其文本定位框的坐标点转换为以左上角点为起 始点, 顺时针排列的四个点集, 获得文本框的顶点坐标, 其中, 文本定位框为矩形框。 0061 在本实施例中, 第一损失函数用于度量神经网络的。

30、输出的预测值, 与实际值之间 的差距的一种方式, 最后用于反向求导更新模型参数, 其中, 分图在文本内的损失(inside_ score)的计算公式如下: 0062 0063 0064其中, 是模型输出的得分图, Y*是真实标签。 0065 文本边界与起始点的损失(side_vertex_code)的计算公式如下: 0066 0067 0068 0069其中, 是模型输出的文本边界信息值, V*是真实标记边界信息值, pos_weights为 0, 1矩阵, 1代表像素在文本内, 0代表在文本外。 0070 文本回归坐标点损失(smoothl1)的计算公式如下: 0071 0072 其中, x。

31、为预测值与真实值的差。 0073 在其中一种优选实施例中, 在获得N个待合并文本定位框之后, 还包括: 判断每个 待合并文本定位框的内角是否等于90 ; 若任一待合并文本定位框的内角不等于90 , 则通 过仿射变换技术将该待合并文本定位框的内角矫正为 90 ; 若任一待合并文本定位框的内 角等于90 , 则不对该待合并文本定位框进行矫正。 0074 在本实施例中, 通过对待合并文本框进行矫正, 能够更好的文本框中的文字进行 识别, 提高文字识别结果的准确率。 0075 步骤102: 根据每个待合并文本定位框的顶点坐标, 对所有待合并文本定位框进行 合并, 获得K个待检测文本定位框; 其中, N。

32、K1。 0076 对于第j个待合并文本定位框, 计算第j个待合并文本定位框与相邻的第j+1 个待 合并文本定位框的横轴坐标值之差和纵轴坐标值之差; 其中, j1, 2, ., N; 判断纵轴坐 标值之差是否小于5; 若纵轴坐标值之差小于5, 则判断横轴坐标值之差是否小于20; 若横轴 坐标值之差小于20, 则将第j个待合并文本定位框和第j+1个待合并文本定位框进行合并, 说明书 5/9 页 9 CN 111666937 A 9 获得待检测文本定位框; 若纵轴坐标值之差大于5或横轴坐标值之差大于20, 则将第j个待 合并文本定位框和第j+1 个待合并文本定位框分别标记为待检测文本定位框。 007。

33、7 在本实施例中, 将待合并文本定位框进行合并, 减少识别次数, 降低文本识别时 间, 从而提高文本识别效率。 0078 步骤103: 基于预设的文本识别模型, 识别所有待检测文本定位框中的文本, 获得 待检测文本。 0079 在其中一种优选实施例中, 预设的文本识别模型的构建方法如下: 对待处理文本 进行预处理, 获得待训练文本; 将待训练文本与待训练文本对应的识别结果输入到第二深 度学习网络模型中, 以构建待优化的文本识别模型; 其中, 第二深度学习网络模型包括卷积 层、 第一稠密块、 第一过度层、 第二稠密块、 第二过度层、 第三稠密块和转换层; 利用第二损 失函数反向训练待优化的文本识。

34、别模型, 获得预设的文本识别模型; 其中, 第二损失函数由 CTC算法组成。 0080 在本实施例中, 待训练文本集的制作的步骤如下: 收集待处理文本, 其中待处理文 本的获取来源包括新闻、 文言文, 对待处理文本进行预处理, 其中预处理包括以下至少任 一: 字体变换处理、 字体大小缩放处理、 字体灰度处理、 字体模糊处理、 字体透视处理和字体 拉伸处理; 最后生成包含汉字、 英文字母、 数字和标点工5990个字符, 每个样本固定十个字 符, 字符随机截取语料库中的句子, 共约364万张图片, 图片分辨率统一为280*32, 按照99: 1 划分成训练集和验证集。 需说明的是, 通过对待处理文。

35、本进行预处理, 能够对艺术字体进行 提取, 从而提高文字识别结果的准确度。 0081 在本实施例中, 第二深度学习网络模型由主干网络由稠密连接网络 DenseNet构 成, 其中DenseNet包括卷积层Conv、 第一稠密块DenseBlock1、 第一过度层Transition Layer、 第二稠密块DenseBlock2、 第二过度层Transition Layer、 第三稠密块DenseBlock3 和转换层Relu&Linear, 可参见图3, 需说明的是, 稠密块的增长率均为8, 且每个稠密块由8 个DenseLayer组成, 其中, DenseLayer是将上一层的特征图由ba。

36、tchnorm层和relu激活函 数经过 kernel_size3, padding1的卷积层, 最后包括自己本身和提取的feature层堆 叠在一起作为输出。 过度层能够进一步提高模型的紧凑性, 可以减少过渡层的特征图数量, 在此模型中Transition Layer的输出层数均设置为128。 Transition Layer 层将上一层的 特征图输入batchnorm层和relu激活函数经过1*1的卷积层和 kernel_size2,stride2 的平均池化层。 为了缓解网络模型过拟合, 在卷积层后添加了dropout层。 0082 在本实施例中, Dense Block中每个卷积层的输。

37、出feature map(特征图)的数量都 比较小, 而不是像其他网络一样动不动就几百上千的宽度。 同时这种连接方式使得特征和 梯度的传递更加有效, 网络也就更加容易训练有效的减轻了梯度消失的问题, 加强了特征 的传递。 transitionLayer的作用在于将传给下一个 Dense Block的时候channel数量就会 减少压缩在一定的范围, 从而减少计算量。 Relu是一种激活函数, 线性模型的表达能力不 够, 激活函数增加神经网络模型的非线性, 提升神经网络模型表达能力。 Liear是这种线性 变换操作, 在本实施例中是为了转换成CTC算法的接口输入格式。 需说明的是, 通过 tra。

38、nsitionLayer 减少计算量, 能够有效减少文本的识别时间, 提高文本识别效率。 0083 在本实施例中, 利用CTC算法进行处理序列标注问题中的输入与输出标签的对齐 问题, 以此为损失函数, 通过反向求导对神经网络模型进行训练。 需说明的是, 利用CTC算法 说明书 6/9 页 10 CN 111666937 A 10 使得相同字符只需输出序列相同即可, 不要求每个字符一一对齐, 例如检测state这个单 词, 网络最后输出的是ss_t_aa_te, 或者 _s_tt_ate(_代表空格), 其实他们都是state, CTC loss不管对齐样式是什么样的, 宽的或窄的, 相同字符只。

39、需输出序列相同即可, 不要求 每个字符一一对齐, 从而快速输出结果, 进而提高模型的识别效率。 0084 步骤104: 将待检测文本与预设的违规关键字字典中的关键字进行比对, 获得待识 别图像对应的识别结果。 0085 在其中一种优选实施例中, 将待检测文本与预设违规关键字字典中的关键字进行 比对, 若预设违规关键字字典中存在待检测文本, 则将待识别图像标记为不合格图像; 若预 设违规关键字字典中不存在待检测文本, 则将待识别图像标记为合格图像, 并将待检测文 本作为待识别图像的最终识别结果。 0086 在本实施例中, 将待检测文本与预设违规字典的关键词进行比对, 能够对海量的 社交图片进行初。

40、步的筛选, 过滤违规图片, 能够极大的降低人工成本提升鉴别图片的效率。 0087 由上可见, 本发明实施例提供的图像中的文本识别方法, 该方法先通过文本检测 模型, 提取待识别图像中的N个文本定位区域, 对应获得N个待合并文本定位框; 其中, 每个 待合并文本定位框为待识别图像中对应的文本定位区域的区域轮廓; 根据每个待合并文本 定位框的顶点坐标, 对所有待合并文本定位框进行合并, 获得K个待检测文本定位框; 其中, NK1; 基于文本识别模型, 识别所有待检测文本定位框中的文本, 获得待检测文本; 将待 检测文本与预设的违规关键字字典中的关键字进行比对, 获得待识别图像对应的识别结 果; 相。

41、比于现有的光学字符识别方法, 本发明技术方案主要针对图像中的文本检测, 文本识 别的准确率高, 且本发明技术方案不仅通过文本检测模型提取待识别图像中的定位框, 缩 小识别范围, 减少文本识别时间, 提高文本识别的效率, 还将待合并文本定位框进行合并, 减少识别次数, 进一步降低文本识别时间, 提高文本识别效率。 0088 参见图4所示, 是本发明提供的一种图像中的文本识别系统的一个优选实施例的 结构示意图, 该系统包括文本定位模块201、 文本定位框处理模块202、 文本识别模块203、 图 片识别模块204; 0089 文本定位模块201, 用于基于预设的文本检测模型, 提取待识别图像中的N。

42、 个文本 定位区域, 对应获得N个待合并文本定位框; 其中, 每个待合并文本定位框为待识别图像中 对应的文本定位区域的区域轮廓; 0090 文本定位框处理模块202, 用于根据每个待合并文本定位框的顶点坐标, 对所有待 合并文本定位框进行合并, 获得K个待检测文本定位框; 其中, NK 1; 0091 文本识别模块203, 用于基于预设的文本识别模型, 识别所有待检测文本定位框中 的文本, 获得待检测文本; 0092 图片识别模块204, 用于将待检测文本与预设的违规关键字字典中的关键字进行 比对, 获得待识别图像对应的识别结果。 0093 优选地, 所述文本检测模型包括残差网络和分割网络; 。

43、则, 所述文本定位模块201 具体包括: 0094 图像特征提取与融合单元, 用于通过残差网络对待识别图像进行层级特征提取, 获得若干种尺寸的特征图; 通过分割网络将所有特征图进行融合, 获得待分割图像; 0095 文本定位单元, 用于对待分割图像进行非极大值抑制处理, 获得N个文本定位区 说明书 7/9 页 11 CN 111666937 A 11 域, 对应获得N个待合并文本定位框。 0096 优选地, 所述残差网络包括若干层卷积层; 其中, 第i层卷积层的尺寸是第 i+1层 卷积层的尺寸的两倍, 第i层卷积层的卷积核是第i+1层卷积层的卷积核的二分之一; i为 0的整数; 则, 所述图像。

44、特征提取与融合单元具体用于: 0097 将待识别图像分别输入到每层卷积层中进行特征提取, 获得若干种尺寸的特征 图。 0098 优选地, 所述系统还包括文本检测模型构建模块; 所述文本检测模型构建模块具 体包括: 0099 文本标记单元, 用于通过标记工具对待训练图像中的文本框进行标记, 获得文本 框的顶点坐标; 0100 文本检测模型训练单元, 用于将待训练图像与待训练图像对应的文本框的顶点坐 标输入到第一深度学习网络模型中, 以构建待优化的文本检测模型; 其中, 第一深度学习网 络模型包括残差网络和分割网络; 0101 文本检测模型优化单元, 用于利用第一损失函数反向训练待优化的文本检测模。

45、 型, 获得文本检测模型; 其中, 第一损失函数包括分图在文本内的损失、 文本边界与起始点 的损失和文本回归坐标点损失。 0102 优选地, 所述文本定位框处理模块202具体包括: 0103 计算单元, 用于对于第j个待合并文本定位框, 计算第j个待合并文本定位框与相 邻的第j+1个待合并文本定位框的横轴坐标值之差和纵轴坐标值之差; 其中, j1, 2, ., N; 0104 第一判断单元, 用于判断纵轴坐标值之差是否小于第一预设阈值; 0105 第二判断单元, 用于若纵轴坐标值之差小于第一预设阈值, 则判断横轴坐标值之 差是否小于第二预设阈值; 0106 第一执行单元, 用于若横轴坐标值之差。

46、小于第二阈值, 则将第j个待合并文本定位 框和第j+1个待合并文本定位框进行合并, 获得待检测文本定位框; 0107 第二执行单元, 用于若纵轴坐标值之差大于第一预设阈值或横轴坐标值之差大于 第二预设阈值, 则将第j个待合并文本定位框和第j+1个待合并文本定位框分别标记为待检 测文本定位框。 0108 优选地, 所述系统还包括文本定位框矫正模块; 所述文本定位框矫正模块具体用 于: 0109 判断每个待合并文本定位框的内角是否等于90 ; 0110 若任一待合并文本定位框的内角不等于90 , 则通过仿射变换技术将该待合并文 本定位框的内角矫正为90 ; 0111 若任一待合并文本定位框的内角等。

47、于90 , 则不对该待合并文本定位框进行矫正。 0112 优选地, 所述系统还包括文本识别模型构建模块; 所述文本识别模型构建模块具 体包括: 0113 文本预处理单元, 用于对待处理文本进行预处理, 获得待训练文本; 0114 文本识别模型训练单元, 用于将待训练文本与待训练文本对应的识别结果输入到 第二深度学习网络模型中, 以构建待优化的文本识别模型; 其中, 第二深度学习网络模型包 说明书 8/9 页 12 CN 111666937 A 12 括卷积层、 第一稠密块、 第一过度层、 第二稠密块、 第二过度层、 第三稠密块和转换层; 0115 文本识别模型优化单元, 用于利用第二损失函数反。

48、向训练待优化的文本识别模 型, 获得文本识别模型; 其中, 第二损失函数由CTC算法组成。 0116 优选地, 所述预处理包括以下至少任一: 字体变换处理、 字体大小缩放处理、 字体 灰度处理、 字体模糊处理、 字体透视处理和字体拉伸处理。 0117 优选地, 所述图片识别模块204具体包括: 0118 比对单元, 用于将待检测文本与预设违规关键字字典中的关键字进行比对; 0119 第一标记单元, 用于若预设违规关键字字典中存在待检测文本, 则将待识别图像 标记为不合格图像; 0120 第二标记单元, 用于若预设违规关键字字典中不存在待检测文本, 则将待识别图 像标记为合格图像, 并将待检测文。

49、本作为待识别图像的最终识别结果。 0121 本实施例更详细的工作原理和流程可以但不限于第一实施例的图像中的文本识 别方法。 0122 由上可见, 本发明技术方案主要针对图像中的文本检测, 文本识别的准确率高, 且 本发明技术方案不仅通过文本检测模型提取待识别图像中的定位框, 缩小识别范围, 减少 文本识别时间, 提高文本识别的效率, 还将待合并文本定位框进行合并, 减少识别次数, 进 一步降低文本识别时间, 提高文本识别效率。 0123 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以 通过计算机程序来指令相关的硬件来完成, 所述的程序可存储于一计算机可读取存储介质 中。

50、, 该程序在执行时, 可包括如上述各方法的实施例的流程。 其中, 所述的存储介质可为磁 碟、 光盘、 只读存储记忆体(Read-Only Memory, ROM)或随机存储记忆体(Random Access Memory, RAM)等。 0124 以上所述是本发明的优选实施方式, 应当指出, 对于本技术领域的普通技术人员 来说, 在不脱离本发明原理的前提下, 还可以做出若干改进和润饰, 这些改进和润饰也视为 本发明的保护范围。 说明书 9/9 页 13 CN 111666937 A 13 图1 说明书附图 1/3 页 14 CN 111666937 A 14 图2 图3 说明书附图 2/3 页。

展开阅读全文
内容关键字: 图像 中的 文本 识别 方法 系统
关于本文
本文标题:图像中的文本识别方法及系统.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10418889.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1