文档图像的梯形畸变矫正方法及装置.pdf

上传人:汲墨****o 文档编号:10657497 上传时间:2021-08-06 格式:PDF 页数:11 大小:409.65KB
收藏 版权申诉 举报 下载
文档图像的梯形畸变矫正方法及装置.pdf_第1页
第1页 / 共11页
文档图像的梯形畸变矫正方法及装置.pdf_第2页
第2页 / 共11页
文档图像的梯形畸变矫正方法及装置.pdf_第3页
第3页 / 共11页
文档描述:

《文档图像的梯形畸变矫正方法及装置.pdf》由会员分享,可在线阅读,更多相关《文档图像的梯形畸变矫正方法及装置.pdf(11页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201911229389.6 (22)申请日 2019.12.04 (71)申请人 北京华宇信息技术有限公司 地址 100084 北京市海淀区中关村东路1号 院8号楼21层C2301、 C2302 (72)发明人 沈来信孙明东梁鹤鸣桂越 李锴 (74)专利代理机构 北京中索知识产权代理有限 公司 11640 代理人 胡大成 (51)Int.Cl. G06T 5/00(2006.01) G06K 9/00(2006.01) G06T 7/13(2017.01) (54)发明名称 一。

2、种文档图像的梯形畸变矫正方法及装置 (57)摘要 本发明提供一种文档图像的梯形畸变矫正 方法及装置, 通过对文档图像预处理后, 对文档 图像进行分类得到文本类、 表格类或图形类, 针 对不同的类型分别采用不同的方法获取其文档 内容的上下左右四个轮廓线, 并通过轮廓线的四 个交点完成透视变换, 最后对透视变换后的文档 图像的四个边附近的背景像素值进行扩充边缘 的填充, 消除透视变换后黑边填充的突兀效果。 本发明针对不同文档类型图像, 采用不同的内容 轮廓线检测和边缘点检测方法, 能有效检测到文 档图像的内容轮廓和边界点, 提高透视变换的效 果, 可以更好的提高文档图像的畸变矫正效果。 权利要求书。

3、2页 说明书6页 附图2页 CN 111127339 A 2020.05.08 CN 111127339 A 1.一种文档图像的梯形畸变矫正方法, 其特征在于, 包括以下步骤: 步骤S1、 获取文档图像; 步骤S2、 对文档图像做预处理; 步骤S3、 将预处理后的文档图像分为文本类、 表格类或图形类; 步骤S4、 对不同类型的文档图像, 采用不同的检测方法检测其内容的上下左右四个轮 廓线; 步骤S5、 对检测到的四个轮廓线进行交点计算, 得到文档图像的内容的左上、 右上、 左 下、 右下四个边缘点; 步骤S6、 以四个边缘点为远点, 以新页面的四个端点为目标点, 利用透视变换, 完成梯 形畸变。

4、的矫正。 2.根据权利要求1所述的一种文档图像的梯形畸变矫正方法, 其特征在于, 还包括后处 理的步骤: 对矫正后的文档图像, 每个边缘均采用背景采样的方法, 取得邻近背景色, 填充 变换后的边缘。 3.根据权利要求1或2所述的一种文档图像的梯形畸变矫正方法, 其特征在于, 所述的 预处理包括但不限于直方图均衡化、 噪点过滤、 黑边去除和背景消除。 4.根据权利要求1或2所述的一种文档图像的梯形畸变矫正方法, 其特征在于, 所述的 步骤S3具体包括: 步骤S301、 先利用文字检测模块, 检测文档图像中所有文字行, 如果文字行的个数超过 设定的第一阈值, 则判定该文档图像为文字类文档图像, 否。

5、则转至步骤S302; 步骤S302、 再利用表格检测模块, 检测文档图像中所有横向和纵向表格线, 如果横向和 纵向的表格线个数之和超过第二阈值, 则判定该文档图像为表格类文档图像; 否则判定为 图形类文档图像。 5.根据权利要求4所述的一种文档图像的梯形畸变矫正方法, 其特征在于, 所述的第一 阈值和第二阈值为10。 6.根据权利要求1或2所述的一种文档图像的梯形畸变矫正方法, 其特征在于, 所述的 步骤S4中, 对文字类文档图像的内容轮廓线的检测方法包括: 步骤S401、 首先查找所有文本行和列, 计算得到每一行与每一列的首字位置和末尾字 位置; 步骤S402、 对于查找到的n行文字, 连接。

6、任意两个行首字, 连接任意两个行末尾字, 分别 形成n*(n-1)/2根竖直线, 利用曲线相似度算法, 分别完成行首字竖直线的相似曲线的拟合 和行末尾字竖直线的相似曲线的拟合, 用拟合的行首字曲线和行末尾字曲线分别作为纵向 的左轮廓线和右轮廓线; 步骤S403、 对于查找到的m列文字, 连接任意两个列首字, 连接任意两个列末尾字, 分别 形成m*(m-1)/2根横直线, 利用曲线相似度算法, 分别完成列首字横直线的相似曲线的拟合 和列末尾字横直线的相似曲线的拟合, 用拟合的列首字曲线和列末尾字曲线分别作为横向 的上轮廓线和下轮廓线。 7.根据权利要求1或2所述的一种文档图像的梯形畸变矫正方法,。

7、 其特征在于, 所述的 步骤S4中, 对表格类文档图像的内容轮廓线的检测方法包括: 步骤S411、 首先查找所有表格行和表格列; 权利要求书 1/2 页 2 CN 111127339 A 2 步骤S412、 对于查找到的n个表格行, 利用曲线相似度算法, 完成相似曲线的拟合, 用拟 合曲线代表上轮廓线和下轮廓线的方向, 然后分别上移和下移到第一行与最后一行的位 置, 得到上轮廓线和下轮廓线; 步骤S413、 对于查找到的m个表格列, 利用曲线相似度算法, 完成相似曲线的拟合, 用拟 合曲线代表左轮廓线和右轮廓线的方向, 然后分别向左右两侧平移到最左侧与最右侧, 得 到左轮廓线和右轮廓线。 8.。

8、根据权利要求1或2所述的一种文档图像的梯形畸变矫正方法, 其特征在于, 所述的 步骤S4中, 对图形类文档图像的内容轮廓线的检测方法包括: 步骤S421、 利用直方图投影, 分别向水平和垂直方向投影, 得到对应的行数和列数; 步骤S422、 对于垂直方向的直方图, 找到每一行的最左端点, 将任意两行的最左端点连 成直线, 利用曲线相似度算法, 完成相似曲线的拟合, 得到拟合后的左轮廓线; 找到每一行 的最右端点, 将任意两行的最右端点连成直线, 利用曲线相似度算法, 完成相似曲线的拟 合, 得到拟合后的右轮廓线; 步骤S423、 对水平方向的直方图, 找到每一列的最上端点, 将任意两列的最上端。

9、点连成 直线, 利用曲线相似度算法, 完成相似曲线的拟合, 得到拟合后的上轮廓线; 找到每一列的 最下端点, 将任意两列的最下端点连成直线, 利曲线相似度算法, 完成相似曲线的拟合, 得 到拟合后的下轮廓线。 9.一种文档图像的梯形畸变矫正装置, 其特征在于, 包括获取模块、 分类模块、 轮廓线 检测模块、 边缘点计算模块和矫正模块; 获取模块: 用于获取文档图像, 并将文档图像进行直方图均衡化、 噪点过滤、 黑边去除、 背景消除预处理操作后传输给分类模块; 分类模块: 用于将预处理后的文档图像分为文本类、 表格类或图形类后传输给轮廓线 检测模块; 轮廓线检测模块: 对不同类型的文档图像, 采。

10、用不同的检测方法检测其内容的轮廓线; 边缘点计算模块: 根据检测到的轮廓线, 计算得到文档图像的四个边缘点; 矫正模块: 完成梯形畸变的矫正。 10.根据权利要求9所述的一种文档图像的梯形畸变矫正装置, 其特征在于, 还包括后 处理模块, 对完成矫正的图像边缘, 采用背景采样的方法, 取得邻近背景色, 填充变换后的 边缘。 11.根据权利要求9或10所述的一种文档图像的梯形畸变矫正装置, 其特征在于, 所述 的分类模块包括文字检测模块和表格检测模块, 文字检测模块用于检测文档图像是否为文 字类文档图像; 表格检测模块用于检测文档图像是否为图形类文档图像。 权利要求书 2/2 页 3 CN 11。

11、1127339 A 3 一种文档图像的梯形畸变矫正方法及装置 技术领域 0001 本发明涉及图像处理技术领域, 特别涉及一种文档图像的梯形畸变矫正方法及装 置。 背景技术 0002 随着计算机技术的不断发展, 电子版文档凭借其易于便于存储和查找、 传播快捷 简便等优势, 被越来越多的人们所接受。 在纸质文档转化为电子文档的过程中, 需要借助于 扫描仪、 相机、 智能手机等工具进行拍摄或扫描, 在拍摄或扫描的过程中, 不可避免的会出 现扫描后的文档图像扭曲变形等问题, 不利于后续的阅读、 文字提取等一系列的后续操作。 0003 中国专利申请公开号为CN1582459A, 发明名称为 “矫正梯形畸。

12、变的系统及方法” , 其技术方案主要先获取投影参数, 然后确定投影区域和适合于所述投影区域内部的最佳可 视矩形区域, 通过一个与存在于最佳可视矩形区域的顶点和投影区域的对应顶点之间的变 换对应的畸变变换, 特征化由投影引起的畸变。 最后, 翻转所述畸变变换并将其应用于输入 图像, 以获得无畸变的投影图像。 该对比文件利用投影参数和设备来找到对应的转换顶点, 对于没有设备信息的图像来说, 这比较难以实现。 0004 中国专利申请公开号为CN102522058A, 发明名称为 “基于显示的四点定位校正畸 形的算法” , 利用定位设备的显示系统中设定的四个定位点坐标, 计算显示与所述四个定位 点匹配。

13、映射的四个显示点时, 对应的X轴和Y轴坐标是通过加入了相应的变形补偿量计算得 到的。 该对比文件对于不同种类的文档难以适用, 如表格类与图形类文档效果不好, 文档内 容的定位点的计算也有一定的不准确等。 0005 基于以上, 现有的边线发现方法往往不能精确地发现文档内容的边界, 因而找不 到最能体现文档内容的4个边界点(左上边界点、 右上边界点、 左下边界点、 右下边界点), 梯 形畸变矫正效果不理想。 发明内容 0006 有鉴于此, 为了解决现有技术的问题, 本发明提供一种文档图像的梯形畸变矫正 方法及装置, 基于文档内容的轮廓外的直线边的发现方法, 通过相似曲线的拟合方法, 可以 发现最能。

14、体现文档内容方向的四条边线(上边线、 下边线、 左边线、 右边线), 然后利用四条 边的交点组成文档内容的轮廓外的四个点, 通过透视变化, 完成文档图像的梯形畸变矫正, 可以明显提高文档梯形矫正的效果。 0007 第一方面, 本发明提供一种文档图像的梯形畸变矫正方法, 包括以下步骤: 0008 步骤S1、 获取文档图像; 0009 步骤S2、 对文档图像做预处理; 0010 步骤S3、 将预处理后的文档图像分为文本类、 表格类或图形类; 0011 步骤S4、 对不同类型的文档图像, 采用不同的检测方法检测其内容的上下左右四 个轮廓线; 说明书 1/6 页 4 CN 111127339 A 4 。

15、0012 步骤S5、 对检测到的四个轮廓线进行交点计算, 得到文档图像的内容的左上、 右 上、 左下、 右下四个边缘点; 0013 步骤S6、 以四个边缘点为远点, 以新页面的四个端点为目标点, 利用透视变换, 完 成梯形畸变的矫正。 0014 进一步的, 所述的文档图像的梯形畸变矫正方法还包括后处理的步骤: 对矫正后 的文档图像, 每个边缘均采用背景采样的方法, 取得邻近背景色, 填充变换后的边缘。 0015 进一步的, 所述的预处理包括但不限于直方图均衡化、 噪点过滤、 黑边去除和背景 消除。 0016 进一步的, 所述的步骤S3具体包括: 0017 步骤S301、 先利用文字检测模块, 。

16、检测文档图像中所有文字行, 如果文字行的个数 超过设定的第一阈值, 则判定该文档图像为文字类文档图像, 否则转至步骤S302; 0018 步骤S302、 再利用表格检测模块, 检测文档图像中所有横向和纵向表格线, 如果横 向和纵向的表格线个数之和超过第二阈值, 则判定该文档图像为表格类文档图像; 否则判 定为图形类文档图像。 0019 进一步的, 所述的第一阈值和第二阈值为10。 0020 进一步的, 所述的步骤S4中, 对文字类文档图像的内容轮廓线的检测方法包括: 0021 步骤S401、 首先查找所有文本行和列, 计算得到每一行与每一列的首字位置和末 尾字位置; 0022 步骤S402、 。

17、对于查找到的n行文字, 连接任意两个行首字, 连接任意两个行末尾字, 分别形成n*(n-1)/2根竖直线, 利用曲线相似度算法, 分别完成行首字竖直线的相似曲线的 拟合和行末尾字竖直线的相似曲线的拟合, 用拟合的行首字曲线和行末尾字曲线分别作为 纵向的左轮廓线和右轮廓线; 0023 步骤S403、 对于查找到的m列文字, 连接任意两个列首字, 连接任意两个列末尾字, 分别形成m*(m-1)/2根横直线, 利用曲线相似度算法, 分别完成列首字横直线的相似曲线的 拟合和列末尾字横直线的相似曲线的拟合, 用拟合的列首字曲线和列末尾字曲线分别作为 横向的上轮廓线和下轮廓线。 0024 进一步的, 所述。

18、的步骤S4中, 对表格类文档图像的内容轮廓线的检测方法包括: 0025 步骤S411、 首先查找所有表格行和表格列; 0026 步骤S412、 对于查找到的n个表格行, 利用曲线相似度算法, 完成相似曲线的拟合, 用拟合曲线代表上轮廓线和下轮廓线的方向, 然后分别上移和下移到第一行与最后一行的 位置, 得到上轮廓线和下轮廓线; 0027 步骤S413、 对于查找到的m个表格列, 利用曲线相似度算法, 完成相似曲线的拟合, 用拟合曲线代表左轮廓线和右轮廓线的方向, 然后分别向左右两侧平移到最左侧与最右 侧, 得到左轮廓线和右轮廓线。 0028 进一步的, 所述的步骤S4中, 对图形类文档图像的内。

19、容轮廓线的检测方法包括: 0029 步骤S421、 利用直方图投影, 分别向水平和垂直方向投影, 得到对应的行数和列 数; 0030 步骤S422、 对于垂直方向的直方图, 找到每一行的最左端点, 将任意两行的最左端 点连成直线, 利用曲线相似度算法, 完成相似曲线的拟合, 得到拟合后的左轮廓线; 找到每 说明书 2/6 页 5 CN 111127339 A 5 一行的最右端点, 将任意两行的最右端点连成直线, 利用曲线相似度算法, 完成相似曲线的 拟合, 得到拟合后的右轮廓线; 0031 步骤S423、 对水平方向的直方图, 找到每一列的最上端点, 将任意两列的最上端点 连成直线, 利用曲线。

20、相似度算法, 完成相似曲线的拟合, 得到拟合后的上轮廓线; 找到每一 列的最下端点, 将任意两列的最下端点连成直线, 利曲线相似度算法, 完成相似曲线的拟 合, 得到拟合后的下轮廓线。 0032 第二方面, 本发明提供一种文档图像的梯形畸变矫正装置, 包括获取模块、 分类模 块、 轮廓线检测模块、 边缘点计算模块和矫正模块; 0033 获取模块: 用于获取文档图像, 并将文档图像进行直方图均衡化、 噪点过滤、 黑边 去除、 背景消除预处理操作后传输给分类模块; 0034 分类模块: 用于将预处理后的文档图像分为文本类、 表格类或图形类后传输给轮 廓线检测模块; 0035 轮廓线检测模块: 对不。

21、同类型的文档图像, 采用不同的检测方法检测其内容的轮 廓线; 0036 边缘点计算模块: 根据检测到的轮廓线, 计算得到文档图像的四个边缘点; 0037 矫正模块: 完成梯形畸变的矫正。 0038 进一步的, 所述的文档图像的梯形畸变矫正装置还包括后处理模块, 对完成矫正 的图像边缘, 采用背景采样的方法, 取得邻近背景色, 填充变换后的边缘。 0039 进一步的, 所述的分类模块包括文字检测模块和表格检测模块, 文字检测模块用 于检测文档图像是否为文字类文档图像; 表格检测模块用于检测文档图像是否为图形类文 档图像。 0040 本发明针对不同文档类型图像, 采用不同的内容轮廓线检测和边缘点检。

22、测方法, 能有效检测到文档图像的内容轮廓和边界点, 提高透视变换的效果, 可以更好的提高文档 图像的畸变矫正效果。 附图说明 0041 图1为本发明的文档图像的梯形畸变矫正方法流程示意图; 0042 图2为本发明的文档图像的梯形畸变矫正装置结构示意图。 具体实施例 0043 下面结合附图对本公开实施例进行详细描述。 0044 以下通过特定的具体实例说明本公开的实施方式, 本领域技术人员可由本说明书 所揭露的内容轻易地了解本公开的其他优点与功效。 显然, 所描述的实施例仅仅是本公开 一部分实施例, 而不是全部的实施例。 本公开还可以通过另外不同的具体实施方式加以实 施或应用, 本说明书中的各项细。

23、节也可以基于不同观点与应用, 在没有背离本公开的精神 下进行各种修饰或改变。 需说明的是, 在不冲突的情况下, 以下实施例及实施例中的特征可 以相互组合。 基于本公开中的实施例, 本领域普通技术人员在没有作出创造性劳动前提下 所获得的所有其他实施例, 都属于本公开保护的范围。 0045 实施例一 说明书 3/6 页 6 CN 111127339 A 6 0046 本实施例提供文档图像的梯形畸变矫正方法, 通过对文档图像预处理后, 对文档 图像进行分类得到文本类、 表格类和图形类三类文档, 分别采用不同的方法获取其文档内 容的上下左右四个轮廓线, 并通过轮廓线的4个交点完成透视变换, 最后对透视。

24、变换后的图 像的四个边附近的背景像素值进行扩充边缘的填充, 消除透视变换后黑边填充的突兀效 果。 具体如图1所示, 具体步骤如下: 0047 步骤S1、 获取文档图像; 0048 步骤S2、 对文档图像做预处理; 0049 所述的预处理包括但不限于直方图均衡化、 噪点过滤、 黑边去除、 背景消除等预处 理, 消除对后期文档内容的四个轮廓边发现的影响, 提高文档内容的四个边缘点的准确性。 0050 步骤S3、 对文档图像进行分类; 0051 分类类别包括文本类、 表格类、 图形类三类, 具体的分类方法如下: 0052 步骤S301、 先利用文字检测模块, 检测文档图像中所有文字行, 如果文字行的。

25、个数 超过设定的第一阈值, 则判定该文档图像为文字类文档图像, 否则转至步骤S302; 第一阈值 默认为10, 可根据实际情况设定为其他数值; 0053 步骤S302、 再利用表格检测模块, 检测文档图像中所有横向和纵向表格线, 如果横 向和纵向的表格线个数之和超过第二阈值, 则判定该文档图像为表格类文档图像; 否则判 定为图形类文档图像; 第二阈值默认为10, 可根据实际情况设定为其他数值。 0054 步骤S4、 对不同类型的文档图像, 采用不同的检测方法检测其内容轮廓线, 如下: 0055 对文字类文档图像的内容轮廓线的检测方法包括: 0056 步骤S401、 首先查找所有文本行和列, 计。

26、算得到每一行与每一列的首字位置和末 尾字位置; 0057 步骤S402、 对于查找到的n行文字, 连接任意两个行首字, 连接任意两个行末尾字, 分别形成n*(n-1)/2根竖直线, 利用曲线相似度算法, 分别完成行首字竖直线的相似曲线的 拟合和行末尾字竖直线的相似曲线的拟合, 用拟合的行首字曲线和行末尾字曲线分别作为 纵向的左轮廓线和右轮廓线; 0058 步骤S403、 对于查找到的m列文字, 连接任意两个列首字, 连接任意两个列末尾字, 分别形成m*(m-1)/2根横直线, 利用曲线相似度算法, 分别完成列首字横直线的相似曲线的 拟合和列末尾字横直线的相似曲线的拟合, 用拟合的列首字曲线和列。

27、末尾字曲线分别作为 横向的上轮廓线和下轮廓线。 0059 对表格类文档图像的内容轮廓线的检测方法包括: 0060 步骤S411、 首先查找所有表格行和表格列; 0061 步骤S412、 对于查找到的n个表格行, 利用曲线相似度算法, 完成相似曲线的拟合, 用拟合曲线代表上轮廓线和下轮廓线的方向, 然后分别上移与下移到第一行与最后一行的 位置, 得到上轮廓线和下轮廓线; 0062 步骤S413、 对于查找到的m个表格列, 利用曲线相似度算法, 完成相似曲线的拟合, 用拟合曲线代表左轮廓线和右轮廓线的方向, 然后分别向左右两侧平移到最左侧与最右 侧, 得到左轮廓线和右轮廓线。 0063 对图形类文。

28、档图像的内容轮廓线的检测方法包括: 0064 步骤S421、 利用直方图投影, 分别向水平和垂直方向投影, 能够得到对应的行数和 说明书 4/6 页 7 CN 111127339 A 7 列数; 0065 步骤S422、 对于垂直方向的直方图, 找到每一行的最左端点, 将任意两行的最左端 点连成直线, 利用曲线相似度算法, 完成相似曲线的拟合, 得到拟合后的左轮廓线; 找到每 一行的最右端点, 将任意两行的最右端点连成直线, 利用曲线相似度算法, 完成相似曲线的 拟合, 得到拟合后的右轮廓线; 0066 步骤S423、 对水平方向的直方图, 找到每一列的最上端点, 将任意两列的最上端点 连成直。

29、线, 利用曲线相似度算法, 完成相似曲线的拟合, 得到拟合后的上轮廓线; 找到每一 列的最下端点, 将任意两列的最下端点连成直线, 利曲线相似度算法, 完成相似曲线的拟 合, 得到拟合后的下轮廓线。 0067 步骤S5、 对检测到的4个轮廓线进行交点计算, 得到文档内容的左上、 右上、 左下、 右下四个边缘点。 0068 步骤S6、 以文档内容的四个边缘点为远点, 以新页面四个端点为目标点, 利用透视 变换, 完成梯形畸变的矫正。 新页面宽度不变, 高度变成原来的2倍。 0069 步骤S601、 以检测到的文档内容的四个边缘点左边, 计算得到这个文字块的高度h 与宽度w; 0070 步骤S60。

30、2、 以原文档内容的左上点(x, y)为基准, 对应为变换后文档的左上点, 然 后再根据高度h和宽度w, 计算得到变换后文档的新边缘点分别为右上点(x+w, y)、 右下点(x +w, y+h)、 左下点(x, y+h); 0071 步骤S603、 根据文档内容的原四个边缘点(标记为src), 以及变换后文档的四个边 缘点(标记为dst), 通过opencv提供的方法Acv2.getPerspectiveTransform(src,dst), 可以得到变换矩阵A; 0072 步骤S604、 通过变换矩阵A以及opencv提供的warpPerspective方法, 就可以计算 得到原图img(大。

31、小为img_size)对应的变换文档wrap中的所有对应点的坐标, 即为warp cv2.warpPerspective(img,A,img_size,flagscv2.INTER_LINEAR), 其中flags标记了插 值拟合的方式为INTER_LINEAR。 0073 优选的, 还包括步骤S7、 对矫正后的图像, 每个边缘均采用背景采样的方法, 取得 邻近背景色, 填充变换后的边缘, 消除变换后黑边的情况。 0074 实施例二 0075 本实施例提供一种文档图像的梯形畸变矫正装置, 如图2所示, 包括获取模块、 分 类模块、 轮廓线检测模块、 边缘点计算模块、 矫正模块。 0076 获取。

32、模块: 用于获取文档图像, 并将文档图像进行直方图均衡化、 噪点过滤、 黑边 去除、 背景消除等预处理操作后传输给分类模块。 0077 分类模块: 用于将预处理后的文档图像分为文本类、 表格类或图形类后传输给轮 廓线检测模块。 0078 所述分类模块包括文字检测模块和表格检测模块, 文字检测模块用于检测文档图 像是否为文字类文档图像, 首先检测文档图像中所有文字行, 如果文字行的个数超过设定 的第一阈值, 则认为该文档图像为文字类文档图像, 否则由表格检测模块执行检测操作。 0079 文字检测模块由调用CTPN(Connectionist Text Proposal Network)开源包 Z。

33、.Tian, 2016, 所提供的函数demo.py完成, CTPN包括检测小尺度文本框、 循环连接文本框 说明书 5/6 页 8 CN 111127339 A 8 和文本行边细化三部分, 使用VGG16作为基础网络提取特征, 然后使用滑动窗口的方式对特 征图进行特征向量提取, 再把特征输入到一个双向的LSTM中, 得到长度为W256的输出, 最 后接一个512的全连接层, 进行结果输出。 输出结果包括矩形框的2k个坐标值以及对应的2k 个打分score。 0080 表格检测模块用于检测文档图像是否为图形类文档图像, 首先检测文档图像中所 有横向和纵向表格线, 如果横向和纵向的表格线个数之和超。

34、过第二阈值, 则判定该文档图 像为表格类文档图像, 否则判定为图形类文档图像。 0081 表格检测主要是发现那些有很多的表格, 而文字却很少的文档, 利用了开源的包 TableBankLi,Minghao, 2019, 表格检测旨在使用文档中的边框来定位表格。 给定图像格 式的文档页面, 将生成几个边界框, 这些边界框表示表在此页面中的位置。 表格结构识别旨 在识别表格的行和列布局结构。 TableBank使用开源框架DetectronGirshick et al., 2018在TableBank上训练模型。 Detectron是用于对象检测研究的高质量和高性能代码库, 它支持许多最新算法。 。

35、使用具有ResNeXtXie et al., 2016的Faster R-CNN算法作为骨干 网络架构, 其中参数在ImageNet数据集上进行了预训练。 使用4个P100NVIDIA GPU使用数据 并行同步SGD训练所有基准。 0082 上述第一阈值和第二阈值默认为10, 可根据实际情况设定为其他数值。 0083 轮廓线检测模块: 对不同类型的文档图像, 采用不同的检测方法检测其内容轮廓 线。 0084 边缘点计算模块: 根据检测到的轮廓线, 计算得到文档图像的四个边缘点。 0085 矫正模块: 用于完成梯形畸变的矫正。 0086 优选的, 还包括后处理模块: 对完成矫正的图像边缘, 采用背景采样的方法, 取得 邻近背景色, 填充变换后的边缘, 消除变换后黑边的情况。 0087 以上仅为说明本发明的实施方式, 并不用于限制本发明, 对于本领域的技术人员 来说, 凡在本发明的精神和原则之内, 不经过创造性劳动所作的任何修改、 等同替换、 改进 等, 均应包含在本发明的保护范围之内。 说明书 6/6 页 9 CN 111127339 A 9 图1 说明书附图 1/2 页 10 CN 111127339 A 10 图2 说明书附图 2/2 页 11 CN 111127339 A 11 。

展开阅读全文
内容关键字: 文档 图像 梯形 畸变 矫正 方法 装置
关于本文
本文标题:文档图像的梯形畸变矫正方法及装置.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10657497.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1