《一种医学影像数字胶片中文字区域提取方法及提取系统.pdf》由会员分享,可在线阅读,更多相关《一种医学影像数字胶片中文字区域提取方法及提取系统.pdf(19页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 104036292 A (43)申请公布日 2014.09.10 CN 104036292 A (21)申请号 201410260310.7 (22)申请日 2014.06.12 G06K 9/62(2006.01) G06K 9/46(2006.01) (71)申请人 西安华海盈泰医疗信息技术有限公 司 地址 710075 陕西省西安市高新区唐延南路 8 号三 G 酷派产业园 B 座二层 (72)发明人 徐文举 申田 李云峰 张孝林 (74)专利代理机构 西安恒泰知识产权代理事务 所 61216 代理人 林兵 (54) 发明名称 一种医学影像数字胶片中文字区域提取方。
2、法 及提取系统 (57) 摘要 本发明提出了一种医学影像数字胶片中文字 区域提取方法和系统, 首先对医学影像数字图像 进行文字区域滤波处理, 再对二值化图像进行水 平竖直方向扫描, 得到二值化医学影像大小及位 置 ; 将二值化医学影像按宽高对半的形式分成四 等份, 对于每一等份分别进行行扫描以及列扫描, 分别得到该等份部分中文字区域的高度和宽度 ; 提取文字区域。使用这种先定位医学影像再确定 文字区域的处理方式, 保证了文字区域提取的准 确性, 避免提取时各医学影像之间的相互影响, 同 时解决了医学影像数字胶片中图文并存不易提取 文字区域的难题。通过大量实验证明, 本发明能 够快速有效地过滤掉。
3、影像区域而保留文字区域信 息, 计算简便, 提取文字区域准确率高, 有很好的 鲁棒性。 (51)Int.Cl. 权利要求书 3 页 说明书 6 页 附图 9 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书3页 说明书6页 附图9页 (10)申请公布号 CN 104036292 A CN 104036292 A 1/3 页 2 1. 一种医学影像数字胶片中文字区域提取方法, 其特征在于, 具体包括如下步骤 : 步骤 1 : 对医学影像数字图像进行文字区域滤波处理, 得到文字区域滤波后的二值化 图像 t Image ; 对二值化图像 t Image 去掉孤立点, 得到更。
4、新后的二值化图像 t Image ; 步骤 2 : 对步骤 1 得到的二值化图像 t Image 进行水平方向和竖直方向的扫描处理, 得 到每个二值化医学影像 t ImagePatch 的大小以及在二值化图像 t Image 中的位置信息 ; 步骤3 : 将每个二值化医学影像t ImagePatch按宽高对半的形式分成四等份, 对于每一 等份分别进行行扫描以及列扫描, 分别得到该等份部分中文字区域的高度和宽度 ; 从而得 到每一幅二值化医学影像 t ImagePatch 中四个等份部分的所有文字区域的大小和位置信 息 ; 步骤4 : 将每一幅二值化医学影像t ImagePatch中四个等份部分。
5、的文字区域进行提取。 2. 如权利要求 1 所述的医学影像数字胶片中文字区域提取方法, 其特征在于, 所述步 骤 1 中对对医学影响数字图像进行文字区域滤波处理是利用下式进行处理 : 其中, thres 为预设的阈值, thres 不小于 250 ; gx(x,y) 和 gy(x,y) 分别为医学影像的 数字图像 Image 在坐标点 (x,y) 的 x 方向和 y 方向的梯度值 ; t(x,y) 为文字区域滤波后的 二值化图像 t Image 中坐标点 (x,y) 的像素值。 3. 如权利要求 1 所述的医学影像数字胶片中文字区域提取方法, 其特征在于, 所述步 骤 1 中对二值化图像 t 。
6、Image 去掉孤立点是指对二值化图像 t Image 进行图像形态学变换 中的 “闭” 操作。 4. 如权利要求 1 所述的医学影像数字胶片中文字区域提取方法, 其特征在于, 所述步 骤 2 的具体操作如下 : (1) 逐行统计步骤 1 得到的二值化图像 t Image 中第 r 行的非零值的像素点的个数 histH(r), r 为 1 P, P 为二值化图像 t Image 的像素的总行数 ; (2) 将所有的 histH(r) 从大到小进行排序, 并将前 Q 个数值保存在数组集合 pLineH 中 ; pLineHi 记录了非零值像素个数排在第 i 位的行序号 ; (3) 将 pLine。
7、H 中所有行序号进行两两比较, 如果两个行序号之差的绝对值小于预设的 行阈值, 则将非零像素个数较小的行从 pLineH 中删去, 预设的行阈值取 100 ; 重复此操作, 直至 pLineH 中任意两个数值的行序号之差的绝对值不小于预设的行阈值, 此时将 pLineH 中的数值的个数作为医学影像数字胶片中医学影像的行数 M ; (4) 同理, 对步骤 1 得到的二值化图像 t Image 进行竖直方向的处理, 得到医学影像数 字胶片中医学影像 patch Image 的列数 N ; 预设的列阈值为 100 ; (5) 根据得到的医学影像的行数和列数将步骤 1 得到的二值化图像分割, 得到共 。
8、M 行 N 列的二值化医学影像 t ImagePatch, 从而得得到每个二值化医学 t ImagePatch 的大小以及 在二值化图像 t Image 中的位置信息。 5. 如权利要求 4 所述的医学影像数字胶片中文字区域提取方法, 其特征在于, 所述步 骤 (2) 中的数值 Q 为 20。 6. 如权利要求 4 所述的医学影像数字胶片中文字区域提取方法, 其特征在于, 所述步 权 利 要 求 书 CN 104036292 A 2 2/3 页 3 骤 3 中行扫描的方式如下 : 当连续扫描到若干行数的 histP(r) 值不为零的行时, 从该行沿扫描方向到二值化医 学影像 t ImagePa。
9、tch 边缘的距离即为该等份部分中文字区域的高度, 其中, 所述行数的阈 值设为 3 行。 7. 一种医学影像数字胶片中文字区域提取系统, 其特征在于, 具体包括如下依次相连 接的模块 : 医学影像数字图像二值化模块 : 用于对医学影像数字图像进行文字区域滤波处理, 得到文字区域滤波后的二值化图像 t Image ; 并对二值化图像 t Image 去掉孤立点, 得到更新后的二值化图像 t Image ; 行列划分模块 : 用于对二值化图像 t Image 进行水平方向和竖直方向的扫描处理, 得到每个二值化医 学影像 t ImagePatch 的大小以及在二值化图像 t Image 中的位置信。
10、息 ; 文字区域定位模块 : 用于将每个二值化医学影像 t ImagePatch 按宽高对半的形式分成四等份, 对于每一等 份分别进行行扫描以及列扫描, 分别得到该等份部分中文字区域的高度和宽度 ; 从而得到 每一幅二值化医学影像 t ImagePatch 中四个等份部分的所有文字区域的大小和位置信息 ; 文字区域提取模块 : 用于将每一幅二值化医学影像 t ImagePatch 中四个等份部分的文字区域进行提取。 8. 如权利要求 7 所述的医学影像数字胶片中文字区域提取系统, 其特征在于, 所述医 学影像数字图像二值化模块中, 对医学影响数字图像进行文字区域滤波处理的公式如下 : 其中, 。
11、thres 为预设的阈值, thres 不小于 250 ; gx(x,y) 和 gy(x,y) 分别为医学影像的 数字图像 Image 在坐标点 (x,y) 的 x 方向和 y 方向的梯度值 ; t(x,y) 为文字区域滤波后的 二值化图像 t Image 中坐标点 (x,y) 的像素值。 9. 如权利要求 7 所述的医学影像数字胶片中文字区域提取系统, 其特征在于, 所述行 列划分模块中, 具体分为以下几个功能模块 : (1) 用于逐行统计步骤 1 得到的二值化图像 t Image 中第 r 行的非零值的像素点的个 数 histH(r), r 为 1 P, P 为二值化图像 t Image 。
12、的像素的总行数 ; (2) 用于将所有的 histH(r) 从大到小进行排序, 并将前 Q 个数值保存在数组集合 pLineH 中 ; pLineHi 记录了非零值像素个数排在第 i 位的行序号 ; (3) 用于将 pLineH 中所有行序号进行两两比较, 如果两个行序号之差的绝对值小于 预设的行阈值, 则将非零像素个数较小的行从 pLineH 中删去, 预设的行阈值取 100 ; 重复 此操作, 直至 pLineH 中任意两个数值的行序号之差的绝对值不小于预设的行阈值, 此时将 pLineH 中的数值的个数作为医学影像数字胶片中医学影像的行数 M ; (4)用于对步骤1得到的二值化图像t I。
13、mage进行竖直方向的处理, 得到医学影像数字 胶片中医学影像 patch Image 的列数 N ; 预设的列阈值为 100 ; (5)用于根据得到的医学影像的行数和列数将步骤1得到的二值化图像分割, 得到共M 权 利 要 求 书 CN 104036292 A 3 3/3 页 4 行 N 列的二值化医学影像 t ImagePatch, 从而得到每个医学影像 patch Image 在医学影像 数字胶片中的大小及位置。 10. 如权利要求 7 所述的医学影像数字胶片中文字区域提取系统, 其特征在于, 所述文 字区域定位模块中行扫描的方式如下 : 当连续扫描到若干行数的 histP(r) 值不为。
14、零的行时, 从该行沿扫描方向到二值化医 学影像 t ImagePatch 边缘的距离即为该等份部分中文字区域的高度, 其中, 所述行数的阈 值设为 3 行。 权 利 要 求 书 CN 104036292 A 4 1/6 页 5 一种医学影像数字胶片中文字区域提取方法及提取系统 技术领域 0001 本发明属于数字影像处理技术领域, 具体涉及一种医学影像数字胶片中文字区域 提取方法及提取系统, 该方法用于从打印的医学影像数字胶片中提取每个影像区域中对应 的文字区域。 0002 背景介绍 0003 数字化时代的来临使得医学影像的数字化管理成为趋势, 目前, 医院放射科已普 遍使用医学影像存档与通信系。
15、统(PACS, Picture Archiving and Communication Systems), 该系统将医学影像数据进行数字化存储和管理, 使得放射科的医生能够更加方便地审阅 病人的影像, 编写影像检查报告等工作。同时, 为了把影像资料交给病人保存, 医生会在 影像工作站调阅上某个病人的影像数据, 使用排版功能生成一张或几张 “医学影像数字胶 片” ( 参见图 1, 每一幅医学影像数字胶片上包括 M*N 个医学影像, 它们呈 M 行 N 列排列 ; 其 中, 每一个医学影像均由位于该医学影像中心部位的影像区域以及位于该医学影像的四角 的四个文字区域组成), 再将排版后生成的医学影像。
16、数字胶片输入至胶片打印机。 打印完成 后, 将影像胶片交给患者。 0004 排版生成的数字胶片包含了表示病灶信息的 “关键影像” , 它们对于判断病情有着 非常重要的作用, 对排版生成的医学影像数字胶片的保存变的越来越重要。 技术实现上, 想 要对生成的医学影像数字胶片进行保存, 需要将其和 PACS 数据库中对应病人的信息进行 关联。 而医学影像数字胶片中, 并没有以文字格式存储病人的相关信息, 而是将这些信息以 图像形式嵌入在医学影像数字胶片中, 需要对医学影像数字胶片进行文字区域提取和文字 识别技术进行分析, 才能够获取以图像形式保存的病人信息。 0005 文字识别即OCR(optica。
17、l character recognition)技术。 对于扫描得到的图片中 的字体, OCR 技术目前已经很成熟。为了快速高效地进行 OCR 识别, 对医学影像数字胶片进 行文字区域检测来获取文字区域是首要前提。 目前, 文字区域的提取方法大体分为两类 : 第 一类是通过纹理分析 ( 如 Gabor 滤波, 空间方差分析等 ) 进行文字区域提取, 这类方法具有 很好的通用性, 但这类方法对于文本的字体和风格比较敏感, 存在定位不准和算法复杂度 高的缺点 ; 第二类是采用连通元素分析技术进行文字区域提取, 这类方法具有处理速度快 的特点。但由于医学影像数字胶片本身既包括影像区域又包括文字区域,。
18、 且部分影像区域 和文字区域偶有重叠, 因此, 在使用上述两类提取方法对医学影像数字胶片进行提取时, 其 提取效率和准确率均不够理想。 发明内容 0006 针对上述技术中存在的缺陷或不足, 本发明的一个目的在于, 提供一种医学影像 数字胶片中文字区域提取方法。 0007 本发明采用如下技术方案予以实现 : 0008 一种医学影像数字胶片中文字区域提取方法, 具体包括如下步骤 : 0009 步骤 1 : 对医学影像数字图像进行文字区域滤波处理, 得到文字区域滤波后的二 说 明 书 CN 104036292 A 5 2/6 页 6 值化图像 t Image ; 对二值化图像 t Image 去掉孤。
19、立点, 得到更新后的二值化图像 t Image ; 0010 步骤 2 : 对步骤 1 得到的二值化图像 t Image 进行水平方向和竖直方向的扫描处 理, 得到每个二值化医学影像 t ImagePatch 的大小以及在二值化图像 t Image 中的位置信 息 ; 0011 步骤3 : 将每个二值化医学影像t ImagePatch按宽高对半的形式分成四等份, 对于 每一等份分别进行行扫描以及列扫描, 分别得到该等份部分中文字区域的高度和宽度 ; 从 而得到每一幅二值化医学影像 t ImagePatch 中四个等份部分的所有文字区域的大小和位 置信息 ; 0012 步骤 4 : 将每一幅二值。
20、化医学影像 t ImagePatch 中四个等份部分的文字区域进行 提取。 0013 进一步的, 所述步骤 1 中对对医学影响数字图像进行文字区域滤波处理是利用下 式进行处理 : 0014 0015 其中, thres 为预设的阈值, thres 不小于 250 ; gx(x,y) 和 gy(x,y) 分别为医学影 像的数字图像 Image 在坐标点 (x,y) 的 x 方向和 y 方向的梯度值 ; t(x,y) 为文字区域滤波 后的二值化图像 t Image 中坐标点 (x,y) 的像素值。 0016 进一步的, 所述步骤 1 中对二值化图像 t Image 去掉孤立点是指对二值化图像 t 。
21、Image 进行图像形态学变换中的 “闭” 操作。 0017 进一步的, 所述步骤 2 的具体操作如下 : 0018 (1) 逐行统计步骤 1 得到的二值化图像 t Image 中第 r 行的非零值的像素点的个 数 histH(r), r 为 1 P, P 为二值化图像 t Image 的像素的总行数 ; 0019 (2) 将所有的 histH(r) 从大到小进行排序, 并将前 Q 个数值保存在数组集合 pLineH 中 ; pLineHi 记录了非零值像素个数排在第 i 位的行序号 ; 0020 (3) 将 pLineH 中所有行序号进行两两比较, 如果两个行序号之差的绝对值小于 预设的行阈。
22、值, 则将非零像素个数较小的行从 pLineH 中删去, 预设的行阈值取 100 ; 重复 此操作, 直至 pLineH 中任意两个数值的行序号之差的绝对值不小于预设的行阈值, 此时将 pLineH 中的数值的个数作为医学影像数字胶片中医学影像的行数 M ; 0021 (4) 同理, 对步骤 1 得到的二值化图像 t Image 进行竖直方向的处理, 得到医学影 像数字胶片中医学影像 patch Image 的列数 N ; 预设的列阈值为 100 ; 0022 (5)根据得到的医学影像的行数和列数将步骤1得到的二值化图像分割, 得到共M 行 N 列的二值化医学影像 t ImagePatch, 。
23、从而得到每个医学影像 patch Image 在医学影像 数字胶片中的大小及位置。 0023 进一步的, 所述步骤 (2) 中的数值 Q 为 20。 0024 进一步的, 所述步骤 3 中行扫描的方式如下 : 0025 当连续扫描到若干行数的 histP(r) 值不为零的行时, 从该行沿扫描方向到二值 化医学影像 t ImagePatch 边缘的距离即为该等份部分中文字区域的高度, 其中, 所述行数 说 明 书 CN 104036292 A 6 3/6 页 7 的阈值设为 3 行。 0026 本发明的另一个目的在于, 提供一种医学影像数字胶片中文字区域提取系统, 具 体包括如下依次相连接的模块。
24、 : 0027 医学影像数字图像二值化模块 : 0028 用于对医学影像数字图像进行文字区域滤波处理, 得到文字区域滤波后的二值化 图像 t Image ; 并对二值化图像 t Image 去掉孤立点, 得到更新后的二值化图像 t Image ; 0029 行列划分模块 : 0030 用于对二值化图像 t Image 进行水平方向和竖直方向的扫描处理, 得到每个二值 化医学影像 t ImagePatch 的大小以及在二值化图像 t Image 中的位置信息 ; 0031 文字区域定位模块 : 0032 用于将每个二值化医学影像 t ImagePatch 按宽高对半的形式分成四等份, 对于每 一。
25、等份分别进行行扫描以及列扫描, 分别得到该等份部分中文字区域的高度和宽度 ; 从而 得到每一幅二值化医学影像 t ImagePatch 中四个等份部分的所有文字区域的大小和位置 信息 ; 0033 文字区域提取模块 : 0034 用于将每一幅二值化医学影像 t ImagePatch 中四个等份部分的文字区域进行提 取。 0035 进一步的, 所述医学影像数字图像二值化模块中, 对医学影响数字图像进行文字 区域滤波处理的公式如下 : 0036 0037 其中, thres 为预设的阈值, thres 不小于 250 ; gx(x,y) 和 gy(x,y) 分别为医学影 像的数字图像 Image 。
26、在坐标点 (x,y) 的 x 方向和 y 方向的梯度值 ; t(x,y) 为文字区域滤波 后的二值化图像 t Image 中坐标点 (x,y) 的像素值。 0038 进一步的, 所述行列划分模块中, 具体分为以下几个功能模块 : 0039 (1) 用于逐行统计步骤 1 得到的二值化图像 t Image 中第 r 行的非零值的像素点 的个数 histH(r), r 为 1 P, P 为二值化图像 t Image 的像素的总行数 ; 0040 (2) 用于将所有的 histH(r) 从大到小进行排序, 并将前 Q 个数值保存在数组集合 pLineH 中 ; pLineHi 记录了非零值像素个数排在。
27、第 i 位的行序号 ; 0041 (3) 用于将 pLineH 中所有行序号进行两两比较, 如果两个行序号之差的绝对值小 于预设的行阈值, 则将非零像素个数较小的行从 pLineH 中删去, 预设的行阈值取 100 ; 重复 此操作, 直至 pLineH 中任意两个数值的行序号之差的绝对值不小于预设的行阈值, 此时将 pLineH 中的数值的个数作为医学影像数字胶片中医学影像的行数 M ; 0042 (4)用于对步骤1得到的二值化图像t Image进行竖直方向的处理, 得到医学影像 数字胶片中医学影像 patch Image 的列数 N ; 预设的列阈值为 100 ; 0043 (5) 用于根。
28、据得到的医学影像的行数和列数将步骤 1 得到的二值化图像分割, 得 到共 M 行 N 列的二值化医学影像 t ImagePatch, 从而得到每个医学影像 patch Image 在医 说 明 书 CN 104036292 A 7 4/6 页 8 学影像数字胶片中的大小及位置。 0044 进一步的, 所述文字区域定位模块中行扫描的方式如下 : 0045 当连续扫描到若干行数的 histP(r) 值不为零的行时, 从该行沿扫描方向到二值 化医学影像 t ImagePatch 边缘的距离即为该等份部分中文字区域的高度, 其中, 所述行数 的阈值设为 3 行。 0046 与现有技术相比, 本发明首先。
29、对滤波后生成的图像进行水平和垂直方向的统计分 析, 得出胶片中医学影像的行数和列数 ; 然后针对每个影像区域所对应的滤波图像, 再次进 行扫描, 精确得到文字区域的大小和位置信息。使用这种先定位医学影像再确定文字区域 的处理方式, 保证了文字区域提取的准确性, 避免提取时各医学影像之间的相互影响, 同时 解决了医学影像数字胶片中图文并存不易提取文字区域的难题。通过大量实验证明, 本发 明能够快速有效地过滤掉影像区域而保留文字区域信息, 流程简单, 计算简便, 使得提取文 字区域的准确率高, 且有很好的鲁棒性。 附图说明 0047 图 1 是本发明的医学影像数字胶片中文字区域提取系统的结构框图。。
30、 0048 图 2 是本发明的医学影像数字胶片中文字区域提取方法的流程图。 0049 图 3 是本发明的实验中加载的一张医学影像数字胶片样本。 0050 图 4 是对图 3 所示的医学影像数字胶片进行文字区域滤波后生成的二值化图像。 0051 图 5 是图 3 所示的医学影像数字胶片中包含医学影像的行列划分。 0052 图 6 是图 3 所示的医学影像胶片中第一个医学影像中文字区域的定位结果。 0053 图 7 是对图 3 所示的医学影像胶片的中第一个医学影像中文字区域的提取结果。 0054 图 8 是包含有 3x4 个影像区域的医学影像数字胶片及其提取的文字区域。 0055 图 9 是包含有。
31、 6x6 个影像区域的医学影像数字胶片及其提取的文字区域。 0056 以下结合附图和具体实施方式对本发明进一步解释说明。 具体实施方式 0057 本发明的方法的思路是 : 对医学影像数字胶片中文字区域的提取分两大部分 : 一、 判断医学影像数字胶片上每个医学影像的大小和位置信息 ; 二、 针对每个医学影像提取 其中的文字区域。 0058 由于在医学影像数字图像中, 文字区域的像素点分布相对于图像的像素点分布呈 现出显著不同的纹理特征, 这种纹理特征表现为 : 无论是数字、 英文字符还是汉字, 大部分 都由横、 竖和折的基本单元组成, 这使得文字区域的像素点分布具有很强的水平和竖直方 向的相关性。
32、, 而影像区域和背景区域的此类相关性则很弱。 根据此特性, 以下利用数字图像 中水平和垂直的相关性进行基于阈值的文字区域滤波处理, 以有效去除影像区域而保留文 字区域。 0059 步骤 1 : 利用式 1, 对医学影像数字图像进行文字区域滤波处理, 得到文字区域滤 波后的二值化图像 t Image ; 0060 说 明 书 CN 104036292 A 8 5/6 页 9 0061 其中, thres 为预设的阈值, 本发明中 thres 不小于 250 ; gx(x,y) 和 gy(x,y) 分别 为医学影像的数字图像 Image 在坐标点 (x,y) 的 x 方向和 y 方向的梯度值 ; 。
33、t(x,y) 为文字 区域滤波后的二值化图像 t Image 中坐标点 (x,y) 的像素值 ; 0062 经步骤 1 的操作, 文字区域中保留了图像中大部分的非零像素点, 而影像区域留 下极少的孤立非零像素点。 0063 对二值化图像 t Image 进行图像形态学变换中的 “闭” 操作, 得到更新后的二值化 图像 t Image, 以去掉孤立点。 0064 步骤 2 : 对步骤 1 得到的二值化图像 t Image 进行水平方向和竖直方向的扫描处 理, 得到每个医学影像 patch Image 在医学影像数字胶片中的大小及位置。具体步骤如下 : 0065 (1) 逐行统计步骤 1 得到的二。
34、值化图像 t Image 中第 r 行的非零值的像素点的个 数 histH(r), r 为 1 P, P 为二值化图像 t Image 的像素的总行数。 0066 (2) 将所有的 histH(r) 从大到小进行排序, 并将前 Q 个数值保存在数组集合 pLineH中, 用于计算医学影像数字胶片的医学影像的行数。 根据真实情况, 胶片的行数和列 数均不大于 20, 因此本发明中 Q 设为 20 ; 其中, pLineHi 记录了非零值像素个数排在第 i 位的行序号。 0067 (3) 将 pLineH 中所有行序号进行两两比较, 如果两个行序号之差的绝对值小于预 设的行阈值, 则将非零像素个数。
35、较小的行从 pLineH 中删去 ( 每个医学影像的宽高均大于 200个像素, 因此, 经试验, 本发明中预设的行阈值取100) ; 重复此操作, 直至pLineH中任意 两个数值的行序号之差的绝对值不小于预设的行阈值, 此时将 pLineH 中的数值的个数作 为医学影像数字胶片中医学影像的行数 M ; 0068 (4) 同理, 利用步骤 (1)、 (2)、 (3) 对步骤 1 得到的二值化图像 t Image 进行竖直 方向的处理, 得到医学影像数字胶片中医学影像 patch Image 的列数 N ; 预设的列阈值也为 100 ; 0069 (5)根据得到的医学影像的行数和列数将步骤1得到。
36、的二值化图像分割, 得到共M 行 N 列的二值化医学影像 t ImagePatch ; 可见, 二值化图像 t Image 中的二值化医学影像 t ImagePatch 与医学影像数字胶片中的医学影像 patch Image 的大小对应相同, 且位置一一 对应。 0070 步骤 3 : 为了能够将每一幅二值化医学影像 t ImagePatch 中的文字区域从四角中 进行提取, 将每个二值化医学影像 t ImagePatch 按宽高对半的形式分成四等份, 对于每一 等份分别进行行扫描以及列扫描, 分别得到该等份部分中文字区域的高度和宽度 ; 0071 行扫描的方式如下 : 当连续扫描到若干行数 。
37、( 根据试验, 本发明此处的行数阈值 设为 3 行 ) 的 histP(r) 值不为零的行时, 则表明水平方向上进入了文字区域, 从该行沿扫 描方向到二值化医学影像 t ImagePatch 边缘的距离即为该等份部分中文字区域的高度 ; 0072 同理, 进行竖直方向的列扫描得到该等份部分中文字区域的宽度 ; 0073 综上, 得到每一幅二值化医学影像 t ImagePatch 中四个等份部分的所有文字区域 的大小和位置信息, 再根据步骤2得到的每个医学影像patch Image在医学影像数字胶片中 说 明 书 CN 104036292 A 9 6/6 页 10 的大小和位置信息, 可知所有文。
38、字区域以及在医学影像数字胶片中的位置信息。 0074 步骤 4 : 将每一幅二值化医学影像 t ImagePatch 中四个等份部分的文字区域进行 提取。 0075 为了说明本发明的方法的有效性, 发明人给出如下实验 : 实验所用的PC安装64位 Window 7 的操作系统, 其 CPU 为 Intel(R)Core(TM)i5-2300 CPU2.80GHz。本实验对包含有 4x5个影像区域的100张医学影像数字胶片进行文字区域的提取, 将公式(1)中的thres值 设为 255。 0076 图 3 为实验中的一张胶片样本, 首先对该胶片进行文字区域滤波操作, 生成如图 4 所示的二值化图。
39、像, 对此二值化图像进行水平和垂直方向统计分析后, 计算结果如图 5 所 示, 该医学影像数字胶片中医学影像 patch Image 共有 4 行 5 列, 从而得到每个医学影像 patch Image 在医学影像数字胶片中的大小及位置。 0077 图 6(a) 所示的医学影像对应的二值化医学影像 t ImagePatch 如图 6(b) 所示, 将 其分为如图6(c)所示的四等份, 对每一等份分别进行行扫描或列扫描, 得到到如图6(d)所 示的三个文字区域的大小以及位置信息 ; 位于右下角的文字区域过小未显示, 该文字区域 不包含有效医疗信息, 因此允许不提取。从而得到二值化医学影像 t I。
40、magePatch 及其对应 的医学影像中所有文字区域的大小和位置信息(如图7所示), 提取得到的三个文字区域如 图 7(b) 所示。 0078 图 8(a) 给出了实验中一个包含有 3x4 个医学影像的医学影像数字胶片样本, 图 8(b) 显示了第一个医学影像中文字区域的大小及位置, 图 8(c) 显示了该医学影像中提取 的三个文字区域。 0079 图 9(a) 给出了实验中一个包含有 6x6 个医学影像的医学影像数字胶片样本, 图 9(b) 显示了第一个医学影像中文字区域的大小及位置, 图 9(c) 显示了该医学影像中提取 的三个文字区域。 0080 实验显示, 本发明的方法在实验胶片中均。
41、取得了准确可靠的结果, 且处理速度快, 平均每张胶片处理时间仅为 520ms。 说 明 书 CN 104036292 A 10 1/9 页 11 图 1 图 2 说 明 书 附 图 CN 104036292 A 11 2/9 页 12 图 3 说 明 书 附 图 CN 104036292 A 12 3/9 页 13 图 4 说 明 书 附 图 CN 104036292 A 13 4/9 页 14 图 5 说 明 书 附 图 CN 104036292 A 14 5/9 页 15 图 6 说 明 书 附 图 CN 104036292 A 15 6/9 页 16 图 7 说 明 书 附 图 CN 104036292 A 16 7/9 页 17 图 8 说 明 书 附 图 CN 104036292 A 17 8/9 页 18 说 明 书 附 图 CN 104036292 A 18 9/9 页 19 图 9 说 明 书 附 图 CN 104036292 A 19 。