一种医学影像数字胶片中文字区域提取方法及提取系统.pdf

上传人：奻奴

文档编号：4671060

上传时间：2018-10-26

格式：PDF

页数：19

大小：2.91MB

《一种医学影像数字胶片中文字区域提取方法及提取系统.pdf》由会员分享，可在线阅读，更多相关《一种医学影像数字胶片中文字区域提取方法及提取系统.pdf（19页完整版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 104036292 A (43)申请公布日 2014.09.10 CN 104036292 A (21)申请号 201410260310.7 (22)申请日 2014.06.12 G06K 9/62(2006.01) G06K 9/46(2006.01) (71)申请人西安华海盈泰医疗信息技术有限公司地址 710075 陕西省西安市高新区唐延南路 8 号三 G 酷派产业园 B 座二层 (72)发明人徐文举申田李云峰张孝林 (74)专利代理机构西安恒泰知识产权代理事务所 61216 代理人林兵 (54) 发明名称一种医学影像数字胶片中文字区域提取方。

2、法及提取系统 (57) 摘要本发明提出了一种医学影像数字胶片中文字区域提取方法和系统，首先对医学影像数字图像进行文字区域滤波处理，再对二值化图像进行水平竖直方向扫描，得到二值化医学影像大小及位置；将二值化医学影像按宽高对半的形式分成四等份，对于每一等份分别进行行扫描以及列扫描，分别得到该等份部分中文字区域的高度和宽度；提取文字区域。使用这种先定位医学影像再确定文字区域的处理方式，保证了文字区域提取的准确性，避免提取时各医学影像之间的相互影响，同时解决了医学影像数字胶片中图文并存不易提取文字区域的难题。通过大量实验证明，本发明能够快速有效地过滤掉。

3、影像区域而保留文字区域信息，计算简便，提取文字区域准确率高，有很好的鲁棒性。 (51)Int.Cl. 权利要求书 3 页说明书 6 页附图 9 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请权利要求书3页说明书6页附图9页 (10)申请公布号 CN 104036292 A CN 104036292 A 1/3 页 2 1. 一种医学影像数字胶片中文字区域提取方法，其特征在于，具体包括如下步骤：步骤 1 ：对医学影像数字图像进行文字区域滤波处理，得到文字区域滤波后的二值化图像 t Image ；对二值化图像 t Image 去掉孤立点，得到更。

4、新后的二值化图像 t Image ；步骤 2 ：对步骤 1 得到的二值化图像 t Image 进行水平方向和竖直方向的扫描处理，得到每个二值化医学影像 t ImagePatch 的大小以及在二值化图像 t Image 中的位置信息；步骤3 ：将每个二值化医学影像t ImagePatch按宽高对半的形式分成四等份，对于每一等份分别进行行扫描以及列扫描，分别得到该等份部分中文字区域的高度和宽度；从而得到每一幅二值化医学影像 t ImagePatch 中四个等份部分的所有文字区域的大小和位置信息；步骤4 ：将每一幅二值化医学影像t ImagePatch中四个等份部分。

5、的文字区域进行提取。 2. 如权利要求 1 所述的医学影像数字胶片中文字区域提取方法，其特征在于，所述步骤 1 中对对医学影响数字图像进行文字区域滤波处理是利用下式进行处理：其中， thres 为预设的阈值， thres 不小于 250 ； gx(x,y) 和 gy(x,y) 分别为医学影像的数字图像 Image 在坐标点 (x,y) 的 x 方向和 y 方向的梯度值； t(x,y) 为文字区域滤波后的二值化图像 t Image 中坐标点 (x,y) 的像素值。 3. 如权利要求 1 所述的医学影像数字胶片中文字区域提取方法，其特征在于，所述步骤 1 中对二值化图像 t 。

6、Image 去掉孤立点是指对二值化图像 t Image 进行图像形态学变换中的 “闭” 操作。 4. 如权利要求 1 所述的医学影像数字胶片中文字区域提取方法，其特征在于，所述步骤 2 的具体操作如下： (1) 逐行统计步骤 1 得到的二值化图像 t Image 中第 r 行的非零值的像素点的个数 histH(r)， r 为 1 P， P 为二值化图像 t Image 的像素的总行数； (2) 将所有的 histH(r) 从大到小进行排序，并将前 Q 个数值保存在数组集合 pLineH 中； pLineHi 记录了非零值像素个数排在第 i 位的行序号； (3) 将 pLine。

7、H 中所有行序号进行两两比较，如果两个行序号之差的绝对值小于预设的行阈值，则将非零像素个数较小的行从 pLineH 中删去，预设的行阈值取 100 ；重复此操作，直至 pLineH 中任意两个数值的行序号之差的绝对值不小于预设的行阈值，此时将 pLineH 中的数值的个数作为医学影像数字胶片中医学影像的行数 M ； (4) 同理，对步骤 1 得到的二值化图像 t Image 进行竖直方向的处理，得到医学影像数字胶片中医学影像 patch Image 的列数 N ；预设的列阈值为 100 ； (5) 根据得到的医学影像的行数和列数将步骤 1 得到的二值化图像分割，得到共。

8、M 行 N 列的二值化医学影像 t ImagePatch，从而得得到每个二值化医学 t ImagePatch 的大小以及在二值化图像 t Image 中的位置信息。 5. 如权利要求 4 所述的医学影像数字胶片中文字区域提取方法，其特征在于，所述步骤 (2) 中的数值 Q 为 20。 6. 如权利要求 4 所述的医学影像数字胶片中文字区域提取方法，其特征在于，所述步权利要求书 CN 104036292 A 2 2/3 页 3 骤 3 中行扫描的方式如下：当连续扫描到若干行数的 histP(r) 值不为零的行时，从该行沿扫描方向到二值化医学影像 t ImagePa。

9、tch 边缘的距离即为该等份部分中文字区域的高度，其中，所述行数的阈值设为 3 行。 7. 一种医学影像数字胶片中文字区域提取系统，其特征在于，具体包括如下依次相连接的模块：医学影像数字图像二值化模块：用于对医学影像数字图像进行文字区域滤波处理，得到文字区域滤波后的二值化图像 t Image ；并对二值化图像 t Image 去掉孤立点，得到更新后的二值化图像 t Image ；行列划分模块：用于对二值化图像 t Image 进行水平方向和竖直方向的扫描处理，得到每个二值化医学影像 t ImagePatch 的大小以及在二值化图像 t Image 中的位置信。

10、息；文字区域定位模块：用于将每个二值化医学影像 t ImagePatch 按宽高对半的形式分成四等份，对于每一等份分别进行行扫描以及列扫描，分别得到该等份部分中文字区域的高度和宽度；从而得到每一幅二值化医学影像 t ImagePatch 中四个等份部分的所有文字区域的大小和位置信息；文字区域提取模块：用于将每一幅二值化医学影像 t ImagePatch 中四个等份部分的文字区域进行提取。 8. 如权利要求 7 所述的医学影像数字胶片中文字区域提取系统，其特征在于，所述医学影像数字图像二值化模块中，对医学影响数字图像进行文字区域滤波处理的公式如下：其中，。

11、thres 为预设的阈值， thres 不小于 250 ； gx(x,y) 和 gy(x,y) 分别为医学影像的数字图像 Image 在坐标点 (x,y) 的 x 方向和 y 方向的梯度值； t(x,y) 为文字区域滤波后的二值化图像 t Image 中坐标点 (x,y) 的像素值。 9. 如权利要求 7 所述的医学影像数字胶片中文字区域提取系统，其特征在于，所述行列划分模块中，具体分为以下几个功能模块： (1) 用于逐行统计步骤 1 得到的二值化图像 t Image 中第 r 行的非零值的像素点的个数 histH(r)， r 为 1 P， P 为二值化图像 t Image 。

12、的像素的总行数； (2) 用于将所有的 histH(r) 从大到小进行排序，并将前 Q 个数值保存在数组集合 pLineH 中； pLineHi 记录了非零值像素个数排在第 i 位的行序号； (3) 用于将 pLineH 中所有行序号进行两两比较，如果两个行序号之差的绝对值小于预设的行阈值，则将非零像素个数较小的行从 pLineH 中删去，预设的行阈值取 100 ；重复此操作，直至 pLineH 中任意两个数值的行序号之差的绝对值不小于预设的行阈值，此时将 pLineH 中的数值的个数作为医学影像数字胶片中医学影像的行数 M ； (4)用于对步骤1得到的二值化图像t I。

13、mage进行竖直方向的处理，得到医学影像数字胶片中医学影像 patch Image 的列数 N ；预设的列阈值为 100 ； (5)用于根据得到的医学影像的行数和列数将步骤1得到的二值化图像分割，得到共M 权利要求书 CN 104036292 A 3 3/3 页 4 行 N 列的二值化医学影像 t ImagePatch，从而得到每个医学影像 patch Image 在医学影像数字胶片中的大小及位置。 10. 如权利要求 7 所述的医学影像数字胶片中文字区域提取系统，其特征在于，所述文字区域定位模块中行扫描的方式如下：当连续扫描到若干行数的 histP(r) 值不为。

14、零的行时，从该行沿扫描方向到二值化医学影像 t ImagePatch 边缘的距离即为该等份部分中文字区域的高度，其中，所述行数的阈值设为 3 行。权利要求书 CN 104036292 A 4 1/6 页 5 一种医学影像数字胶片中文字区域提取方法及提取系统技术领域 0001 本发明属于数字影像处理技术领域，具体涉及一种医学影像数字胶片中文字区域提取方法及提取系统，该方法用于从打印的医学影像数字胶片中提取每个影像区域中对应的文字区域。 0002 背景介绍 0003 数字化时代的来临使得医学影像的数字化管理成为趋势，目前，医院放射科已普遍使用医学影像存档与通信系。

15、统(PACS， Picture Archiving and Communication Systems)，该系统将医学影像数据进行数字化存储和管理，使得放射科的医生能够更加方便地审阅病人的影像，编写影像检查报告等工作。同时，为了把影像资料交给病人保存，医生会在影像工作站调阅上某个病人的影像数据，使用排版功能生成一张或几张 “医学影像数字胶片” ( 参见图 1，每一幅医学影像数字胶片上包括 M*N 个医学影像，它们呈 M 行 N 列排列；其中，每一个医学影像均由位于该医学影像中心部位的影像区域以及位于该医学影像的四角的四个文字区域组成)，再将排版后生成的医学影像。

16、数字胶片输入至胶片打印机。打印完成后，将影像胶片交给患者。 0004 排版生成的数字胶片包含了表示病灶信息的 “关键影像” ，它们对于判断病情有着非常重要的作用，对排版生成的医学影像数字胶片的保存变的越来越重要。技术实现上，想要对生成的医学影像数字胶片进行保存，需要将其和 PACS 数据库中对应病人的信息进行关联。而医学影像数字胶片中，并没有以文字格式存储病人的相关信息，而是将这些信息以图像形式嵌入在医学影像数字胶片中，需要对医学影像数字胶片进行文字区域提取和文字识别技术进行分析，才能够获取以图像形式保存的病人信息。 0005 文字识别即OCR(optica。

17、l character recognition)技术。对于扫描得到的图片中的字体， OCR 技术目前已经很成熟。为了快速高效地进行 OCR 识别，对医学影像数字胶片进行文字区域检测来获取文字区域是首要前提。目前，文字区域的提取方法大体分为两类：第一类是通过纹理分析 ( 如 Gabor 滤波，空间方差分析等 ) 进行文字区域提取，这类方法具有很好的通用性，但这类方法对于文本的字体和风格比较敏感，存在定位不准和算法复杂度高的缺点；第二类是采用连通元素分析技术进行文字区域提取，这类方法具有处理速度快的特点。但由于医学影像数字胶片本身既包括影像区域又包括文字区域，。

18、且部分影像区域和文字区域偶有重叠，因此，在使用上述两类提取方法对医学影像数字胶片进行提取时，其提取效率和准确率均不够理想。发明内容 0006 针对上述技术中存在的缺陷或不足，本发明的一个目的在于，提供一种医学影像数字胶片中文字区域提取方法。 0007 本发明采用如下技术方案予以实现： 0008 一种医学影像数字胶片中文字区域提取方法，具体包括如下步骤： 0009 步骤 1 ：对医学影像数字图像进行文字区域滤波处理，得到文字区域滤波后的二说明书 CN 104036292 A 5 2/6 页 6 值化图像 t Image ；对二值化图像 t Image 去掉孤。

19、立点，得到更新后的二值化图像 t Image ； 0010 步骤 2 ：对步骤 1 得到的二值化图像 t Image 进行水平方向和竖直方向的扫描处理，得到每个二值化医学影像 t ImagePatch 的大小以及在二值化图像 t Image 中的位置信息； 0011 步骤3 ：将每个二值化医学影像t ImagePatch按宽高对半的形式分成四等份，对于每一等份分别进行行扫描以及列扫描，分别得到该等份部分中文字区域的高度和宽度；从而得到每一幅二值化医学影像 t ImagePatch 中四个等份部分的所有文字区域的大小和位置信息； 0012 步骤 4 ：将每一幅二值。

20、化医学影像 t ImagePatch 中四个等份部分的文字区域进行提取。 0013 进一步的，所述步骤 1 中对对医学影响数字图像进行文字区域滤波处理是利用下式进行处理： 0014 0015 其中， thres 为预设的阈值， thres 不小于 250 ； gx(x,y) 和 gy(x,y) 分别为医学影像的数字图像 Image 在坐标点 (x,y) 的 x 方向和 y 方向的梯度值； t(x,y) 为文字区域滤波后的二值化图像 t Image 中坐标点 (x,y) 的像素值。 0016 进一步的，所述步骤 1 中对二值化图像 t Image 去掉孤立点是指对二值化图像 t 。

21、Image 进行图像形态学变换中的 “闭” 操作。 0017 进一步的，所述步骤 2 的具体操作如下： 0018 (1) 逐行统计步骤 1 得到的二值化图像 t Image 中第 r 行的非零值的像素点的个数 histH(r)， r 为 1 P， P 为二值化图像 t Image 的像素的总行数； 0019 (2) 将所有的 histH(r) 从大到小进行排序，并将前 Q 个数值保存在数组集合 pLineH 中； pLineHi 记录了非零值像素个数排在第 i 位的行序号； 0020 (3) 将 pLineH 中所有行序号进行两两比较，如果两个行序号之差的绝对值小于预设的行阈。

22、值，则将非零像素个数较小的行从 pLineH 中删去，预设的行阈值取 100 ；重复此操作，直至 pLineH 中任意两个数值的行序号之差的绝对值不小于预设的行阈值，此时将 pLineH 中的数值的个数作为医学影像数字胶片中医学影像的行数 M ； 0021 (4) 同理，对步骤 1 得到的二值化图像 t Image 进行竖直方向的处理，得到医学影像数字胶片中医学影像 patch Image 的列数 N ；预设的列阈值为 100 ； 0022 (5)根据得到的医学影像的行数和列数将步骤1得到的二值化图像分割，得到共M 行 N 列的二值化医学影像 t ImagePatch，。

23、从而得到每个医学影像 patch Image 在医学影像数字胶片中的大小及位置。 0023 进一步的，所述步骤 (2) 中的数值 Q 为 20。 0024 进一步的，所述步骤 3 中行扫描的方式如下： 0025 当连续扫描到若干行数的 histP(r) 值不为零的行时，从该行沿扫描方向到二值化医学影像 t ImagePatch 边缘的距离即为该等份部分中文字区域的高度，其中，所述行数说明书 CN 104036292 A 6 3/6 页 7 的阈值设为 3 行。 0026 本发明的另一个目的在于，提供一种医学影像数字胶片中文字区域提取系统，具体包括如下依次相连接的模块。

24、： 0027 医学影像数字图像二值化模块： 0028 用于对医学影像数字图像进行文字区域滤波处理，得到文字区域滤波后的二值化图像 t Image ；并对二值化图像 t Image 去掉孤立点，得到更新后的二值化图像 t Image ； 0029 行列划分模块： 0030 用于对二值化图像 t Image 进行水平方向和竖直方向的扫描处理，得到每个二值化医学影像 t ImagePatch 的大小以及在二值化图像 t Image 中的位置信息； 0031 文字区域定位模块： 0032 用于将每个二值化医学影像 t ImagePatch 按宽高对半的形式分成四等份，对于每一。

25、等份分别进行行扫描以及列扫描，分别得到该等份部分中文字区域的高度和宽度；从而得到每一幅二值化医学影像 t ImagePatch 中四个等份部分的所有文字区域的大小和位置信息； 0033 文字区域提取模块： 0034 用于将每一幅二值化医学影像 t ImagePatch 中四个等份部分的文字区域进行提取。 0035 进一步的，所述医学影像数字图像二值化模块中，对医学影响数字图像进行文字区域滤波处理的公式如下： 0036 0037 其中， thres 为预设的阈值， thres 不小于 250 ； gx(x,y) 和 gy(x,y) 分别为医学影像的数字图像 Image 。

26、在坐标点 (x,y) 的 x 方向和 y 方向的梯度值； t(x,y) 为文字区域滤波后的二值化图像 t Image 中坐标点 (x,y) 的像素值。 0038 进一步的，所述行列划分模块中，具体分为以下几个功能模块： 0039 (1) 用于逐行统计步骤 1 得到的二值化图像 t Image 中第 r 行的非零值的像素点的个数 histH(r)， r 为 1 P， P 为二值化图像 t Image 的像素的总行数； 0040 (2) 用于将所有的 histH(r) 从大到小进行排序，并将前 Q 个数值保存在数组集合 pLineH 中； pLineHi 记录了非零值像素个数排在。

27、第 i 位的行序号； 0041 (3) 用于将 pLineH 中所有行序号进行两两比较，如果两个行序号之差的绝对值小于预设的行阈值，则将非零像素个数较小的行从 pLineH 中删去，预设的行阈值取 100 ；重复此操作，直至 pLineH 中任意两个数值的行序号之差的绝对值不小于预设的行阈值，此时将 pLineH 中的数值的个数作为医学影像数字胶片中医学影像的行数 M ； 0042 (4)用于对步骤1得到的二值化图像t Image进行竖直方向的处理，得到医学影像数字胶片中医学影像 patch Image 的列数 N ；预设的列阈值为 100 ； 0043 (5) 用于根。

28、据得到的医学影像的行数和列数将步骤 1 得到的二值化图像分割，得到共 M 行 N 列的二值化医学影像 t ImagePatch，从而得到每个医学影像 patch Image 在医说明书 CN 104036292 A 7 4/6 页 8 学影像数字胶片中的大小及位置。 0044 进一步的，所述文字区域定位模块中行扫描的方式如下： 0045 当连续扫描到若干行数的 histP(r) 值不为零的行时，从该行沿扫描方向到二值化医学影像 t ImagePatch 边缘的距离即为该等份部分中文字区域的高度，其中，所述行数的阈值设为 3 行。 0046 与现有技术相比，本发明首先。

29、对滤波后生成的图像进行水平和垂直方向的统计分析，得出胶片中医学影像的行数和列数；然后针对每个影像区域所对应的滤波图像，再次进行扫描，精确得到文字区域的大小和位置信息。使用这种先定位医学影像再确定文字区域的处理方式，保证了文字区域提取的准确性，避免提取时各医学影像之间的相互影响，同时解决了医学影像数字胶片中图文并存不易提取文字区域的难题。通过大量实验证明，本发明能够快速有效地过滤掉影像区域而保留文字区域信息，流程简单，计算简便，使得提取文字区域的准确率高，且有很好的鲁棒性。附图说明 0047 图 1 是本发明的医学影像数字胶片中文字区域提取系统的结构框图。。

30、 0048 图 2 是本发明的医学影像数字胶片中文字区域提取方法的流程图。 0049 图 3 是本发明的实验中加载的一张医学影像数字胶片样本。 0050 图 4 是对图 3 所示的医学影像数字胶片进行文字区域滤波后生成的二值化图像。 0051 图 5 是图 3 所示的医学影像数字胶片中包含医学影像的行列划分。 0052 图 6 是图 3 所示的医学影像胶片中第一个医学影像中文字区域的定位结果。 0053 图 7 是对图 3 所示的医学影像胶片的中第一个医学影像中文字区域的提取结果。 0054 图 8 是包含有 3x4 个影像区域的医学影像数字胶片及其提取的文字区域。 0055 图 9 是包含有。

31、 6x6 个影像区域的医学影像数字胶片及其提取的文字区域。 0056 以下结合附图和具体实施方式对本发明进一步解释说明。具体实施方式 0057 本发明的方法的思路是：对医学影像数字胶片中文字区域的提取分两大部分：一、判断医学影像数字胶片上每个医学影像的大小和位置信息；二、针对每个医学影像提取其中的文字区域。 0058 由于在医学影像数字图像中，文字区域的像素点分布相对于图像的像素点分布呈现出显著不同的纹理特征，这种纹理特征表现为：无论是数字、英文字符还是汉字，大部分都由横、竖和折的基本单元组成，这使得文字区域的像素点分布具有很强的水平和竖直方向的相关性。

32、，而影像区域和背景区域的此类相关性则很弱。根据此特性，以下利用数字图像中水平和垂直的相关性进行基于阈值的文字区域滤波处理，以有效去除影像区域而保留文字区域。 0059 步骤 1 ：利用式 1，对医学影像数字图像进行文字区域滤波处理，得到文字区域滤波后的二值化图像 t Image ； 0060 说明书 CN 104036292 A 8 5/6 页 9 0061 其中， thres 为预设的阈值，本发明中 thres 不小于 250 ； gx(x,y) 和 gy(x,y) 分别为医学影像的数字图像 Image 在坐标点 (x,y) 的 x 方向和 y 方向的梯度值；。

33、t(x,y) 为文字区域滤波后的二值化图像 t Image 中坐标点 (x,y) 的像素值； 0062 经步骤 1 的操作，文字区域中保留了图像中大部分的非零像素点，而影像区域留下极少的孤立非零像素点。 0063 对二值化图像 t Image 进行图像形态学变换中的 “闭” 操作，得到更新后的二值化图像 t Image，以去掉孤立点。 0064 步骤 2 ：对步骤 1 得到的二值化图像 t Image 进行水平方向和竖直方向的扫描处理，得到每个医学影像 patch Image 在医学影像数字胶片中的大小及位置。具体步骤如下： 0065 (1) 逐行统计步骤 1 得到的二。

34、值化图像 t Image 中第 r 行的非零值的像素点的个数 histH(r)， r 为 1 P， P 为二值化图像 t Image 的像素的总行数。 0066 (2) 将所有的 histH(r) 从大到小进行排序，并将前 Q 个数值保存在数组集合 pLineH中，用于计算医学影像数字胶片的医学影像的行数。根据真实情况，胶片的行数和列数均不大于 20，因此本发明中 Q 设为 20 ；其中， pLineHi 记录了非零值像素个数排在第 i 位的行序号。 0067 (3) 将 pLineH 中所有行序号进行两两比较，如果两个行序号之差的绝对值小于预设的行阈值，则将非零像素个数。

35、较小的行从 pLineH 中删去 ( 每个医学影像的宽高均大于 200个像素，因此，经试验，本发明中预设的行阈值取100) ；重复此操作，直至pLineH中任意两个数值的行序号之差的绝对值不小于预设的行阈值，此时将 pLineH 中的数值的个数作为医学影像数字胶片中医学影像的行数 M ； 0068 (4) 同理，利用步骤 (1)、 (2)、 (3) 对步骤 1 得到的二值化图像 t Image 进行竖直方向的处理，得到医学影像数字胶片中医学影像 patch Image 的列数 N ；预设的列阈值也为 100 ； 0069 (5)根据得到的医学影像的行数和列数将步骤1得到。

36、的二值化图像分割，得到共M 行 N 列的二值化医学影像 t ImagePatch ；可见，二值化图像 t Image 中的二值化医学影像 t ImagePatch 与医学影像数字胶片中的医学影像 patch Image 的大小对应相同，且位置一一对应。 0070 步骤 3 ：为了能够将每一幅二值化医学影像 t ImagePatch 中的文字区域从四角中进行提取，将每个二值化医学影像 t ImagePatch 按宽高对半的形式分成四等份，对于每一等份分别进行行扫描以及列扫描，分别得到该等份部分中文字区域的高度和宽度； 0071 行扫描的方式如下：当连续扫描到若干行数。

37、( 根据试验，本发明此处的行数阈值设为 3 行 ) 的 histP(r) 值不为零的行时，则表明水平方向上进入了文字区域，从该行沿扫描方向到二值化医学影像 t ImagePatch 边缘的距离即为该等份部分中文字区域的高度； 0072 同理，进行竖直方向的列扫描得到该等份部分中文字区域的宽度； 0073 综上，得到每一幅二值化医学影像 t ImagePatch 中四个等份部分的所有文字区域的大小和位置信息，再根据步骤2得到的每个医学影像patch Image在医学影像数字胶片中说明书 CN 104036292 A 9 6/6 页 10 的大小和位置信息，可知所有文。

38、字区域以及在医学影像数字胶片中的位置信息。 0074 步骤 4 ：将每一幅二值化医学影像 t ImagePatch 中四个等份部分的文字区域进行提取。 0075 为了说明本发明的方法的有效性，发明人给出如下实验：实验所用的PC安装64位 Window 7 的操作系统，其 CPU 为 Intel(R)Core(TM)i5-2300 CPU2.80GHz。本实验对包含有 4x5个影像区域的100张医学影像数字胶片进行文字区域的提取，将公式(1)中的thres值设为 255。 0076 图 3 为实验中的一张胶片样本，首先对该胶片进行文字区域滤波操作，生成如图 4 所示的二值化图。

39、像，对此二值化图像进行水平和垂直方向统计分析后，计算结果如图 5 所示，该医学影像数字胶片中医学影像 patch Image 共有 4 行 5 列，从而得到每个医学影像 patch Image 在医学影像数字胶片中的大小及位置。 0077 图 6(a) 所示的医学影像对应的二值化医学影像 t ImagePatch 如图 6(b) 所示，将其分为如图6(c)所示的四等份，对每一等份分别进行行扫描或列扫描，得到到如图6(d)所示的三个文字区域的大小以及位置信息；位于右下角的文字区域过小未显示，该文字区域不包含有效医疗信息，因此允许不提取。从而得到二值化医学影像 t I。

40、magePatch 及其对应的医学影像中所有文字区域的大小和位置信息(如图7所示)，提取得到的三个文字区域如图 7(b) 所示。 0078 图 8(a) 给出了实验中一个包含有 3x4 个医学影像的医学影像数字胶片样本，图 8(b) 显示了第一个医学影像中文字区域的大小及位置，图 8(c) 显示了该医学影像中提取的三个文字区域。 0079 图 9(a) 给出了实验中一个包含有 6x6 个医学影像的医学影像数字胶片样本，图 9(b) 显示了第一个医学影像中文字区域的大小及位置，图 9(c) 显示了该医学影像中提取的三个文字区域。 0080 实验显示，本发明的方法在实验胶片中均。

41、取得了准确可靠的结果，且处理速度快，平均每张胶片处理时间仅为 520ms。说明书 CN 104036292 A 10 1/9 页 11 图 1 图 2 说明书附图 CN 104036292 A 11 2/9 页 12 图 3 说明书附图 CN 104036292 A 12 3/9 页 13 图 4 说明书附图 CN 104036292 A 13 4/9 页 14 图 5 说明书附图 CN 104036292 A 14 5/9 页 15 图 6 说明书附图 CN 104036292 A 15 6/9 页 16 图 7 说明书附图 CN 104036292 A 16 7/9 页 17 图 8 说明书附图 CN 104036292 A 17 8/9 页 18 说明书附图 CN 104036292 A 18 9/9 页 19 图 9 说明书附图 CN 104036292 A 19 。

摘要
申请专利号：	CN201410260310.7	申请日：	2014.06.12
公开号：	CN104036292A	公开日：	2014.09.10
当前法律状态：	终止	有效性：	无权
法律详情：	专利权的视为放弃IPC(主分类):G06K 9/62放弃生效日:20180309\|\|\|实质审查的生效IPC(主分类):G06K 9/62申请日:20140612\|\|\|公开
IPC分类号：	G06K9/62; G06K9/46	主分类号：	G06K9/62
申请人：	西安华海盈泰医疗信息技术有限公司
发明人：	徐文举; 申田; 李云峰; 张孝林
地址：	710075 陕西省西安市高新区唐延南路8号三G酷派产业园B座二层
优先权：
专利代理机构：	西安恒泰知识产权代理事务所 61216	代理人：	林兵
PDF完整版下载：	PDF下载

内容摘要

本发明提出了一种医学影像数字胶片中文字区域提取方法和系统，首先对医学影像数字图像进行文字区域滤波处理，再对二值化图像进行水平竖直方向扫描，得到二值化医学影像大小及位置；将二值化医学影像按宽高对半的形式分成四等份，对于每一等份分别进行行扫描以及列扫描，分别得到该等份部分中文字区域的高度和宽度；提取文字区域。使用这种先定位医学影像再确定文字区域的处理方式，保证了文字区域提取的准确性，避免提取时各医学影像之间的相互影响，同时解决了医学影像数字胶片中图文并存不易提取文字区域的难题。通过大量实验证明，本发明能够快速有效地过滤掉影像区域而保留文字区域信息，计算简便，提取文字区域准确率高，有很好的鲁棒性。

权利要求书

权利要求书
1.  一种医学影像数字胶片中文字区域提取方法，其特征在于，具体包括如下步骤：
步骤1：对医学影像数字图像进行文字区域滤波处理，得到文字区域滤波后的二值化图像t Image；对二值化图像t Image去掉孤立点，得到更新后的二值化图像t Image；
步骤2：对步骤1得到的二值化图像t Image进行水平方向和竖直方向的扫描处理，得到每个二值化医学影像t ImagePatch的大小以及在二值化图像t Image中的位置信息；
步骤3：将每个二值化医学影像t ImagePatch按宽高对半的形式分成四等份，对于每一等份分别进行行扫描以及列扫描，分别得到该等份部分中文字区域的高度和宽度；从而得到每一幅二值化医学影像t ImagePatch中四个等份部分的所有文字区域的大小和位置信息；
步骤4：将每一幅二值化医学影像t ImagePatch中四个等份部分的文字区域进行提取。

2.  如权利要求1所述的医学影像数字胶片中文字区域提取方法，其特征在于，所述步骤1中对对医学影响数字图像进行文字区域滤波处理是利用下式进行处理：

其中，thres为预设的阈值，thres不小于250；gx(x,y)和gy(x,y)分别为医学影像的数字图像Image在坐标点(x,y)的x方向和y方向的梯度值；t(x,y)为文字区域滤波后的二值化图像t Image中坐标点(x,y)的像素值。

3.  如权利要求1所述的医学影像数字胶片中文字区域提取方法，其特征在于，所述步骤1中对二值化图像t Image去掉孤立点是指对二值化图像 t Image进行图像形态学变换中的“闭”操作。

4.  如权利要求1所述的医学影像数字胶片中文字区域提取方法，其特征在于，所述步骤2的具体操作如下：
(1)逐行统计步骤1得到的二值化图像t Image中第r行的非零值的像素点的个数histH(r)，r为1～P，P为二值化图像t Image的像素的总行数；
(2)将所有的histH(r)从大到小进行排序，并将前Q个数值保存在数组集合pLineH中；pLineH[i]记录了非零值像素个数排在第i位的行序号；
(3)将pLineH中所有行序号进行两两比较，如果两个行序号之差的绝对值小于预设的行阈值，则将非零像素个数较小的行从pLineH中删去，预设的行阈值取100；重复此操作，直至pLineH中任意两个数值的行序号之差的绝对值不小于预设的行阈值，此时将pLineH中的数值的个数作为医学影像数字胶片中医学影像的行数M；
(4)同理，对步骤1得到的二值化图像t Image进行竖直方向的处理，得到医学影像数字胶片中医学影像patch Image的列数N；预设的列阈值为100；
(5)根据得到的医学影像的行数和列数将步骤1得到的二值化图像分割，得到共M行N列的二值化医学影像t ImagePatch，从而得得到每个二值化医学t ImagePatch的大小以及在二值化图像t Image中的位置信息。

5.  如权利要求4所述的医学影像数字胶片中文字区域提取方法，其特征在于，所述步骤(2)中的数值Q为20。

6.  如权利要求4所述的医学影像数字胶片中文字区域提取方法，其特征在于，所述步骤3中行扫描的方式如下：
当连续扫描到若干行数的histP(r)值不为零的行时，从该行沿扫描方向到二值化医学影像t ImagePatch边缘的距离即为该等份部分中文字区域的高度，其中，所述行数的阈值设为3行。

7.  一种医学影像数字胶片中文字区域提取系统，其特征在于，具体包括如下依次相连接的模块：
医学影像数字图像二值化模块：
用于对医学影像数字图像进行文字区域滤波处理，得到文字区域滤波后的二值化图像t Image；并对二值化图像t Image去掉孤立点，得到更新后的二值化图像t Image；
行列划分模块：
用于对二值化图像t Image进行水平方向和竖直方向的扫描处理，得到每个二值化医学影像t ImagePatch的大小以及在二值化图像t Image中的位置信息；
文字区域定位模块：
用于将每个二值化医学影像t ImagePatch按宽高对半的形式分成四等份，对于每一等份分别进行行扫描以及列扫描，分别得到该等份部分中文字区域的高度和宽度；从而得到每一幅二值化医学影像t ImagePatch中四个等份部分的所有文字区域的大小和位置信息；
文字区域提取模块：
用于将每一幅二值化医学影像t ImagePatch中四个等份部分的文字区域进行提取。

8.  如权利要求7所述的医学影像数字胶片中文字区域提取系统，其特征在于，所述医学影像数字图像二值化模块中，对医学影响数字图像进行文字区域滤波处理的公式如下：

其中，thres为预设的阈值，thres不小于250；gx(x,y)和gy(x,y)分别为医学影像的数字图像Image在坐标点(x,y)的x方向和y方向的梯度值；t(x,y)为文字区域滤波后的二值化图像t Image中坐标点(x,y)的像素值。

9.  如权利要求7所述的医学影像数字胶片中文字区域提取系统，其特征在于，所述行列划分模块中，具体分为以下几个功能模块：
(1)用于逐行统计步骤1得到的二值化图像t Image中第r行的非零值的像素点的个数histH(r)，r为1～P，P为二值化图像t Image的像素的总行数；
(2)用于将所有的histH(r)从大到小进行排序，并将前Q个数值保存在数组集合pLineH中；pLineH[i]记录了非零值像素个数排在第i位的行序号；
(3)用于将pLineH中所有行序号进行两两比较，如果两个行序号之差的绝对值小于预设的行阈值，则将非零像素个数较小的行从pLineH中删去，预设的行阈值取100；重复此操作，直至pLineH中任意两个数值的行序号之差的绝对值不小于预设的行阈值，此时将pLineH中的数值的个数作为医学影像数字胶片中医学影像的行数M；
(4)用于对步骤1得到的二值化图像t Image进行竖直方向的处理，得到医学影像数字胶片中医学影像patch Image的列数N；预设的列阈值为100；
(5)用于根据得到的医学影像的行数和列数将步骤1得到的二值化图像分割，得到共M行N列的二值化医学影像t ImagePatch，从而得到每个医学影像patch Image在医学影像数字胶片中的大小及位置。

10.  如权利要求7所述的医学影像数字胶片中文字区域提取系统，其特征在于，所述文字区域定位模块中行扫描的方式如下：
当连续扫描到若干行数的histP(r)值不为零的行时，从该行沿扫描方向到二值化医学影像t ImagePatch边缘的距离即为该等份部分中文字区域的高度，其中，所述行数的阈值设为3行。

说明书

说明书一种医学影像数字胶片中文字区域提取方法及提取系统
技术领域
本发明属于数字影像处理技术领域，具体涉及一种医学影像数字胶片中文字区域提取方法及提取系统，该方法用于从打印的医学影像数字胶片中提取每个影像区域中对应的文字区域。
背景介绍
数字化时代的来临使得医学影像的数字化管理成为趋势，目前，医院放射科已普遍使用医学影像存档与通信系统(PACS，Picture Archiving and Communication Systems)，该系统将医学影像数据进行数字化存储和管理，使得放射科的医生能够更加方便地审阅病人的影像，编写影像检查报告等工作。同时，为了把影像资料交给病人保存，医生会在影像工作站调阅上某个病人的影像数据，使用排版功能生成一张或几张“医学影像数字胶片”(参见图1，每一幅医学影像数字胶片上包括M*N个医学影像，它们呈M行N列排列；其中，每一个医学影像均由位于该医学影像中心部位的影像区域以及位于该医学影像的四角的四个文字区域组成)，再将排版后生成的医学影像数字胶片输入至胶片打印机。打印完成后，将影像胶片交给患者。
排版生成的数字胶片包含了表示病灶信息的“关键影像”，它们对于判断病情有着非常重要的作用，对排版生成的医学影像数字胶片的保存变的越来越重要。技术实现上，想要对生成的医学影像数字胶片进行保存，需要将其和PACS数据库中对应病人的信息进行关联。而医学影像数字胶片中，并没有以文字格式存储病人的相关信息，而是将这些信息以图像形式嵌入在医学影像数字胶片中，需要对医学影像数字胶片进行文字区域提取和文字识别技术进行分析，才能够获取以图像形式保存的病人信息。
文字识别即OCR(optical character recognition)技术。对于扫描得到的图片中的字体，OCR技术目前已经很成熟。为了快速高效地进行OCR识别，对医学影像数字胶片进行文字区域检测来获取文字区域是首要前提。目前，文字区域的提取方法大体分为两类：第一类是通过纹理分析(如Gabor滤波，空间方差分析等)进行文字区域提取，这类方法具有很好的通用性，但这类方法对于文本的字体和风格比较敏感，存在定位不准和算法复杂度高的缺点；第二类是采用连通元素分析技术进行文字区域提取，这类方法具有处理速度快的特点。但由于医学影像数字胶片本身既包括影像区域又包括文字区域，且部分影像区域和文字区域偶有重叠，因此，在使用上述两类提取方法对医学影像数字胶片进行提取时，其提取效率和准确率均不够理想。
发明内容
针对上述技术中存在的缺陷或不足，本发明的一个目的在于，提供一种医学影像数字胶片中文字区域提取方法。
本发明采用如下技术方案予以实现：
一种医学影像数字胶片中文字区域提取方法，具体包括如下步骤：
步骤1：对医学影像数字图像进行文字区域滤波处理，得到文字区域滤波后的二值化图像t Image；对二值化图像t Image去掉孤立点，得到更新后的二值化图像t Image；
步骤2：对步骤1得到的二值化图像t Image进行水平方向和竖直方向的扫描处理，得到每个二值化医学影像t ImagePatch的大小以及在二值化图像t Image中的位置信息；
步骤3：将每个二值化医学影像t ImagePatch按宽高对半的形式分成四等份，对于每一等份分别进行行扫描以及列扫描，分别得到该等份部分中文字区域的高度和宽度；从而得到每一幅二值化医学影像t ImagePatch中四个等份部分的所有文字区域的大小和位置信息；
步骤4：将每一幅二值化医学影像t ImagePatch中四个等份部分的文字区域进行提取。
进一步的，所述步骤1中对对医学影响数字图像进行文字区域滤波处理是利用下式进行处理：

其中，thres为预设的阈值，thres不小于250；gx(x,y)和gy(x,y)分别为医学影像的数字图像Image在坐标点(x,y)的x方向和y方向的梯度值；t(x,y)为文字区域滤波后的二值化图像t Image中坐标点(x,y)的像素值。
进一步的，所述步骤1中对二值化图像t Image去掉孤立点是指对二值化图像t Image进行图像形态学变换中的“闭”操作。
进一步的，所述步骤2的具体操作如下：
(1)逐行统计步骤1得到的二值化图像t Image中第r行的非零值的像素点的个数histH(r)，r为1～P，P为二值化图像t Image的像素的总行数；
(2)将所有的histH(r)从大到小进行排序，并将前Q个数值保存在数组集合pLineH中；pLineH[i]记录了非零值像素个数排在第i位的行序号；
(3)将pLineH中所有行序号进行两两比较，如果两个行序号之差的绝对值小于预设的行阈值，则将非零像素个数较小的行从pLineH中删去，预设的行阈值取100；重复此操作，直至pLineH中任意两个数值的行序号之差的绝对值不小于预设的行阈值，此时将pLineH中的数值的个数作为医学影像数字胶片中医学影像的行数M；
(4)同理，对步骤1得到的二值化图像t Image进行竖直方向的处理，得到医学影像数字胶片中医学影像patch Image的列数N；预设的列阈值为 100；
(5)根据得到的医学影像的行数和列数将步骤1得到的二值化图像分割，得到共M行N列的二值化医学影像t ImagePatch，从而得到每个医学影像patch Image在医学影像数字胶片中的大小及位置。
进一步的，所述步骤(2)中的数值Q为20。
进一步的，所述步骤3中行扫描的方式如下：
当连续扫描到若干行数的histP(r)值不为零的行时，从该行沿扫描方向到二值化医学影像t ImagePatch边缘的距离即为该等份部分中文字区域的高度，其中，所述行数的阈值设为3行。
本发明的另一个目的在于，提供一种医学影像数字胶片中文字区域提取系统，具体包括如下依次相连接的模块：
医学影像数字图像二值化模块：
用于对医学影像数字图像进行文字区域滤波处理，得到文字区域滤波后的二值化图像t Image；并对二值化图像t Image去掉孤立点，得到更新后的二值化图像t Image；
行列划分模块：
用于对二值化图像t Image进行水平方向和竖直方向的扫描处理，得到每个二值化医学影像t ImagePatch的大小以及在二值化图像t Image中的位置信息；
文字区域定位模块：
用于将每个二值化医学影像t ImagePatch按宽高对半的形式分成四等份，对于每一等份分别进行行扫描以及列扫描，分别得到该等份部分中文字区域的高度和宽度；从而得到每一幅二值化医学影像t ImagePatch中四个等份部分的所有文字区域的大小和位置信息；
文字区域提取模块：
用于将每一幅二值化医学影像t ImagePatch中四个等份部分的文字区域进行提取。
进一步的，所述医学影像数字图像二值化模块中，对医学影响数字图像进行文字区域滤波处理的公式如下：

其中，thres为预设的阈值，thres不小于250；gx(x,y)和gy(x,y)分别为医学影像的数字图像Image在坐标点(x,y)的x方向和y方向的梯度值；t(x,y)为文字区域滤波后的二值化图像t Image中坐标点(x,y)的像素值。
进一步的，所述行列划分模块中，具体分为以下几个功能模块：
(1)用于逐行统计步骤1得到的二值化图像t Image中第r行的非零值的像素点的个数histH(r)，r为1～P，P为二值化图像t Image的像素的总行数；
(2)用于将所有的histH(r)从大到小进行排序，并将前Q个数值保存在数组集合pLineH中；pLineH[i]记录了非零值像素个数排在第i位的行序号；
(3)用于将pLineH中所有行序号进行两两比较，如果两个行序号之差的绝对值小于预设的行阈值，则将非零像素个数较小的行从pLineH中删去，预设的行阈值取100；重复此操作，直至pLineH中任意两个数值的行序号之差的绝对值不小于预设的行阈值，此时将pLineH中的数值的个数作为医学影像数字胶片中医学影像的行数M；
(4)用于对步骤1得到的二值化图像t Image进行竖直方向的处理，得到医学影像数字胶片中医学影像patch Image的列数N；预设的列阈值为100；
(5)用于根据得到的医学影像的行数和列数将步骤1得到的二值化图像分割，得到共M行N列的二值化医学影像t ImagePatch，从而得到每个医学影像patch Image在医学影像数字胶片中的大小及位置。
进一步的，所述文字区域定位模块中行扫描的方式如下：
当连续扫描到若干行数的histP(r)值不为零的行时，从该行沿扫描方向到二值化医学影像t ImagePatch边缘的距离即为该等份部分中文字区域的高度，其中，所述行数的阈值设为3行。
与现有技术相比，本发明首先对滤波后生成的图像进行水平和垂直方向的统计分析，得出胶片中医学影像的行数和列数；然后针对每个影像区域所对应的滤波图像，再次进行扫描，精确得到文字区域的大小和位置信息。使用这种先定位医学影像再确定文字区域的处理方式，保证了文字区域提取的准确性，避免提取时各医学影像之间的相互影响，同时解决了医学影像数字胶片中图文并存不易提取文字区域的难题。通过大量实验证明，本发明能够快速有效地过滤掉影像区域而保留文字区域信息，流程简单，计算简便，使得提取文字区域的准确率高，且有很好的鲁棒性。
附图说明
图1是本发明的医学影像数字胶片中文字区域提取系统的结构框图。
图2是本发明的医学影像数字胶片中文字区域提取方法的流程图。
图3是本发明的实验中加载的一张医学影像数字胶片样本。
图4是对图3所示的医学影像数字胶片进行文字区域滤波后生成的二值化图像。
图5是图3所示的医学影像数字胶片中包含医学影像的行列划分。
图6是图3所示的医学影像胶片中第一个医学影像中文字区域的定位结果。
图7是对图3所示的医学影像胶片的中第一个医学影像中文字区域的提取结果。
图8是包含有3x4个影像区域的医学影像数字胶片及其提取的文字区域。
图9是包含有6x6个影像区域的医学影像数字胶片及其提取的文字区域。
以下结合附图和具体实施方式对本发明进一步解释说明。
具体实施方式
本发明的方法的思路是：对医学影像数字胶片中文字区域的提取分两大部分：一、判断医学影像数字胶片上每个医学影像的大小和位置信息；二、针对每个医学影像提取其中的文字区域。
由于在医学影像数字图像中，文字区域的像素点分布相对于图像的像素点分布呈现出显著不同的纹理特征，这种纹理特征表现为：无论是数字、英文字符还是汉字，大部分都由横、竖和折的基本单元组成，这使得文字区域的像素点分布具有很强的水平和竖直方向的相关性，而影像区域和背景区域的此类相关性则很弱。根据此特性，以下利用数字图像中水平和垂直的相关性进行基于阈值的文字区域滤波处理，以有效去除影像区域而保留文字区域。
步骤1：利用式1，对医学影像数字图像进行文字区域滤波处理，得到文字区域滤波后的二值化图像t Image；

其中，thres为预设的阈值，本发明中thres不小于250；gx(x,y)和gy(x,y)分别为医学影像的数字图像Image在坐标点(x,y)的x方向和y方向的梯度值；t(x,y)为文字区域滤波后的二值化图像t Image中坐标点(x,y)的像素值；
经步骤1的操作，文字区域中保留了图像中大部分的非零像素点，而影像区域留下极少的孤立非零像素点。
对二值化图像t Image进行图像形态学变换中的“闭”操作，得到更新后的二值化图像t Image，以去掉孤立点。
步骤2：对步骤1得到的二值化图像t Image进行水平方向和竖直方向的扫描处理，得到每个医学影像patch Image在医学影像数字胶片中的大小及位置。具体步骤如下：
(1)逐行统计步骤1得到的二值化图像t Image中第r行的非零值的像素点的个数histH(r)，r为1～P，P为二值化图像t Image的像素的总行数。
(2)将所有的histH(r)从大到小进行排序，并将前Q个数值保存在数组集合pLineH中，用于计算医学影像数字胶片的医学影像的行数。根据真实情况，胶片的行数和列数均不大于20，因此本发明中Q设为20；其中，pLineH[i]记录了非零值像素个数排在第i位的行序号。
(3)将pLineH中所有行序号进行两两比较，如果两个行序号之差的绝对值小于预设的行阈值，则将非零像素个数较小的行从pLineH中删去(每个医学影像的宽高均大于200个像素，因此，经试验，本发明中预设的行阈值取100)；重复此操作，直至pLineH中任意两个数值的行序号之差的绝对值不小于预设的行阈值，此时将pLineH中的数值的个数作为医学影像数字胶片中医学影像的行数M；
(4)同理，利用步骤(1)、(2)、(3)对步骤1得到的二值化图像t Image进行竖直方向的处理，得到医学影像数字胶片中医学影像patch Image的列数N；预设的列阈值也为100；
(5)根据得到的医学影像的行数和列数将步骤1得到的二值化图像分割，得到共M行N列的二值化医学影像t ImagePatch；可见，二值化图像t Image中的二值化医学影像t ImagePatch与医学影像数字胶片中的医学影像patch Image的大小对应相同，且位置一一对应。
步骤3：为了能够将每一幅二值化医学影像t ImagePatch中的文字区域从四角中进行提取，将每个二值化医学影像t ImagePatch按宽高对半的形式分成四等份，对于每一等份分别进行行扫描以及列扫描，分别得到该等份部分中文字区域的高度和宽度；
行扫描的方式如下：当连续扫描到若干行数(根据试验，本发明此处的行数阈值设为3行)的histP(r)值不为零的行时，则表明水平方向上进入了文字区域，从该行沿扫描方向到二值化医学影像t ImagePatch边缘的距离即为该等份部分中文字区域的高度；
同理，进行竖直方向的列扫描得到该等份部分中文字区域的宽度；
综上，得到每一幅二值化医学影像t ImagePatch中四个等份部分的所有文字区域的大小和位置信息，再根据步骤2得到的每个医学影像patch Image在医学影像数字胶片中的大小和位置信息，可知所有文字区域以及在医学影像数字胶片中的位置信息。
步骤4：将每一幅二值化医学影像t ImagePatch中四个等份部分的文字区域进行提取。
为了说明本发明的方法的有效性，发明人给出如下实验：实验所用的PC安装64位Window 7的操作系统，其CPU为Intel(R)Core(TM)i5-2300 CPU@2.80GHz。本实验对包含有4x5个影像区域的100张医学影像数字胶片进行文字区域的提取，将公式(1)中的thres值设为255。
图3为实验中的一张胶片样本，首先对该胶片进行文字区域滤波操作，生成如图4所示的二值化图像，对此二值化图像进行水平和垂直方向统计分析后，计算结果如图5所示，该医学影像数字胶片中医学影像patch Image共有4行5列，从而得到每个医学影像patch Image在医学影像数字胶片中的大小及位置。
图6(a)所示的医学影像对应的二值化医学影像t ImagePatch如图6(b)所示，将其分为如图6(c)所示的四等份，对每一等份分别进行行扫描或列扫描，得到到如图6(d)所示的三个文字区域的大小以及位置信息；位于右下角的文字区域过小未显示，该文字区域不包含有效医疗信息，因此允许不提取。从而得到二值化医学影像t ImagePatch及其对应的医学影像中所有文字区域的大小和位置信息(如图7所示)，提取得到的三个文字区域如图7(b)所示。
图8(a)给出了实验中一个包含有3x4个医学影像的医学影像数字胶片样本，图8(b)显示了第一个医学影像中文字区域的大小及位置，图8(c)显示了该医学影像中提取的三个文字区域。
图9(a)给出了实验中一个包含有6x6个医学影像的医学影像数字胶片样本，图9(b)显示了第一个医学影像中文字区域的大小及位置，图9(c)显示了该医学影像中提取的三个文字区域。
实验显示，本发明的方法在实验胶片中均取得了准确可靠的结果，且处理速度快，平均每张胶片处理时间仅为520ms。