一种对邮件广告图片的识别方法.pdf

上传人：111****112

文档编号：1663852

上传时间：2018-07-02

格式：PDF

页数：11

大小：1.32MB

《一种对邮件广告图片的识别方法.pdf》由会员分享，可在线阅读，更多相关《一种对邮件广告图片的识别方法.pdf（11页完整版）》请在专利查询网上搜索。

本发明提供了一种对邮件广告图片的识别方法，包括：S1、提取邮件中的图片后进行预处理后确定文本块排列方向；S2、根据文本块排列方向建立虚拟坐标系；S3、分别计算图片中各文本块在虚拟坐标系中的二值化数据；S4、统计图片中的文本块的大小及数量；S5、根据设定阈值判断图片是否为广告图片。通过获取图片中文本块在虚拟坐标系中的投影并计算二值化数据，可以有效地通过统计图片中的文本块的大小及数量并根据设定阈值判断。

摘要
申请专利号：	CN201510121822.X	申请日：	2015.03.19
公开号：	CN104715248A	公开日：	2015.06.17
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):G06K 9/20申请日:20150319\|\|\|公开
IPC分类号：	G06K9/20; G06F17/21	主分类号：	G06K9/20
申请人：	无锡华云数据技术服务有限公司
发明人：	许广彬; 徐慧灵; 纪春来
地址：	214000江苏省无锡市滨湖区科教软件园6号
优先权：
专利代理机构：		代理人：
PDF完整版下载：	PDF下载

内容摘要

本发明提供了一种对邮件广告图片的识别方法，包括：S1、提取邮件中的图片后进行预处理后确定文本块排列方向；S2、根据文本块排列方向建立虚拟坐标系；S3、分别计算图片中各文本块在虚拟坐标系中的二值化数据；S4、统计图片中的文本块的大小及数量；S5、根据设定阈值判断图片是否为广告图片。通过获取图片中文本块在虚拟坐标系中的投影并计算二值化数据，可以有效地通过统计图片中的文本块的大小及数量并根据设定阈值判断图片是否为广告图片，显著地提高了对垃圾邮件中的广告图片中的文字的提取效果，抗干扰能力强，并降低了服务器的负载。

权利要求书

权利要求书
1.  一种对邮件广告图片的识别方法，其特征在于，所述识别方法包括以下步骤：
S1、提取邮件中的图片后进行预处理后确定文本块排列方向；
S2、根据文本块排列方向建立虚拟坐标系；
S3、分别计算图片中各文本块在虚拟坐标系中的二值化数据；
S4、统计图片中的文本块的大小及数量；
S5、根据设定阈值判断图片是否为广告图片。

2.  根据权利要求1所述的识别方法，其特征在于，所述步骤S1中的预处理包括边框处理、反色处理、去除背景处理、二值化处理、降噪处理。

3.  根据权利要求1所述的识别方法，其特征在于，所述步骤S2具体为：根据图片内容在虚拟坐标系上的投影结果的连续性，为图片建立匹配的虚拟坐标系。

4.  根据权利要求1所述的识别方法，其特征在于，所述步骤S3具体为：将图片中各文本块相对于虚拟坐标轴的极轴做投影，若坐标点有前景色像素点则标记为黑色，否则标记为白色。

5.  根据权利要求1所述的识别方法，其特征在于，所述步骤S4具体为：对图片中的二值化数据相对于虚拟坐标系的极轴进行单独投影处理，记录文字文本块与非文字文本块的沿虚拟坐标系上的宽高值，并统计相应数量后保存至服务器数据库。

6.  根据权利要求5所述的识别方法，其特征在于，所述服务器数据库包括MySQL数据库、Oracle数据库。

7.  根据权利要求2至6中任一项所述的识别方法，其特征在于，所述虚拟坐标系包括一轴虚拟坐标系、二轴虚拟坐标系。

8.  根据权利要求7所述的识别方法，其特征在于，所述二轴虚拟坐标系包括二轴正交虚拟坐标系、二轴非正交虚拟坐标系。

9.  根据权利要求1所述的识别方法，其特征在于，所述步骤S5中的设定阈值具体为：文字文本块数量T的范围为50至300，文字文本块面积总和占图片面积百分比范围为50至100，非文字文本块数量范围为0至2T。

说明书

说明书一种对邮件广告图片的识别方法
技术领域
本发明涉及垃圾邮件处理技术与网络安全技术领域，尤其涉及一种对邮件广告图片的识别方法。
背景技术
每年全球的垃圾邮件中，图片类垃圾邮件数量占据了垃圾邮件总量的50％以上。所以，针对图片垃圾邮件识别的技术亟需升级和更新，以便更有效的对图片类垃圾邮件进行识别，提高垃圾邮件识别率。
在现有技术中，通常使用光学字符识别(OCR)以实现对包含广告图片的文本内容进行提取，通过内容判断是否广告内容，从而实现垃圾邮件的识别。所谓光学字符识别通常使用一般将被称作OCR引擎的计算机软件来对原本在纸张、缩影胶片或其它介质上印刷的、打字的、手写的或其它书写文本的数字图像进行处理，并且从所述图像产生机器可识别和可编辑的文本。通过OCR引擎处理的文档的数字图像可包括多页书写材料的图像。要由OCR引擎进行处理的文本的图像可通过各种成像方法来获取，包括使用图像扫描仪来捕捉文本的数字图像。然而这种技术方案存在计算量大、广告图片中的文字提取效果不理想，误判率较高，以及对加入干扰字符或者竖排显示内容等经过垃圾邮件投放者处理后的垃圾邮件的识别效果不佳等技术缺陷。
有鉴于此，有必要对现有技术中的对邮件广告图片的识别方法予以改进，以解决上述技术瑕疵。
发明内容
本发明的目的在于公开一种对邮件广告图片的识别方法，提高对包含文字的图片进行文字提取的效果，从而实现对包含广告图片的垃圾邮件进行有效的识别，同时降低服务器的负载，同时提高服务器在过滤垃圾邮件时的抗干扰能力。
为实现上述发明目的，本发明提供了一种对邮件广告图片的识别方法，包括以下步骤：
S1、提取邮件中的图片后进行预处理后确定文本块排列方向；
S2、根据文本块排列方向建立虚拟坐标系；
S3、分别计算图片中各文本块在虚拟坐标系中的二值化数据；
S4、统计图片中的文本块的大小及数量；
S5、根据设定阈值判断图片是否为广告图片。
作为本发明的进一步改进，步骤S1中的预处理包括边框处理、反色处理、去除背景处理、二值化处理、降噪处理。
作为本发明的进一步改进，步骤S2具体为：根据图片内容在虚拟坐标系上的投影结果的连续性，为图片建立匹配的虚拟坐标系。
作为本发明的进一步改进，步骤S3具体为：将图片中各文本块相对于虚拟坐标轴的极轴做投影，若坐标点有前景色像素点则标记为黑色，否则标记为白色。
作为本发明的进一步改进，步骤S4具体为：对图片中的二值化数据相对于虚拟坐标系的极轴进行单独投影处理，记录文字文本块与非文字文本块的沿虚拟坐标系上的宽高值，并统计相应数量后保存至服务器数据库。
作为本发明的进一步改进，服务器数据库包括MySQL数据库、Oracle数据库。
作为本发明的进一步改进，虚拟坐标系包括一轴虚拟坐标系、二轴虚拟坐标系。
作为本发明的进一步改进，二轴虚拟坐标系包括二轴正交虚拟坐标系、二轴非正交虚拟坐标系。
作为本发明的进一步改进，步骤S5中的设定阈值具体为：文字文本块数量T的范围为50至300，文字文本块面积总和占图片面积百分比范围为50至100，非文字文本块数量范围为0至2T。
与现有技术相比，本发明的有益效果是：通过获取图片中文本块在虚拟坐标系中的投影并计算二值化数据，可以有效地通过统计图片中的文本块的大小及数量并根据设定阈值判断图片是否为广告图片，显著地提高了对垃圾邮件中的广告图片中的文字的提取效果，抗干扰能力强，并降低了服务器的负载。
附图说明
图1为本发明一种对邮件广告图片的识别方法的示意图；
图2为从邮件中提取到的一种类型图片；
图3为将图2进行步骤S2的预处理后所生成的图片；
图4为从邮件中提取到的另一种类型图片；
图5为将图4进行步骤S2的预处理后所生成的图片；
图6为图3通过对前景色像素点标记为黑色的投影结果进行连续性分析从而确定行列方向的示意图；
图7为图5通过对前景色像素点标记为黑色的投影结果进行连续性分析从而确定行列方向的示意图；
图8为对图7所示的图片中的第一行文本块进行单独投影处理的示意图；
图9为根据图8中所示的投影结果示意图记录文本块宽高值与文本块数量的示意图。
具体实施方式
下面结合附图所示的各实施方式对本发明进行详细说明，但应当说明的是，这些实施方式并非对本发明的限制，本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代，均属于本发明的保护范围之内。
在本实施方式中，一种对邮件广告图片的识别方法，所述识别方法包括以下步骤：
步骤S1、提取邮件中的图片后进行预处理后确定文本块排列方向。该预处理包括边框处理、反色处理、去除背景处理、二值化处理、降噪处理。
边框处理是为了判断图片是否有边框，如果有边框则通过裁剪去掉图片外部和/或内部的边框。反色处理是为了计算图片中的前景色和/或背景色。去除背景处理是通过计算获取图片的背景色，并将其去除；同时对反色处理的图片进行前景色与背景色的对调。如果图片中包含风景或者人物等背景干扰因素，则根据步骤1中从邮件中所提取的图片的整体风格或像素色值分布情况，去除人物背景或者风景背景等干扰因素。二值化处理是根据计算机的配置操作，采用误差补偿算法，对根据步骤1中从邮件中所提取的图片进行整体二值化处理。经过二值化处理的图片的文件非常小，便于计算机后期对其是否为广告图片进行判断。降噪处理具体为通过双背景滤波法对计算机提取到的图片进行降噪处理，从而降低图片中的噪点对后期广告图片的识别计算所造成的不良影响。
参图2与图3、图4与图5所示，图2为经过反色处理的预处理后生成如图3所示的预处理结果。图4为经过边框处理的预处理后生成如图5所示的预处理结果。
步骤S2、根据文本块排列方向建立虚拟坐标系。
为了确定图片中文本块的大小与数量，需要首先确定图片内容中所包含的文本块的排列方向。例如图2与图4中的文本块分别是水平横向排列与垂直纵向排列。
参图6所示，步骤S2具体为：根据图片内容在虚拟坐标系上的投影结果的连续性，为图片建立匹配的虚拟坐标系。该虚拟坐标系包括一轴虚拟坐标系、二轴虚拟坐标系，二轴虚拟坐标系包括二轴正交虚拟坐标系、二轴非正交虚拟坐标系。
具体而言，如果广告图片中的文字呈现为一条横向排布或者纵向排布时，则仅仅根据图片中的文本块排列方向建立一轴虚拟坐标系(横向)或者一轴虚拟坐标系(竖向)。
如果广告图片中的文字呈现为多条横向排布或者多条竖向排布时，则建立二轴正交虚拟坐标系，并将水平方向的极轴定义为X轴，将垂直方向的极轴定义为Y轴。
如果图片中的文字成像斜向排布时，则需要通过带文本图片的旋转处理来建立虚拟坐标系。具体通过以下技术方案来实现。
步骤S11：将图片按照图片宽高的自然方向建立坐标轴，标记垂直方向为X轴，水平方向为Y轴。计算图片在X轴上的极高点、极低点，在Y轴上的极远点、极近点；其中，
极高点为X轴方向上数值最大的点；
极低点为X轴方向上数值最小的点；
极远点为Y轴方向上数值最大的点；
极近点为Y轴方向上数值最小的点。
步骤12：设定极值偏差值tdev＝20px，计算高点集合、低点集合、远点集合、近点集合。计算方式如下：
图片中X轴方向距离极高点小于等于tdev的点，记录为高点集合h；
图片中X轴方向距离极低点大于等于tdev的点，记录为低点集合l；
图片中Y轴方向距离极远点小于等于tdev的点，记录为远点集合f；
图片中Y轴方向距离极近点大于等于tdev的点，记录为近点集合n。
步骤13：计算高点集合、低点集合的宽度，分别记录为hw、lw。计算远点集合、近点集合高度，分别记录为fh、nh。
步骤14：判断图片文本内容是否为一轴正交图：设定一轴正交判定阈值v11＝20，v12＝80，判定方法如下：
如果hw，lw满足小于等于v11，并且fh或nh大于等于v12，则判定图片为一轴正交；
如果fh，nh满足小于等于v11，并且hw或lw大于等于v12，则判定图片为一轴正交。
如果图片为一轴正交可直接使用，不需要继续处理，否则，进入下一步骤。
步骤15：判断图片文本内容是否为二轴正交图：设定二轴正交判定阈值v2＝80，判定方法如下：
如果hw或lw满足大于等于v2，则判定图片为二轴正交；
如果fh或nh满足大于等于v2，则判定图片为二轴正交。
如果图片为二轴正交图，不需要继续处理，否则，跳转执行下一步骤。
步骤16：计算二轴非正交图片文本内容的倾斜角度：取极高点，极远点，计算图片文本内容的倾斜角度。
步骤17：根据倾斜角度，对图片进行旋转操作，使其成为二轴正交图。
步骤S3、分别计算图片中各文本块在虚拟坐标系中的二值化数据，并具体为：将图片中各文本块相对于虚拟坐标轴的极轴做投影，若坐标点有前景色像素点则标记为黑色，否则标记为白色。
参图6与图7所示，经过预处理后所得到的图片在二轴正交虚拟坐标系中进行投影后，如果图片内容中出现文字文本块，则垂直于投影方向上会出现黑色区域，如果图片内容中出现空行、空格、英文、数字(即“非文字文本块”)时，则垂直于投影方向上会出现白色区域。
然后执行步骤S4、统计图片中的文本块的大小及数量，并具体为：对图片中的二值化数据相对于虚拟坐标系的极轴进行单独投影处理，记录文字文本块与非文字文本块的沿虚拟坐标系上的宽高值，并统计相应数量后保存至服务器数据库。具体的，该服务器数据库包括MySQL据库、Oracle数据库，并更优选为MySQL数据库。参图8所示，如果某一文本块是中文字，则通常呈现为在X轴方向的宽度投影大于英文或者数字的投影宽度，且在Y轴方向的投影高度大于英文或者数字的投影高度，从而对图片中的文本块的类型实现高效的判断与筛选，并逐行或者逐列的对图片中的文本块进行单独投影处理。
在本实施方式中，标记为较宽的黑色区域为文字文本块的区域(即该文本块是中文)，较窄的黑色区域为非文字文本块的区域(即该文本块是英文或者数字)，其他白色区域为非文字文本块的区域(即无任何中文字的区域)。
结合参照图9所示，需要说明的是，本发明既可以首先沿X轴从上至下进行逐行投影或者沿X轴从下至上进行逐行投影；同时本发明也可沿Y轴从上至下进行逐列投影或者沿Y轴从下至上进行逐列投影，从而实现对图片统计图片中的文本块的大小及数量。
参图9所示，在执行步骤S5中，可根据设定阈值判断图片是否为广告图片。在步骤S5中的设定阈值具体为：文字文本块数量T的范围为50至300，文字文本块面积总和占图片面积百分比范围为50至100，非文字文本块数量范围为0至2T。
在对虚拟坐标系中的所有文本块(包含文字文本块与非文字文本块)完成统计之后，根据统计结果就能够判断该从邮件中所提取的图片是否为广告图片。具体的，在本实施方式中，文本块的宽度范围为20px-40px，文本块高度范围为35px-60px。
通过本发明，可以实现对邮件中所包含的广告图片进行准确识别，识别率达99.99％，从而将包含该广告图片的邮件识别为垃圾邮件。本识别方法可应用于发垃圾邮件引擎中，以提高对垃圾邮件的识别、过滤、拦截效率。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。
对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。