书签 分享 收藏 举报 版权申诉 / 9

一种空心验证码的识别方法.pdf

  • 上传人:r5
  • 文档编号:6068515
  • 上传时间:2019-04-06
  • 格式:PDF
  • 页数:9
  • 大小:406.76KB
  • 摘要
    申请专利号:

    CN201610812124.9

    申请日:

    2016.09.09

    公开号:

    CN106446897A

    公开日:

    2017.02.22

    当前法律状态:

    实审

    有效性:

    审中

    法律详情:

    实质审查的生效IPC(主分类):G06K 9/34申请日:20160909|||公开

    IPC分类号:

    G06K9/34

    主分类号:

    G06K9/34

    申请人:

    浪潮软件股份有限公司

    发明人:

    王本强; 郭运艳; 陈安猛; 衣秀; 房善华

    地址:

    250101 山东省济南市高新区浪潮路1036号

    优先权:

    专利代理机构:

    济南信达专利事务所有限公司 37100

    代理人:

    孟峣

    PDF完整版下载: PDF下载
    内容摘要

    本发明公开了一种空心验证码的识别方法,其实现过程为:首先提取字符图像,对提取的字符进行预处理,提取出去除字符干扰的字符区域;对字符区域进行切割,分割出字符;对字符进行训练,得到相应识别模型,进行识别。该一种空心验证码的识别方法与现有技术相比,在数据分析人员需要获取大量网络数据时,针对空心验证码,能够自动迅速的识别出验证码中的字符,进行准确的获取,不会因验证码的阻碍及识别错误,出现没法获取数据,另外,由于本字符模型是针对于本类的字符训练得到,识别率大大提高,实用性强,适用范围广泛,易于推广。

    权利要求书

    1.一种空心验证码的识别方法,其特征在于,该方法的实现过程为:
    首先提取字符图像,对提取的字符进行预处理,提取出去除字符干扰的字符区域;
    对字符区域进行切割,分割出字符;
    对字符进行训练,得到相应识别模型,进行识别。
    2.根据权利要求1所述的一种空心验证码的识别方法,其特征在于,所述字符预处理过
    程通过图像预处理模块完成,该模块的处理过程为:
    步骤一、首先对提取字符进行二值化处理,根据字符特征提取干扰线区域;
    步骤二、然后对干扰线区域去除字符区域影响,得到干扰线所在位置;
    步骤三、沿着干扰线方向,根据周围字符的特征,去掉部分干扰线;
    步骤四、对其进行连通区域标记,找出所有的字符断裂部分及干扰线与字符形成的干
    扰区域,去除干扰区域。
    3.根据权利要求2所述的一种空心验证码的识别方法,其特征在于,所述步骤一的具体
    过程为:
    对提取的字符图像,首先使用包括高斯滤波的滤波算法,中值滤波滤除图像中的噪声
    点;
    然后依据图像的像素特征,使用自适应阈值或者固定阈值算法,对图像进行二值化处
    理;
    依据空心验证码的生成特征,对有字符有断裂的情况,修复字符轮廓线,保证字符外边
    缘的完整性,从而完成干扰线区域的提取。
    4.根据权利要求2所述的一种空心验证码的识别方法,其特征在于,步骤二中根据干扰
    线区域提取干扰线是指依据空心验证码的像素特征,提取出干扰线,并记录下它所在的位
    置。
    5.根据权利要求2所述的一种空心验证码的识别方法,其特征在于,步骤三中去掉部分
    干扰线是指断开干扰线的过程,即依据空心验证码的像素特征,对干扰线的领域像素进行
    分析,断开明显干扰线位置。
    6.根据权利要求2所述的一种空心验证码的识别方法,其特征在于,步骤四中标记的连
    通区域包括断裂字符的连通区域、字符与字符形成的连通区域、字符与干扰线形成的连通
    区域以及字符本身内部的连通区域;
    去除干扰连通区域是指去除除断裂字符外所有的连通区域,具体为:通过分析连通区
    域外在的分布特征,区别出断裂字符连通区域和干扰连通区域,进行分类,去除。
    7.根据权利要求2-6任一所述的一种空心验证码的识别方法,其特征在于,上述预处理
    步骤中还包括断裂连接和旋转矫正的步骤,具体为:
    断裂连接步骤是指断裂字符连通区域部分连接,分析干扰线对字符的截断影响特征,
    设计对应的连接模板,连接断裂部分;
    旋转矫正步骤是指找出每字符每部分的最小外接矩形,去除干扰矩形,统计计算得出
    旋转角度,旋转验证码图像。
    8.根据权利要求1所述的一种空心验证码的识别方法,其特征在于,对字符区域进行切
    割通过空心字符分割模块完成,该模块通过对每个字符区域进行合并分类,得到每个字符
    所在的区域,切割每个字符输出,具体为:
    对得到的字符连通区域,进行合并分类,计算出每个字符所在的中心位置,在此位置附
    近设置阈值,计算得出与字符所在位置的距离,如果小于预设阈值,则归入此字符,否则,属
    于其他字符,从而得到了每个字符所在的具体位置;通过上述计算得到的每个字符的具体
    位置,对每个字符进行切割输出,用于下一步的字符识别。
    9.根据权利要求1所述的一种空心验证码的识别方法,其特征在于,字符识别通过字符
    识别模块实现,该模块把字符用神经网络进行训练,训练出符合本类字符特征的模型,用该
    模型来进行字符判断识别。

    说明书

    一种空心验证码的识别方法

    技术领域

    本发明涉及验证码识别技术领域,具体地说是一种实用性强、空心验证码的识别
    方法。

    背景技术

    验证码作为一种区分用户是计算机还是人类的安全技术,已被大多数网站采用。
    验证码的出现是为了防止某些恶意程序对网站的破坏,如批量注册、批量发帖、同时也防止
    爬虫程序进行资源抓取。目前主要采用基于图像的字符验证码。空心字符验证码作为一种
    验证码设计方式,设计为一条干扰线穿过空心字符,使用户的视觉体验不像实心的粘连干
    扰造成的用户体验下降。空心字符验证码作为一种比较新颖的设计方式,已被各大公司网
    站应用到其用户登录、邮箱验证、论坛评论等模块中。

    因此,验证码给网站带来安全的同时,也给某些从事数据分析获取工作的人们带
    来了一定的不便,验证码识别算法正是为解决此问题。目前,空心字符验证码作为一种比较
    新颖的方式,目前还没有一种有效的方法来识别它。基于此,现提供一种空心验证码的识别
    方法。

    发明内容

    本发明的技术任务是针对以上不足之处,提供一种实用性强、空心验证码的识别
    方法。

    一种空心验证码的识别方法,该方法的实现过程为:

    首先提取字符图像,对提取的字符进行预处理,提取出去除字符干扰的字符区域;

    对字符区域进行切割,分割出字符;

    对字符进行训练,得到相应识别模型,进行识别。

    所述字符预处理过程通过图像预处理模块完成,该模块的处理过程为:

    步骤一、首先对提取字符进行二值化处理,根据字符特征提取干扰线区域;

    步骤二、然后对干扰线区域去除字符区域影响,得到干扰线所在位置;

    步骤三、沿着干扰线方向,根据周围字符的特征,去掉部分干扰线;

    步骤四、对其进行连通区域标记,找出所有的字符断裂部分及干扰线与字符形成的干
    扰区域,去除干扰区域。

    所述步骤一的具体过程为:

    对提取的字符图像,首先使用包括高斯滤波的滤波算法,中值滤波滤除图像中的噪声
    点;

    然后依据图像的像素特征,使用自适应阈值或者固定阈值算法,对图像进行二值化处
    理;

    依据空心验证码的生成特征,对有字符有断裂的情况,修复字符轮廓线,保证字符外边
    缘的完整性,从而完成干扰线区域的提取。

    步骤二中根据干扰线区域提取干扰线是指依据空心验证码的像素特征,提取出干
    扰线,并记录下它所在的位置。

    步骤三中去掉部分干扰线是指断开干扰线的过程,即依据空心验证码的像素特
    征,对干扰线的领域像素进行分析,断开明显干扰线位置。

    步骤四中标记的连通区域包括断裂字符的连通区域、字符与字符形成的连通区
    域、字符与干扰线形成的连通区域以及字符本身内部的连通区域;

    去除干扰连通区域是指去除除断裂字符外所有的连通区域,具体为:通过分析连通区
    域外在的分布特征,区别出断裂字符连通区域和干扰连通区域,进行分类,去除。

    上述预处理步骤中还包括断裂连接和旋转矫正的步骤,具体为:

    断裂连接步骤是指断裂字符连通区域部分连接,分析干扰线对字符的截断影响特征,
    设计对应的连接模板,连接断裂部分;

    旋转矫正步骤是指找出每字符每部分的最小外接矩形,去除干扰矩形,统计计算得出
    旋转角度,旋转验证码图像。

    对字符区域进行切割通过空心字符分割模块完成,该模块通过对每个字符区域进
    行合并分类,得到每个字符所在的区域,切割每个字符输出,具体为:

    对得到的字符连通区域,进行合并分类,计算出每个字符所在的中心位置,在此位置附
    近设置阈值,计算得出与字符所在位置的距离,如果小于预设阈值,则归入此字符,否则,属
    于其他字符,从而得到了每个字符所在的具体位置;通过上述计算得到的每个字符的具体
    位置,对每个字符进行切割输出,用于下一步的字符识别。

    字符识别通过字符识别模块实现,该模块把字符用神经网络进行训练,训练出符
    合本类字符特征的模型,用该模型来进行字符判断识别。

    本发明的一种空心验证码的识别方法,具有以下优点:

    该发明的一种空心验证码的识别方法,在数据分析人员需要获取大量网络数据时,针
    对空心验证码,能够自动迅速的识别出验证码中的字符,进行准确的获取,不会因验证码的
    阻碍及识别错误,出现没法获取数据,另外,由于本字符模型是针对于本类的字符训练得
    到,识别率大大提高,实用性强,适用范围广泛,易于推广。

    附图说明

    附图1为本发明的实现结构示意图。

    附图2为本发明的实现流程图。

    具体实施方式

    下面结合附图及具体实施例对本发明作进一步说明。

    如附图1、图2所示,本发明提供一种空心验证码的识别方法,用来针对带干扰线的
    空心字符的验证码进行识别。该方法利用二值化提取字符的边缘,根据字符特征提取干扰
    线区域,去除字符区域影响,得到干扰线所在位置,沿着干扰线方向,根据周围字符的特征,
    去掉部分干扰线,然后对其进行连通区域标记,找出所有的字符断裂部分及干扰线与字符
    形成的干扰区域,采用本发明提出的一种算法,去除干扰区域。采用本发明提出的几个邻域
    模型连接断裂部分,通过对每个连通区域的统计分析,计算旋转角度,旋转图像,对每个字
    符区域进行分类合并,得到每个字符所在的区域,最后切割每个字符输出。然后把字符用神
    经网络进行训练,训练出符合本类字符特征的模型,用本模型来进行字符判断识别。

    其实现过程为:

    首先提取字符图像,对提取的字符进行预处理,提取出去除字符干扰的字符区域;

    对字符区域进行切割,分割出字符;

    对字符进行训练,得到相应识别模型,进行识别。

    所述字符预处理过程通过图像预处理模块完成,该模块的处理过程为:

    使用滤波算法如高斯滤波,中值滤波滤除图像中的噪声点。

    依据图像的像素特征,使用自适应阈值或者固定阈值算法,对图像进行二值化处
    理。

    依据空心验证码的生成特征,对有字符有断裂的情况,需要修复字符轮廓线,保证
    字符外边缘的完整性。

    提取干扰线,依据空心验证码的像素特征,提取出干扰线,并记录下它所在的位
    置。

    断开干扰线,依据空心验证码的像素特征,对干扰线的领域像素进行分析,断开明
    显干扰线位置。

    连通区域标记,找出所有的连通区域,并标记处位置,此时的连通区域,不仅包括
    断裂字符的连通区域,还包括字符与字符形成的连通区域,字符与干扰线形成的连通区域
    以及字符本身内部的连通区域,都需要标记出来。

    去干扰连通区域,主要包括上述除断裂字符外所有的连通区域,主要通过分析连
    通区域外在的分布特征,根据某种策略,区别出断裂字符连通区域和干扰连通区域,进行分
    类,去除。

    断裂字符连通区域部分连接,分析干扰线对字符的截断影响特征,设计对应的连
    接模板,连接断裂部分。(此步一般不能把所有的字符断裂部分连接起来)

    旋转矫正,找出每字符每部分的最小外接矩形,去除干扰矩形,统计计算得出旋转角
    度,旋转验证码图像。

    对字符区域进行切割通过空心字符分割模块完成,该模块通过对每个字符区域进
    行合并分类,得到每个字符所在的区域,切割每个字符输出,具体为:

    对上述得到的字符连通区域,进行合并分类,一般是计算出每个字符所在的大体中心
    位置,在此位置附近,根据某种策略,设置阈值,计算得出与字符所在位置的距离,如果小于
    预设阈值,则归入此字符,否则,属于其他字符,从而得到了每个字符所在的具体位置。

    通过上述计算得到的每个字符的具体位置,对每个字符进行切割输出,用于下一
    步的字符识别。

    字符识别通过字符识别模块实现,该模块把字符用神经网络进行训练,训练出符
    合本类字符特征的模型,用该模型来进行字符判断识别。本模块主要负责对上述得到的每
    个字符,进行识别,目前有许多已有的字符识别模块,但是识别效果都是不太理想,为此,用
    本类空心字符通过训练机器学习的神经网络,得到能够反映本类空心字符固有特征的模
    型,用此模型来识别,输识别字符,比用现有的识别模块,字符识别率大有提高。

    上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于
    上述具体实施方式,任何符合本发明的一种空心验证码的识别方法的权利要求书的且任何
    所属技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范
    围。

    关 键  词:
    一种 空心 验证 识别 方法
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:一种空心验证码的识别方法.pdf
    链接地址:https://www.zhuanlichaxun.net/p-6068515.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1