银行回单信息提取方法和系统.pdf

上传人:62****3 文档编号:14523365 上传时间:2024-05-19 格式:PDF 页数:23 大小:1.38MB
收藏 版权申诉 举报 下载
银行回单信息提取方法和系统.pdf_第1页
第1页 / 共23页
银行回单信息提取方法和系统.pdf_第2页
第2页 / 共23页
银行回单信息提取方法和系统.pdf_第3页
第3页 / 共23页
文档描述:

《银行回单信息提取方法和系统.pdf》由会员分享,可在线阅读,更多相关《银行回单信息提取方法和系统.pdf(23页完成版)》请在专利查询网上搜索。

1、(19)国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202410028502.9(22)申请日 2024.01.09(71)申请人 北京大数元科技发展有限公司地址 100085 北京市海淀区上地东路1号院3号楼九层901室(72)发明人 姬永杰朱培冬郝强陈国强贾军(74)专利代理机构 北京金宏来专利代理事务所(特殊普通合伙)11641专利代理师 鲍鳕(51)Int.Cl.G06F 40/186(2020.01)G06F 40/295(2020.01)G06Q 40/02(2023.01)G06F 16/31(2019.01)(54)发明名称一种银行。

2、回单信息提取方法和系统(57)摘要本发明专利申请提供了一种银行回单信息提取方法和系统,包括:对获取的银行回单数据进行数据识别,将所述银行回单数据中的非结构化数据进行结构化转换,得到所述银行回单数据对应的回单字符串数据;根据所述回单字符串数据,得到银行名称;根据所述银行名称,调取所述银行名称对应的信息提取模板;根据所述银行名称对应的信息提取模板,对所述银行回单数据进行信息提取;本发明专利申请基于非结构化的银行回单信息,通过预先构建的银行回单信息提取模板,再根据模板提取关键指标信息的方法,可以有效提高回单信息提取效率及准确率。权利要求书2页 说明书13页 附图7页CN 117540721 A202。

3、4.02.09CN 117540721 A1.一种银行回单信息提取方法,其特征在于,包括:对获取的银行回单数据进行数据识别,将所述银行回单数据中的非结构化数据进行结构化转换,得到所述银行回单数据对应的回单字符串数据;根据所述回单字符串数据,得到银行名称;根据所述银行名称,调取所述银行名称对应的信息提取模板;根据所述银行名称对应的信息提取模板,对所述银行回单数据进行信息提取。2.如权利要求1所述的方法,其特征在于,所述信息提取模板包括如下的构建过程:根据历史银行回单样本信息中不同的银行名称进行分类,得到不同的银行名称下的回单样本信息;基于预先构建的关键词库,依次在所述不同的银行名称下的回单样本信。

4、息中遍历匹配所述关键词库中的关键词信息,得到不同银行名称下匹配到的关键词信息及其所述关键词信息的坐标信息;基于不同银行名称下匹配到的关键词信息及其所述关键词信息的坐标信息进行数据整合,得到所述关键词信息的纵坐标列表和横坐标二维数组;根据所述关键词信息的纵坐标列表和横坐标二维数组,构建信息提取模板。3.如权利要求2所述的方法,其特征在于,所述根据所述关键词信息的纵坐标列表和横坐标二维数组,构建信息提取模板,包括:根据所述关键词信息的纵坐标列表,依次取每一个关键词信息及其坐标信息、每一个关键词信息对应的前侧关键词信息及其坐标信息、后侧关键词及其坐标信息;基于所述每一个关键词信息及其坐标信息、每一个。

5、关键词信息对应的前侧关键词信息及其坐标信息、后侧关键词及其坐标信息,计算所述纵坐标列表中每一个关键词信息分别与前侧关键词信息、后侧关键词信息的距离比例;根据所述关键词信息的横坐标二维数据,依次取每一个关键词信息及其坐标信息、后侧关键词信息及其坐标信息;基于所述每一个关键词信息及其坐标信息、后侧关键词信息及其坐标信息,计算所述横坐标二维数组中每一个关键词信息与后侧关键词信息的距离比例;根据所述纵坐标列表中每一个关键词信息分别与前侧关键词信息、后侧关键词信息的距离比例和所述横坐标二维数组中每一个关键词信息与后侧关键词信息的距离比例,构建信息提取模板。4.如权利要求3所述的方法,其特征在于,基于所述。

6、每一个关键词信息及其坐标信息、每一个关键词信息对应的前侧关键词信息及其坐标信息,计算所述纵坐标列表中每一个关键词信息分别与前侧关键词信息的距离比例,包括:基于所述每一个关键词信息及其坐标信息、每一个关键词信息对应的前侧关键词信息及其坐标信息、后侧关键词及其坐标信息,将所述关键词信息与其前侧关键词信息的纵坐标之差的绝对值与所述关键词信息的行高作商作为所述纵坐标列表中关键词信息与其前侧关键词的距离比例。5.如权利要求2所述的方法,其特征在于,所述根据所述银行名称对应的信息提取模板,对所述银行回单数据进行信息提取,包括:基于所述关键词库,遍历所述信息提取模板中对应的关键词信息及其坐标信息、所述权利要。

7、求书1/2 页2CN 117540721 A2关键词信息的竖直上侧、竖直下侧和后侧的关键词信息及其坐标信息;根据所述关键词信息及其坐标信息和所述关键词信息的竖直上侧的关键词信息及其坐标信息,得到第一关键点;根据所述关键词信息的竖直下侧关键词信息及其坐标信息、所述关键词信息的后侧关键词信息及其坐标信息,得到第二关键点;将所述第一关键点和所述第二关键点的连线作为对角线,生成矩形;将所述矩形内的数据作为关键提取信息进行信息提取。6.如权利要求5所述的方法,其特征在于,所述根据所述关键词信息及其坐标信息和所述关键词信息的竖直上侧的关键词信息及其坐标信息,得到第一关键点,包括:将关键词信息中对应的横坐标。

8、最小的关键词信息的横坐标作为所述第一关键点的横坐标,将所述竖直上侧的关键词信息的纵坐标作为所述第一关键词的纵坐标,得到第一关键点。7.如权利要求5所述的方法,其特征在于,所述根据所述关键词信息的竖直下侧关键词信息及其坐标信息、所述关键词信息的后侧关键词信息及其坐标信息,得到第二关键点,包括:将关键词信息的竖直下侧关键词信息中纵坐标最大的竖直下侧关键词信息的纵坐标作为所述第二关键点的纵坐标,将关键词信息的后侧关键词信息中横坐标的最小的后侧关键词信息的横坐标作为所述第二关键点的横坐标,得到第二关键点。8.一种银行回单信息提取系统,其特征在于,包括:数据转换模块:用于对获取的银行回单数据进行数据识别。

9、,并将所述银行回单数据中的非结构化数据进行结构化转换,得到所述银行回单数据对应的回单字符串数据;名称获取模块:用于根据所述回单字符串数据,得到银行名称;模板选择模块:用于根据所述银行名称,调取所述银行名称对应的信息提取模板;信息提取模块:用于根据所述银行名称对应的信息提取模板,对所述银行回单数据进行信息提取。9.如权利要求8所述的系统,其特征在于,所述模板选择模块中的信息提取模板包括如下的构建过程:根据历史银行回单样本信息中不同的银行名称进行分类,得到不同的银行名称下的回单样本信息;基于预先构建的关键词库,依次在所述不同的银行名称下的回单样本信息中遍历匹配所述关键词库中的关键词信息,得到不同银。

10、行名称下匹配到的关键词信息及其所述关键词信息的坐标信息;基于不同银行名称下匹配到的关键词信息及其所述关键词信息的坐标信息进行数据整合,得到所述关键词信息的纵坐标列表和横坐标二维数组;根据所述关键词信息的纵坐标列表和横坐标二维数组,构建信息提取模板。权利要求书2/2 页3CN 117540721 A3一种银行回单信息提取方法和系统技术领域0001本发明涉及数据识别技术领域,特别涉及一种银行回单信息提取方法和系统。背景技术0002目前,银行回单是企业记账凭证的原始依据,企业在收付款时都会有相应的回单作为证明。回单内容主要包括付款日期、收付款户名、收付款账号、收付款银行名称、金额、备注等信息。在很多。

11、大数据系统中,收集了大量的银行回单非结构化文件,需要将其中的关键指标提取为结构化数据,以便用大数据技术进行数据分析;现阶段的回单信息提取,往往需要人工先设置模板,耗费人力资源较多,且非结构回单内容面临遮挡、内容折行等因素使得指标内容边界难以识别,导致准确度不高等问题。传统的银行回单指标提取技术往往依赖于识别对象的特点,需要根据银行回单格式设计个性化的模板。但各大银行的电子回单格式并不相同,这就需要定制大量的银行回单模板,导致识别过程过分依赖人工干预,识别效率较低。再者回单中因为有些指标显示不清晰或者指标内容长短不一等原因,内容的边界无法准确界定,导致提取的指标或者缺失、或者多余,准确率不高。发。

12、明内容0003为解决上述问题,本发明专利申请提供一种银行回单信息提取方法,包括:对获取的银行回单数据进行数据识别,将所述银行回单数据中的非结构化数据进行结构化转换,得到所述银行回单数据对应的回单字符串数据;根据所述回单字符串数据,得到银行名称;根据所述银行名称,调取所述银行名称对应的信息提取模板;根据所述银行名称对应的信息提取模板,对所述银行回单数据进行信息提取。0004优选的,所述信息提取模板包括如下的构建过程:根据历史银行回单样本信息中不同的银行名称进行分类,得到不同的银行名称下的回单样本信息;基于预先构建的关键词库,依次在所述不同的银行名称下的回单样本信息中遍历匹配所述关键词库中的关键词。

13、信息,得到不同银行名称下匹配到的关键词信息及其所述关键词信息的坐标信息;基于不同银行名称下匹配到的关键词信息及其所述关键词信息的坐标信息进行数据整合,得到所述关键词信息的纵坐标列表和横坐标二维数组;根据所述关键词信息的纵坐标列表和横坐标二维数组,构建信息提取模板。0005优选的,所述根据所述关键词信息的纵坐标列表和横坐标二维数组,构建信息提取模板,包括:根据所述关键词信息的纵坐标列表,依次取每一个关键词信息及其坐标信息、每一个关键词信息对应的前侧关键词信息及其坐标信息、后侧关键词及其坐标信息;说明书1/13 页4CN 117540721 A4基于所述每一个关键词信息及其坐标信息、每一个关键词信。

14、息对应的前侧关键词信息及其坐标信息、后侧关键词及其坐标信息,计算所述纵坐标列表中每一个关键词信息分别与前侧关键词信息、后侧关键词信息的距离比例;根据所述关键词信息的横坐标二维数据,依次取每一个关键词信息及其坐标信息、后侧关键词信息及其坐标信息;基于所述每一个关键词信息及其坐标信息、后侧关键词信息及其坐标信息,计算所述横坐标二维数组中每一个关键词信息与后侧关键词信息的距离比例;根据所述纵坐标列表中每一个关键词信息分别与前侧关键词信息、后侧关键词信息的距离比例和所述横坐标二维数组中每一个关键词信息与后侧关键词信息的距离比例,构建信息提取模板。0006优选的,基于所述每一个关键词信息及其坐标信息、每。

15、一个关键词信息对应的前侧关键词信息及其坐标信息,计算所述纵坐标列表中每一个关键词信息分别与前侧关键词信息的距离比例,包括:基于所述每一个关键词信息及其坐标信息、每一个关键词信息对应的前侧关键词信息及其坐标信息、后侧关键词及其坐标信息,将所述关键词信息与其前侧关键词信息的纵坐标之差的绝对值与所述关键词信息的行高作商作为所述纵坐标列表中关键词信息与其前侧关键词的距离比例。0007优选的,所述根据所述银行名称对应的信息提取模板,对所述银行回单数据进行信息提取,包括:基于所述关键词库,遍历所述信息提取模板中对应的关键词信息及其坐标信息、所述关键词信息的竖直上侧、竖直下侧和后侧的关键词信息及其坐标信息;。

16、根据所述关键词信息及其坐标信息和所述关键词信息的竖直上侧的关键词信息及其坐标信息,得到第一关键点;根据所述关键词信息的竖直下侧关键词信息及其坐标信息、所述关键词信息的后侧关键词信息及其坐标信息,得到第二关键点;将所述第一关键点和所述第二关键点的连线作为对角线,生成矩形;将所述矩形内的数据作为关键提取信息进行信息提取。0008优选的,所述根据所述关键词信息及其坐标信息和所述关键词信息的竖直上侧的关键词信息及其坐标信息,得到第一关键点,包括:将关键词信息中对应的横坐标最小的关键词信息的横坐标作为所述第一关键点的横坐标,将所述竖直上侧的关键词信息的纵坐标作为所述第一关键词的纵坐标,得到第一关键点。0。

17、009优选的,所述根据所述关键词信息的竖直下侧关键词信息及其坐标信息、所述关键词信息的后侧关键词信息及其坐标信息,得到第二关键点,包括:将关键词信息的竖直下侧关键词信息中纵坐标最大的竖直下侧关键词信息的纵坐标作为所述第二关键点的纵坐标,将关键词信息的后侧关键词信息中横坐标的最小的后侧关键词信息的横坐标作为所述第二关键点的横坐标,得到第二关键点。0010基于同一发明构思,本发明专利申请还提供了一种银行回单信息提取系统,包括:数据转换模块:用于对获取的银行回单数据进行数据识别,并将所述银行回单数说明书2/13 页5CN 117540721 A5据中的非结构化数据进行结构化转换,得到所述银行回单数据。

18、对应的回单字符串数据;名称获取模块:用于根据所述回单字符串数据,得到银行名称;模板选择模块:用于根据所述银行名称,调取所述银行名称对应的信息提取模板;信息提取模块:用于根据所述银行名称对应的信息提取模板,对所述银行回单数据进行信息提取。0011优选的,所述模板选择模块中的信息提取模板包括如下的构建过程:根据历史银行回单样本信息中不同的银行名称进行分类,得到不同的银行名称下的回单样本信息;基于预先构建的关键词库,依次在所述不同的银行名称下的回单样本信息中遍历匹配所述关键词库中的关键词信息,得到不同银行名称下匹配到的关键词信息及其所述关键词信息的坐标信息;基于不同银行名称下匹配到的关键词信息及其所。

19、述关键词信息的坐标信息进行数据整合,得到所述关键词信息的纵坐标列表和横坐标二维数组;根据所述关键词信息的纵坐标列表和横坐标二维数组,构建信息提取模板。0012优选的,所述模板选择模块中根据所述关键词信息的纵坐标列表和横坐标二维数组,构建信息提取模板,包括:根据所述关键词信息的纵坐标列表,依次取每一个关键词信息及其坐标信息、每一个关键词信息对应的前侧关键词信息及其坐标信息、后侧关键词及其坐标信息;基于所述每一个关键词信息及其坐标信息、每一个关键词信息对应的前侧关键词信息及其坐标信息、后侧关键词及其坐标信息,计算所述纵坐标列表中每一个关键词信息分别与前侧关键词信息、后侧关键词信息的距离比例;根据所。

20、述关键词信息的横坐标二维数据,依次取每一个关键词信息及其坐标信息、后侧关键词信息及其坐标信息;基于所述每一个关键词信息及其坐标信息、后侧关键词信息及其坐标信息,计算所述横坐标二维数组中每一个关键词信息与后侧关键词信息的距离比例;根据所述纵坐标列表中每一个关键词信息分别与前侧关键词信息、后侧关键词信息的距离比例和所述横坐标二维数组中每一个关键词信息与后侧关键词信息的距离比例,构建信息提取模板。0013优选的,所述模板选择模块中基于所述每一个关键词信息及其坐标信息、每一个关键词信息对应的前侧关键词信息及其坐标信息,计算所述纵坐标列表中每一个关键词信息分别与前侧关键词信息的距离比例,包括:基于所述每。

21、一个关键词信息及其坐标信息、每一个关键词信息对应的前侧关键词信息及其坐标信息、后侧关键词及其坐标信息,将所述关键词信息与其前侧关键词信息的纵坐标之差的绝对值与所述关键词信息的行高作商作为所述纵坐标列表中关键词信息与其前侧关键词的距离比例。0014优选的,所述信息提取模块中根据所述银行名称对应的信息提取模板,对所述银行回单数据进行信息提取,包括:基于所述关键词库,遍历所述信息提取模板中对应的关键词信息及其坐标信息、所述关键词信息的竖直上侧、竖直下侧和后侧的关键词信息及其坐标信息;说明书3/13 页6CN 117540721 A6根据所述关键词信息及其坐标信息和所述关键词信息的竖直上侧的关键词信息。

22、及其坐标信息,得到第一关键点;根据所述关键词信息的竖直下侧关键词信息及其坐标信息、所述关键词信息的后侧关键词信息及其坐标信息,得到第二关键点;将所述第一关键点和所述第二关键点的连线作为对角线,生成矩形;将所述矩形内的数据作为关键提取信息进行信息提取。0015优选的,所述信息提取模块中根据所述关键词信息及其坐标信息和所述关键词信息的竖直上侧的关键词信息及其坐标信息,得到第一关键点,包括:将关键词信息中对应的横坐标最小的关键词信息的横坐标作为所述第一关键点的横坐标,将所述竖直上侧的关键词信息的纵坐标作为所述第一关键词的纵坐标,得到第一关键点。0016优选的,所述信息提取模块中根据所述关键词信息的竖。

23、直下侧关键词信息及其坐标信息、所述关键词信息的后侧关键词信息及其坐标信息,得到第二关键点,包括:将关键词信息的竖直下侧关键词信息中纵坐标最大的竖直下侧关键词信息的纵坐标作为所述第二关键点的纵坐标,将关键词信息的后侧关键词信息中横坐标的最小的后侧关键词信息的横坐标作为所述第二关键点的横坐标,得到第二关键点。0017与最接近的现有技术相比,本发明具有的有益效果如下:本发明提供了一种银行回单信息提取方法和系统,包括:对获取的银行回单数据进行数据识别,将所述银行回单数据中的非结构化数据进行结构化转换,得到所述银行回单数据对应的回单字符串数据;根据所述回单字符串数据,得到银行名称;根据所述银行名称,调取。

24、所述银行名称对应的信息提取模板;根据所述银行名称对应的信息提取模板,对所述银行回单数据进行信息提取;本发明专利申请基于非结构化的银行回单信息,通过预先构建的银行回单信息提取模板,再根据模板提取关键指标信息的方法,可以有效提高回单信息提取的效率及准确率。0018本发明的其它特征将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。0019下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。附图说明0020附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施。

25、例一起用于解释本发明,并不构成对本发明的限制。在附图中:图1为本发明专利申请的一种银行回单信息提取方法的流程示意图;图2为本发明专利申请的一种银行回单信息提取方法的整体框架示意图;图3为本发明专利申请的一种银行回单信息提取方法的信息提取模板构建过程示意图;图4为本发明专利申请的一种银行回单信息提取方法的原始样本回单信息;图5为本发明专利申请的一种银行回单信息提取方法的原始样本回单信息的提取信息示意图;说明书4/13 页7CN 117540721 A7图6为本发明专利申请的一种银行回单信息提取方法的信息提取流程示意图;图7为本发明专利申请的一种银行回单信息提取方法的信息提取结果示意图;图8为本发。

26、明专利申请的一种银行回单信息提取系统的结构组成示意图。具体实施方式0021以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。0022需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序,“多个”的含义是两个或两个以上,除非另有明确具体的限定。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要。

27、素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。0023尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。0024实施例1:本发明专利申请提供了一种银行回单信息提取方法,如图1所示,包括:步骤1:对获取的银行回单数据进行数据识别,将所述银行回单数据中的非结构化数据进行结构化转换,得到所述银行回单数据对应的回单字符串数据;所述回单字符串数据的格式为字符串值,字符串坐标;步骤2:根据所述回单字符串数据,得到银行名称;步骤3:根据所述银行名称。

28、,调取所述银行名称对应的信息提取模板;步骤4:根据所述银行名称对应的信息提取模板,对所述银行回单数据进行信息提取。0025具体的,步骤1中的信息提取模板包括如下的构建过程:根据历史银行回单样本信息中不同的银行名称进行分类,得到不同的银行名称下的回单样本信息;基于预先构建的关键词库,依次在所述不同的银行名称下的回单样本信息中遍历匹配所述关键词库中的关键词信息,得到不同银行名称下匹配到的关键词信息及其所述关键词信息的坐标信息;所述关键词库中优选为当前银行回单中常用关键词组成,主要字段包括:付款人全称、付款人账号、付款人开户银行、收款人全称、收款人账号、收款人开户银行、实际支付日期、实际支付金额及用。

29、途等字段,根据这些字段,结合主要银行的回单内容,将回单中相对应的关键词及其同义词整理如下:付款人全称:付款人名称、付款人户名、付款人、账户名称,付款人账号:付款人账号、付款账号,付款人开户银行:付款人开户行,收款人全称:收款人名称、收款人户名、收款人,收款人账号:收款人账号、收款账号,说明书5/13 页8CN 117540721 A8收款人开户银行:收款人开户行,实际支付日期:交易日期、记账日期、交易时间,实际支付金额:交易金额、币种及金额、金额,用途:备注、摘要、用途、附言基于不同银行名称下匹配到的关键词信息及其所述关键词信息的坐标信息进行数据整合,得到所述关键词信息的纵坐标列表和横坐标二维。

30、数组;根据所述关键词信息的纵坐标列表和横坐标二维数组,构建信息提取模板。0026所述根据所述关键词信息的纵坐标列表和横坐标二维数组,构建信息提取模板,包括:根据所述关键词信息的纵坐标列表,依次取每一个关键词信息及其坐标信息、每一个关键词信息对应的前侧关键词信息及其坐标信息、后侧关键词及其坐标信息;基于所述每一个关键词信息及其坐标信息、每一个关键词信息对应的前侧关键词信息及其坐标信息、后侧关键词及其坐标信息,计算所述纵坐标列表中每一个关键词信息分别与前侧关键词信息、后侧关键词信息的距离比例;根据所述关键词信息的横坐标二维数据,依次取每一个关键词信息及其坐标信息、后侧关键词信息及其坐标信息;基于所。

31、述每一个关键词信息及其坐标信息、后侧关键词信息及其坐标信息,计算所述横坐标二维数组中每一个关键词信息与后侧关键词信息的距离比例;根据所述纵坐标列表中每一个关键词信息分别与前侧关键词信息、后侧关键词信息的距离比例和所述横坐标二维数组中每一个关键词信息与后侧关键词信息的距离比例,构建信息提取模板。0027基于所述每一个关键词信息及其坐标信息、每一个关键词信息对应的前侧关键词信息及其坐标信息,计算所述纵坐标列表中每一个关键词信息分别与前侧关键词信息的距离比例,包括:基于所述每一个关键词信息及其坐标信息、每一个关键词信息对应的前侧关键词信息及其坐标信息、后侧关键词及其坐标信息,将所述关键词信息与其前侧。

32、关键词信息的纵坐标之差的绝对值与所述关键词信息的行高作商作为所述纵坐标列表中关键词信息与其前侧关键词的距离比例。0028所述基于所述每一个关键词信息及其坐标信息、后侧关键词信息及其坐标信息,计算所述横坐标二维数组中每一个关键词信息与后侧关键词信息的距离比例,包括:基于所述每一个关键词信息及其坐标信息、后侧关键词信息及其坐标信息,将所述关键词信息的横坐标与后侧关键词信息的横坐标之差的绝对值与所述关键词信息的行高作商作为所述横坐标二维数组中关键词信息与后侧关键词的距离比例。0029构建信息提取模板即为了找到每个要识别提取关键词及位置,本模板主要内容为回单的模板名称,提取指标的关键词名称,及其关键词。

33、上方关键词名称,下方关键词名称和右侧关键词名称及其举例比例值(如表1)。详细步骤如下:(1)判断当前回单所属银行,识别坐标(x,y)最小的“银行”关键词,向前截取取到标点符号或空白处,记录该字符串为回单所属银行。0030(2)遍历第一步整理的关键词词库,依次在回单内容中匹配关键词,如果匹配到则说明书6/13 页9CN 117540721 A9记录并匹配下一个关键词,未匹配则记录回单并由人工补充关键词库。0031(3)记录每个匹配上的关键词及其文本框的左上坐标(x,y)及左下坐标(x1,y1);(4)对所有记录的关键词,按照y值从小到大依次排序,形成列表Y;(5)对所有记录的关键词,按照y相等,。

34、x从小到大排序,形成二维数组X;(6)从列表Y中,依次取每个关键词,及其左右相邻两个词,左侧词为其上侧关键词名称,左侧词的y1与关键词y值相减的绝对值/关键词行高(yy1的绝对值)作为与上侧关键词的距离比例,右侧记为其下侧关键词名称,右侧词的y与关键词y1值相减的绝对值/关键词行高(yy1的绝对值)作为与下侧关键词的距离比例,无值记为空;(7)从二维数组X中,依次取每个关键词的下一个词,记为其右侧关键词名称,关键词的x与右侧关键词的x值相减的绝对值/关键词行高(yy1的绝对值)作为与右侧关键词的距离比例,无值记为空;(8)对所有关键词及其位置信息,在回单模板配置表中判断是否存在,如果存在跳过,。

35、不存在存入表中,形成新的模板。0032表1 回单模板配置表字段编码字段名称数据类型ID内码STRINGTEMPLATE_NAME模板名称STRINGTEMPLATE_KEY关键词名称STRINGUP_KEY上方关键词名称STRINGUP_RANGE与上方关键词距离比例NUMBERDOWN_KEY下方关键词名称STRINGDOWN_RANGE与下方关键词距离比例NUMBERRIGHT_KEY右侧关键词名称STRINGRIGHT_RANGE与右侧关键词距离比例NUMBER步骤3,包括:基于所述关键词库,遍历所述信息提取模板中对应的关键词信息及其坐标信息、所述关键词信息的竖直上侧、竖直下侧和后侧的关。

36、键词信息及其坐标信息;根据所述关键词信息及其坐标信息和所述关键词信息的竖直上侧的关键词信息及其坐标信息,得到第一关键点;根据所述关键词信息的竖直下侧关键词信息及其坐标信息、所述关键词信息的后侧关键词信息及其坐标信息,得到第二关键点;将所述第一关键点和所述第二关键点的连线作为对角线,生成矩形;将所述矩形内的数据作为关键提取信息进行信息提取。0033所述根据所述关键词信息及其坐标信息和所述关键词信息的竖直上侧的关键词信息及其坐标信息,得到第一关键点,包括:将关键词信息中对应的横坐标最小的关键词信息的横坐标作为所述第一关键点的横坐标,将所述竖直上侧的关键词信息的纵坐标作为所述第一关键词的纵坐标,得到。

37、第一关键点。0034所述根据所述关键词信息的竖直下侧关键词信息及其坐标信息、所述关键词信息说明书7/13 页10CN 117540721 A10的后侧关键词信息及其坐标信息,得到第二关键点,包括:将关键词信息的竖直下侧关键词信息中纵坐标最大的竖直下侧关键词信息的纵坐标作为所述第二关键点的纵坐标,将关键词信息的后侧关键词信息中横坐标的最小的后侧关键词信息的横坐标作为所述第二关键点的横坐标,得到第二关键点。0035具体的,步骤3中的信息提取过程包括:首先识别“银行”关键词,找到该银行名称下所有信息提取模板,如果找到条数为0则返回重新构建信息提取模板。对于找到该银行的信息提取模板,根据模板配置表中匹。

38、配到关键词名称的数量最多的作为对应模板,按照模板找到提取关键字上侧、下侧、右侧的关键词名称和位置,取上侧关键词的下边界,下侧关键词的上边界,右侧关键词的左边界及本关键词的左边界,即可确定其边界,提取边界中内容,详细步骤如下:(1)找到银行回单的模板。识别坐标(x,y)最小的“银行”关键词,向前截取取到标点符号或空白处,获得字符串后,到模板库中找到对应的所属银行模板配置信息,如果未取到,返回重新构建信息提取模板;(2)对于该银行下所有模板,取匹配到所有关键词名称最多的模板为对应该回单模板(一家银行因为业务不同或系统不同等原因,可能存在多个不同的模板);(3)遍历模板中每个关键词;(4)取关键词及。

39、其上侧、下侧、右侧的关键词及其坐标;(5)取出关键词的x最小值和上侧关键词的y最小值(如果没有上侧关键词或者找不到,取值y =关键词的y最小值(关键词行高模板配置表中与上方关键词距离比例)),得到一个点;(6)取出下侧关键词的y最大值(如果没有下侧关键词或者找不到,取值y =关键词的y最大值+(关键词行高模板配置表中与下侧关键词的距离比例)及右侧关键词的x最小值(如果没有或者找不到,取值x =关键词x最小值+(关键词行高模板配置表中与右侧关键词的距离比例),得到一个点;(7)将两个点生成的线作为矩形对角线,形成矩形;(8)将矩形内数据取出作为关键信息;(9)完成所有关键信息提取。0036实施例。

40、2:以一个具体的实施例说明本发明专利申请提供的一种银行回单信息提取方法,如图2所示,具体包括:S1:整理银行回单中的关键词及其同义词;S2:将银行回单通过OCR算法转换为结构化字符串;S3:自动生成模板;S4:依据模板提取银行回单的关键指标;其中,步骤S3,如图3所示,包括:3.1 在图4所示回单转换的字符串中,通过“银行”找到其回单银行为“xx银行”;3.2 跟据第S1步关键词列表,提取回单中每个关键词及其位置,如图5所示,结果如下:说明书8/13 页11CN 117540721 A11付款人名称 29,189,144,189,144,213,29,213付款人账号 29,234,376,2。

41、34,376,254,29,254付款人开户行 29,274,367,272,367,294,29,296收款人名称 699,189,824,189,824,212,699,212收款人账号 699,234,1046,234,1045,261,699,255收款人开户行 699,274,1040,277,1040,297,699,294金额 318,317,415,317,415,337,318,337备注 29,360,360,360,360,381,29,381记账日期 29,148,120,148,120,169,29,1693.3取每个关键词及第一个坐标点即左上坐标点,结果如下:付款人。

42、名称 29,189付款人账号 29,234付款人开户行 29,274收款人名称 699,189收款人账号 699,234收款人开户行 699,274金额 318,317备注 29,360记账日期 29,1483.4 对所有记录的关键词,按照y值从小到大依次排序,形成列表Y:列表Y记账日期 29,148,付款人名称 29,189,收款人名称 699,189,付款人账号 29,234,收款人账号 699,234,付款人开户行 29,274,收款人开户行 699,274,金额 318,317,备注 29,360 3.5对所有记录的关键词,按照y相等,x从小到大排序,形成二维数组X:二维数组X记账日期。

43、 29,148,付款人名称 29,189,收款人名称 699,189,付款人账号 29,234,收款人账号 699,234,付款人开户行 29,274,收款人开户行 699,274,金额 318,317,备注 29,360说明书9/13 页12CN 117540721 A123.6遍历每个关键词,从列表Y中,取其关键词左右相邻两个值,左侧为其上侧值,右侧为其下侧值。如“付款人名称”,其上侧值为“记账日期”,下侧值为“付款人账号”;3.7从二维数组X中取其关键词下一个值为其右侧值,如“付款人名称”,其右侧值为“收款人名称”;3.8 遍历完所有关键词,形成该银行模板,如下表2所示;表2 xx银行回。

44、单模板配置信息内码银行名称提取指标关键词提取指标上方关键词与上方关键词距离比例提取指标下方关键词与下方关键词距离比例提取指标右侧关键词与右侧关键词距离比例1xx银行付款人名称记账日期0.83付款人账号0.88收款人名称27.922xx银行付款人账号收款人名称1.10付款人开户行1.00收款人账号33.503xx银行付款人开户行收款人账号0.65金额1.15收款人开户行33.504xx银行收款人名称记账日期0.87付款人账号0.96 5xx银行收款人账号收款人名称0.81付款人开户行0.48 6xx银行收款人开户行收款人账号0.56金额0.87 7xx银行金额收款人开户行1.00备注1.15 8。

45、xx银行记账日期 付款人名称0.95 9xx银行备注金额1.10 步骤S4,如图6所示,包括:4.1 识别“银行”关键词,通过“银行”找到其回单银行为“xx银行”,到模板库中找到对应的所属银行的信息提取模板,如下表3所示:表3 信息提取模板内码银行名称提取指标关键词提取指标上方关键词与上方关键词距离比例提取指标下方关键词与下方关键词距离比例提取指标右侧关键词与右侧关键词距离比例1xx银行1付款人名称记账日期0.83付款人账号0.88收款人名称27.922xx银行1付款人账号收款人名称1.10付款人开户行1.00收款人账号33.503xx银行1付款人开户行收款人账号0.65金额1.15收款人开户。

46、行33.504xx银行1收款人名称记账日期0.87付款人账号0.96 5xx银行1收款人账号收款人名称0.81付款人开户行0.48 6xx银行1收款人开户行收款人账号0.56金额0.87 7xx银行1金额收款人开户行1.00备注1.15 8xx银行1记账日期 付款人名称0.95 9xx银行1备注金额1.10 10 xx银行2付款人名称记账日期0.85付款人账号0.89收款人名称2711xx银行2付款人账号名称1.12付款人开户行1.08收款人账号3312xx银行2付款人开户行账号0.63金额1.25收款人开户行33.213xx银行2收款人名称记账日期0.87付款人账号0.96 14xx银行2收。

47、款人账号收款人名称0.81付款人开户行0.48 15xx银行2收款人开户行收款人账号0.56金额:(大写)0.87 16xx银行2金额:(大写)收款人开户行1.00用途1.15 17xx银行2记账日期 付款人名称0.95 18xx银行2用途金额:(大写)1.10 4.2 xx银行有两套模板,分别为xx银行1与xx银行2,模板关键词在该笔回单中,xx银行1匹配到8个关键词,xx银行2匹配到6个关键词,所以认定xx银行1为该笔回单的模板。00374.3 遍历模板中每个关键词。00384.4 取关键词及其上侧、下侧、右侧的关键词名称及其对应的坐标,如“付款人名称”对应结果如下:上侧:因为关键词被遮挡。

48、,所以未找到。0039关键词:付款人名称 29,189,144,189,144,213,29,213 右侧:说明书10/13 页13CN 117540721 A13收款人名称 699,189,824,189,824,212,699,212下侧:付款人账号 29,234,376,234,376,254,29,2544.5 取出关键词的x最小值作为横坐标值(29),因为上侧关键词没找到,所以纵坐标取值为:关键词的y最小值减去行高乘以配置表中与上方关键词距离比例即 189240.83=169,得到一个点29,169;4.6 取出右侧关键词的x最小值作为横坐标值及下侧关键值的y最大值,作为纵坐标值,得。

49、到一个点699,254;4.7 将两个点生成的线作为矩形对角线,形成矩形,四个点分别为29,169,699,169,29,254,699,254;4.8 将矩形内数据取出作为关键信息,即取出该范围内的数据为付款人名称:xxx有限公司,去除关键词及标点符号,如图7所示,最终提取关键词为:xxx有限公司。00404.9 依上述步骤,完成所有关键信息提取。0041实施例3:本发明专利申请提供了一种银行回单信息提取系统,结构组成示意图如图8所示,包括:数据转换模块:用于对获取的银行回单数据进行数据识别,并将所述银行回单数据中的非结构化数据进行结构化转换,得到所述银行回单数据对应的回单字符串数据;名称获。

50、取模块:用于根据所述回单字符串数据,得到银行名称;模板选择模块:用于根据所述银行名称,调取所述银行名称对应的信息提取模板;信息提取模块:用于根据所述银行名称对应的信息提取模板,对所述银行回单数据进行信息提取。0042所述模板选择模块中的信息提取模板包括如下的构建过程:根据历史银行回单样本信息中不同的银行名称进行分类,得到不同的银行名称下的回单样本信息;基于预先构建的关键词库,依次在所述不同的银行名称下的回单样本信息中遍历匹配所述关键词库中的关键词信息,得到不同银行名称下匹配到的关键词信息及其所述关键词信息的坐标信息;基于不同银行名称下匹配到的关键词信息及其所述关键词信息的坐标信息进行数据整合,。

展开阅读全文
内容关键字: 银行 回单 信息 提取 方法 系统
关于本文
本文标题:银行回单信息提取方法和系统.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/14523365.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1