通用动车票数据集生成方法、装置、计算机装置及计算机可读存储介质.pdf

上传人:T****z 文档编号:10677653 上传时间:2021-08-08 格式:PDF 页数:19 大小:1.30MB
收藏 版权申诉 举报 下载
通用动车票数据集生成方法、装置、计算机装置及计算机可读存储介质.pdf_第1页
第1页 / 共19页
通用动车票数据集生成方法、装置、计算机装置及计算机可读存储介质.pdf_第2页
第2页 / 共19页
通用动车票数据集生成方法、装置、计算机装置及计算机可读存储介质.pdf_第3页
第3页 / 共19页
文档描述:

《通用动车票数据集生成方法、装置、计算机装置及计算机可读存储介质.pdf》由会员分享,可在线阅读,更多相关《通用动车票数据集生成方法、装置、计算机装置及计算机可读存储介质.pdf(19页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201911369534.0 (22)申请日 2019.12.26 (71)申请人 湖南星汉数智科技有限公司 地址 410000 湖南省长沙市高新开发区岳 麓西大道588号芯城科技园8栋1301房 (72)发明人 周忠诚郭建京符颖黄九鸣 张圣栋陈晖 (51)Int.Cl. G06T 11/60(2006.01) G06T 3/40(2006.01) H04N 5/262(2006.01) H04N 5/265(2006.01) (54)发明名称 一种通用动车票数据集生成方法、 装。

2、置、 计 算机装置及计算机可读存储介质 (57)摘要 本发明适用于互联网技术领域, 提供了一种 通用动车票数据集生成方法、 装置、 计算机装置 及计算机可读存储介质, 该方法包括: 获取N张动 车票图像, 将N张动车票图像的票面关键信息去 掉, 得到N张动车票背景图像; 获取K组动车票票 面词条, 将K组动车票票面词条中的每一组动车 票票面词条分别写入N张动车票背景图像, 得到K N张动车票合成图像; 获取L张通用背景图像, 将KN张动车票合成图像中的每一张动车票合 成图像旋转缩放, 并将每一张旋转缩放后的动车 票合成图像分别黏贴至L张通用背景图像的粘贴 区域, 得到KNL张动车票样本图像。 。

3、本发明提 供的通用动车票数据集生成方法, 可提高动车票 样本图像的生成速率。 权利要求书2页 说明书10页 附图6页 CN 111179379 A 2020.05.19 CN 111179379 A 1.一种通用动车票数据集生成方法, 其特征在于, 所述通用动车票数据集生成方法包 括: 获取N张动车票图像, 将所述N张动车票图像的票面关键信息去掉, 得到N张动车票背景 图像; 获取K组动车票票面词条, 将所述K组动车票票面词条中的每一组动车票票面词条分别 写入所述N张动车票背景图像, 得到KN张动车票合成图像; 所述每一组动车票票面词条包 括票面关键信息; 获取L张通用背景图像, 将所述KN张。

4、动车票合成图像中的每一张动车票合成图像旋 转缩放, 并将每一张旋转缩放后的动车票合成图像分别黏贴至所述L张通用背景图像的粘 贴区域, 得到KNL张动车票样本图像。 2.根据权利要求1所述的通用动车票数据集生成方法, 其特征在于, 所述将所述N张动 车票图像的票面关键信息去掉, 得到N张动车票背景图像, 包括以下过程: 将所述N张动车票图像的票面关键信息用动车票背景图像替换, 得到N张动车票背景图 像, 所述票面关键信息包括车站名、 车次号、 乘车人姓名、 发车时间、 座位号、 动车票价格、 身 份证号。 3.根据权利要求1所述的通用动车票数据集生成方法, 其特征在于, 所述将所述K组动 车票票。

5、面词条中的每一组动车票票面词条分别写入所述N张动车票背景图像, 得到KN张 动车票合成图像, 包括以下过程: 获取标准动车票图像, 记录所述标准动车票图像的票面关键信息的位置信息及文字样 式; 根据所述票面关键信息的位置信息及文字样式, 将选取得到的K组词条中的每一组动 车票面词条分别写入所述N张动车票背景图像, 得到KN张动车票合成图像, 记录所述动车 票合成图像的票面关键信息的位置信息以及票面关键信息所占长宽。 4.根据权利要求1所述的通用动车票数据集生成方法, 其特征在于, 所述得到KNL 张动车票样本图像之后, 还包括以下过程: 根据动车票合成图像的票面关键信息的位置信息、 票面关键信。

6、息所占长宽、 动车票合 成图像的旋转角度、 缩放比例, 以及动车票合成图像在通用背景图像的粘贴位置, 确定通用 动车票样本图像的票面关键信息的位置信息。 5.一种通用动车票数据集生成装置, 其特征在于, 所述通用动车票数据集生成装置包 括: 获取模块, 获取N张动车票图像, 将所述N张动车票图像的票面关键信息去掉, 得到N张 动车票背景图像; 写入模块, 用于获取K组动车票票面词条, 将所述K组动车票票面词条中的每一组动车 票票面词条分别写入所述N张动车票背景图像, 得到KN张动车票合成图像, 所述每一组动 车票票面词条包括票面关键信息; 处理模块, 用于获取L张通用背景图像, 将所述KN张动。

7、车票合成图像中的每一张动车 票合成图像旋转缩放, 并将每一张旋转缩放后的动车票合成图像分别黏贴至所述L张通用 背景图像的粘贴区域, 得到KNL张动车票样本图像。 6.根据权利要求5所述的通用动车票数据集生成装置, 其特征在于, 所述获取模块, 还 权利要求书 1/2 页 2 CN 111179379 A 2 用于将所述N张动车票图像的票面关键信息用动车票背景图像替换, 得到N张动车票背景图 像, 所述票面关键信息包括车站名、 车次号、 乘车人姓名、 发车时间、 座位号、 动车票价格、 身 份证号。 7.根据权利要求6所述的通用动车票数据集生成装置, 其特征在于, 所述写入模块包 括: 获取子模。

8、块, 用于获取标准动车票图像, 记录所述标准动车票图像的票面关键信息的 位置信息及文字样式; 写入子模块, 用于根据所述票面关键信息的位置信息及文字样式, 将选取得到的K组词 条中的每一组动车票面词条分别写入所述N张动车票背景图像, 得到KN张动车票合成图 像, 记录所述动车票合成图像的票面关键信息的位置信息以及票面关键信息所占长宽。 8.根据权利要求6所述的通用动车票数据集生成装置, 其特征在于, 还包括: 确定模块, 用于根据动车票合成图像的票面关键信息的位置信息、 票面关键信息所占 长宽、 动车票合成图像的旋转角度、 缩放比例, 以及动车票合成图像在通用背景图像的粘贴 位置, 确定通用动。

9、车票样本图像的票面关键信息的位置信息。 9.一种计算机装置, 其特征在于, 所述计算机装置包括处理器, 所述处理器用于执行存 储器中计算机程序时实现如权利要求1-4中任意一项所述通用动车票数据集生成方法的步 骤。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于: 所述计算机程序 被处理器执行时实现如权利要求1-4中任意一项所述通用动车票数据集生成方法的步骤。 权利要求书 2/2 页 3 CN 111179379 A 3 一种通用动车票数据集生成方法、 装置、 计算机装置及计算机 可读存储介质 技术领域 0001 本发明属于互联网技术领域, 尤其涉及一种通用动车票数据集生成方。

10、法、 装置、 计 算机装置及计算机可读存储介质。 背景技术 0002 常规的目标检测与物体识别数据集有很多, 但是, 基于常规数据集训练的分类器, 在动车票图像上检测效果并不好。 主要原因是动车票图像有特殊的背景和特定字体的字 符。 目前没有公开的动车票数据集, 网上仅提供少量的动车票图像, 现有技术中存在动车票 样本图像不足, 以及人工采集动车票图像和标注动车票图像的成本大等问题。 发明内容 0003 本发明实施例提供一种通用动车票数据集生成方法, 旨在解决现有技术中存在动 车票样本图像不足, 以及人工采集动车票图像和标注动车票图像的成本大等问题。 0004 本发明是这样实现的, 一种通用动。

11、车票数据集生成方法, 包括: 0005 获取N张动车票图像, 将所述N张动车票图像的票面关键信息去掉, 得到N张动车票 背景图像; 0006 获取K组动车票票面词条, 将所述K组动车票票面词条中的每一组动车票票面词条 分别写入所述N张动车票背景图像, 得到KN张动车票合成图像, 所述每一组动车票票面词 条包括票面关键信息; 0007 获取L张通用背景图像, 将所述KN张动车票合成图像中的每一张动车票合成图 像旋转缩放, 并将每一张旋转缩放后的动车票合成图像分别黏贴至所述L张通用背景图像 的粘贴区域, 得到KNL张动车票样本图像。 0008 可选的, 所述将所述N张动车票图像的票面信息去掉, 得。

12、到N张动车票背景图像, 包 括以下过程: 0009 将所述N张动车票图像的票面关键信息用动车票背景图像替换, 得到N张动车票背 景图像, 所述票面关键信息包括车站名、 车次号、 乘车人姓名、 发车时间、 座位号、 动车票价 格、 身份证号。 0010 可选的, 所述将所述K组动车票票面词条中的每一组动车票票面词条分别写入所 述N张动车票背景图像, 得到KN张动车票合成图像, 包括以下过程: 0011 获取标准动车票图像, 记录所述标准动车票图像的票面关键信息的位置信息及文 字样式; 0012 根据所述票面关键信息的位置信息及文字样式, 将选取得到的K组词条中的每一 组动车票面词条分别写入所述N。

13、张动车票背景图像, 得到KN张动车票合成图像, 记录所述 动车票合成图像的票面关键信息的位置信息以及票面关键信息所占长宽。 0013 可选的, 所述得到KNL张动车票样本图像之后, 还包括以下过程: 说明书 1/10 页 4 CN 111179379 A 4 0014 根据动车票合成图像的票面关键信息的位置信息、 票面关键信息所占长宽、 动车 票合成图像的旋转角度、 缩放比例, 以及动车票合成图像在通用背景图像的粘贴位置, 确定 通用动车票样本图像的票面关键信息的位置信息。 0015 本发明还提供一种通用动车票数据集生成装置, 包括: 0016 获取模块, 获取N张动车票图像, 将所述N张动车。

14、票图像的票面关键信息去掉, 得到 N张动车票背景图像; 0017 写入模块, 用于获取K组动车票票面词条, 将所述K组动车票票面词条中的每一组 动车票票面词条分别写入所述N张动车票背景图像, 得到KN张动车票合成图像, 所述每一 组动车票票面词条包括票面关键信息; 0018 处理模块, 用于获取L张通用背景图像, 将所述KN张动车票合成图像中的每一张 动车票合成图像旋转缩放, 并将每一张旋转缩放后的动车票合成图像分别黏贴至所述L张 通用背景图像的粘贴区域, 得到KNL张动车票样本图像。 0019 可选的, 所述获取模块, 还用于将所述N张动车票图像的票面关键信息用动车票背 景图像替换, 得到N。

15、张动车票背景图像, 所述票面关键信息包括车站名、 车次号、 乘车人姓 名、 发车时间、 座位号、 动车票价格、 身份证号。 0020 可选的, 所述写入模块包括: 0021 获取子模块, 用于获取标准动车票图像, 记录所述标准动车票图像的票面关键信 息的位置信息及文字样式; 0022 写入子模块, 用于根据所述票面关键信息的位置信息及文字样式, 将选取得到的K 组词条中的每一组动车票面词条分别写入所述N张动车票背景图像, 得到KN张动车票合 成图像, 记录所述动车票合成图像的票面关键信息的位置信息以及票面关键信息所占长 宽。 0023 可选的, 所述通用动车票数据集生成装置还包括: 0024 。

16、确定模块, 用于根据动车票合成图像的票面关键信息的位置信息、 票面关键信息 所占长宽、 动车票合成图像的旋转角度、 缩放比例, 以及动车票合成图像在通用背景图像的 粘贴位置, 确定通用动车票样本图像的票面关键信息的位置信息。 0025 本发明还提供一种计算机装置, 所述计算机装置包括处理器, 所述处理器用于执 行存储器中计算机程序时实现如上述所述通用动车票数据集生成方法的步骤。 0026 本发明还提供一种计算机可读存储介质, 其上存储有计算机程序, 所述计算机程 序被处理器执行时实现如上述所述通用动车票数据集生成方法的步骤。 0027 本发明提供的通用动车票数据集生成方法, 通过获取N张动车票。

17、图像, 将所述N张 动车票图像的票面关键信息去掉, 得到N张动车票背景图像; 获取K组动车票票面词条, 将所 述K组动车票票面词条中的每一组动车票票面词条分别写入所述N张动车票背景图像, 得到 KN张动车票合成图像, 所述每一组动车票票面词条包括票面关键信息; 获取L张通用背景 图像, 将所述KN张动车票合成图像中的每一张动车票合成图像旋转缩放, 并将每一张旋 转缩放后的动车票合成图像分别黏贴至所述L张通用背景图像的粘贴区域, 得到KNL张 动车票样本图像。 这样, 可以通过较少的动车票图像生成大量的动车票样本图像, 大量的动 车票样本图像可以作为动车票数据集, 从而减少动车票数据集获取方面的。

18、人工投入, 在生 成动车票样本图像的过程中记录了票面关键信息的位置信息, 便于后续对动车票样本图像 说明书 2/10 页 5 CN 111179379 A 5 进行数据标注工作, 可以减少标注过程的人工成本, 提高了动车票样本图像的生成速率, 以 及提高了对动车票样本图像进行标注的准确度。 附图说明 0028 图1是本发明实施例提供的通用动车票数据集生成方法的实现流程图; 0029 图2本发明实施例提供的动车票的示意图; 0030 图3本发明实施例提供的动车票背景图像的示意图; 0031 图4本发明实施例提供的动车票合成图像的示意图; 0032 图5本发明实施例提供的通用背景图像的示意图; 0。

19、033 图6本发明实施例提供的动车票样本图像的示意图; 0034 图7是本发明实施提供的将所述K组动车票票面词条中的每一组动车票票面词条 分别写入所述N张动车票背景图像, 得到KN张动车票合成图像的流程示意图; 0035 图8本发明实施例提供的通用动车票数据集生成装置的结构示意图; 0036 图9是本发明实施提供的写入模块的结构示意图; 0037 图10是本发明实施例提供的另一通用动车票数据集生成装置的结构示意图。 具体实施方式 0038 为了使本发明的目的、 技术方案及优点更加清楚明白, 以下结合附图及实施例, 对 本发明进行进一步详细说明。 应当理解, 此处所描述的具体实施例仅仅用以解释本。

20、发明, 并 不用于限定本发明。 0039 图1所示为本发明实施例提供的通用动车票数据集生成方法的实现流程图。 该通 用动车票数据集生成方法包括以下过程: 0040 步骤S101, 获取N张动车票图像, 将所述N张动车票图像的票面关键信息去掉, 得到 N张动车票背景图像。 0041 在本实施例中, N张动车票图像可以通过网络获取, 也可以通过人工扫描得到。 为 了保证动车票图像的实时性及丰富度, 要求动车票图像为时间较近、 包含新旧程度不一, 票 面完好的动车票图像。 请参阅图2, 图2的动车票图像200包括: 起始站衡阳东站201、 终点站 长沙南站202、 发车时间 “2018年02月11日。

21、21:55” 203、 票价204、 身份证号 “4304261992*0933” 205、 姓名 “张三” 206、 识别码207、 座位信息208、 车次信息209。 0042 举例来说, 步骤S101可以包括以下过程: 将N张动车票扫描得到高清晰的、 尽量没 有噪声的动车票图像, 利用修图软件将N张动车票图像上的票面关键信息用动车票图像的 背景区域替换, 得到所需的动车票背景图像。 0043 可选的, 在该步骤S101中所述将所述N张动车票图像的票面关键信息去掉, 得到N 张动车票背景图像, 包括以下过程: 0044 将所述N张动车票图像的票面关键信息用动车票背景图像替换, 得到N张动车。

22、票背 景图像, 所述票面关键信息包括车站名、 车次号、 乘车人姓名、 发车时间、 座位号、 动车票价 格、 身份证号。 0045 举例来说, 将图2所示动车票图像200中的起始站衡阳东站201、 终点站长沙南站 说明书 3/10 页 6 CN 111179379 A 6 202、 发车时间 “2018年02 月11日21:55” 203、 票价204、 身份证号 “4304261992*0933” 205、 姓名 “张三” 206等信息用背景图像替换, 可以得到相应的动车 票背景图像。 请参阅图3, 图3所示的动车票背景图像300包括背景图形301及识别码302, 其 中, 背景图形301可以。

23、遍布整个动车票背景图像300所占的界面。 0046 这样, 可以得到清晰完整的动车票背景图像, 便于后续生成动车票合成图像。 0047 步骤S102, 获取K组动车票票面词条, 将所述K组动车票票面词条中的每一组动车 票票面词条分别写入所述N张动车票背景图像, 得到KN张动车票合成图像, 所述每一组动 车票票面词条包括票面关键信息。 0048 在本实施例中, 符号 “” 表示乘号。 步骤S102中所述获取K组动车票票面词条, 可 以包括以下过程: 步骤S1, 收集动车票使用的字体样式; 步骤S2, 收集所有动车站名, 生成车 站名词条集; 步骤S3, 收集百家姓与常用名, 生成姓名词条集; 步。

24、骤S4, 枚举动车发车时间, 生成发车时间词条集; 根据动车票上价格格式, 生成价格词条集; 步骤S5, 根据身份证格式 产生身份证号, 将身份证号倒数第8位数至倒数第5位数用信号 “*” 替换, 生成身份证词条 集; 步骤S6, 从所述车站名词条集、 所述姓名词条集、 所述发车时间词条集、 价格词条集身份 证词条集中分别选取一个词条, 组成一组动车票票面词条, 步骤S7, K次重复步骤S6, 得到K 组动车票票面词条。 0049 可选的, 请参阅图4, 步骤S102中所述将所述K组动车票票面词条中的每一组动车 票票面词条分别写入所述N张动车票背景图像, 得到KN张动车票合成图像, 包括以下过。

25、 程: 0050 S1021, 获取标准动车票图像, 检测所述标准动车票图像的票面关键信息的位置信 息及文字样式; 0051 S1022, 根据所述票面关键信息的位置信息及文字样式, 将选取得到的K组词条中 的每一组动车票面词条分别写入所述N张动车票背景图像, 得到KN张动车票合成图像, 记 录所述动车票合成图像的票面关键信息的位置信息以及票面关键信息所占长宽。 0052 在本实施例中, 步骤S1021包括以下过程: 选取一张没有折叠和扭曲的动车票图 像, 利用修图软件将获取的动车票图像摆正, 裁剪至动车票边界, 即去除图像中动车票以外 区域, 得到摆正裁剪好的动车票图像, 记为标准动车票图像。

26、; 检测所述标注动车票图像的票 面关键信息的文字样式及位置信息, 其中, 所述文字样式包括字体格式及字体大小等信息, 票面关键信息的位置信息可以为关键信息的起始位置、 关键信息所占区域的中心位置等信 息。 比如起始站、 终点站、 车次号等关键信息所占区域的中心位置。 0053 在本实施例中, 步骤S1022包括以下过程: 将选取得到的K组词条中的每一组动车 票面词条分别写入所述N张动车票背景图像中与所述票面关键信息的位置信息相对应的区 域, 得到KN张动车票合成图像, 其中, 写入的票面关键性的字体样式与所述获取的字体样 式一致; 记录所述动车票合成图像的票面关键信息的位置信息以及票面关键信息。

27、所占长 宽。 0054 这样, 按照标准动车票图像的文字样式将动车票面词条写入动车票背景图像的相 应位置, 该位置与票面关键信息在标准动车票图像的位置信息相对应, 从而使得动车票合 成图像与标准动车票图像具有相同文字样式、 动车票合成图像的关键信息填写位置与标准 动车票图像的关键信息填写位置相同, 这样模拟生成的动车票合成图像与现实生活中的动 说明书 4/10 页 7 CN 111179379 A 7 车票具有相同的排版格式和文字样式, 与动车票实际情况更接近。 0055 请参阅图5, 动车票合成图像500包括起始站广州南501、 终点站长沙南站502、 发车 时间 “2018年10月08日1。

28、1:14” 503、 票价504、 身份证号 “6015565266*5262” 505、 姓名 “张植书” 506、 识别码507、 座位号 “08车12D号” 508及车次号 “G1138” 509。 0056 步骤S103, 获取L张通用背景图像, 将所述KN张动车票合成图像中的每一张动车 票合成图像旋转缩放, 并将每一张旋转缩放后的动车票合成图像分别黏贴至所述L张通用 背景图像的粘贴区域, 得到KNL张动车票样本图像。 0057 在本实施例中, 通用背景图像的作用是模拟通过人工拍摄过程中动车票图片周围 除动车票图像以外区域。 请参阅图6, 图6所示的通用背景图像600包括边框区域601。

29、及粘贴 区域602, 由于后续需要将动车票图像旋转缩放后放入粘贴区域602, 所以粘贴区域602的长 度及宽度要比动车票图像的长度及宽度大, 例如, 粘贴区域602长度可以为动车票图像的长 度的两倍, 粘贴区域602宽度可以为动车票图像的宽度的两倍。 0058 在本实施例中, 将K*N张动车票合成图像随机旋转、 缩放后, 得到K*N张旋转缩放后 的动车票合成图像, 并将每一张旋转缩放后的动车票合成图像分别黏贴至L张通用背景图 像的粘贴区域, 得到KNL张动车票样本图像。 为确保旋转缩放后的动车票合成图像能完 整地黏贴在通用背景图像的黏贴区域, 所述每一张旋转缩放后的动车票合成图像的尺寸小 于或。

30、等于所述L张通用背景图像的粘贴区域的尺寸。 其中, 旋转角度及缩放倍数可以自定义 设定, 只需要确保旋转缩放后的动车票合成图像的尺寸小于或等于所述L张通用背景图像 的粘贴区域的尺寸即可。 请参阅图7, 图7所示的动车票样本图像700包括边框区域701、 粘贴 区域702以及动车票合成图像703, 所示动车票合成图像703粘贴在粘贴区域702上。 0059 可选的, 在步骤S103之后, 还可以包括以下过程: 0060 根据动车票合成图像的票面关键信息的位置信息、 票面关键信息所占长宽、 动车 票合成图像的旋转角度、 缩放比例, 以及动车票合成图像在通用背景图像的粘贴位置, 确定 通用动车票样本。

31、图像的票面关键信息的位置信息。 0061 在本实施例中, 所示通用动车票样本图像的票面关键信息的位置信息包括以下过 程: 0062 步骤S11, 通过动车票合成图像的票面关键信息的位置信息、 票面关键信息所占长 宽, 计算动车票合成图像的票面关键信息的中心位置; 0063 步骤S12, 已知动车票合成图像的旋转角度、 缩放比例, 及动车票合成图像的票面 关键信息的中心位置, 利用旋转矩阵求得旋转后关键信息坐标, 公式如下: 0064 0065 其中, 代表动车票合成图像的旋转角度, (x, y)代表旋转前关键信息中心位置, (x1, y1)代表旋转后关键信息中心位置。 0066 步骤S13, 。

32、已知缩放比例p, 缩放后关键信息中心位置(x2, y2)为: 0067 x2x1p 0068 y2y1p 0069 步骤S14, 已知在通用背景图像粘贴位置为(x0, y0), 若通用动车票上关键信息中心 说明书 5/10 页 8 CN 111179379 A 8 位置为(x3, y3), 则: 0070 x3x2+x0 0071 y3y2+y0 0072 将动车票样本图像上关键信息中心位置以及对应信息记录下来。 0073 这样, 通过记录通用动车票样本图像的票面关键信息的位置信息, 可以提供对检 测通用动车票样本图像的票面关键信息所用到的训练数据和测试数据, 节约标注时间, 提 高标注效率。。

33、 0074 本发明提供的通用动车票数据集生成方法, 通过通过获取N张动车票图像, 将所述 N张动车票图像的票面关键信息去掉, 得到N张动车票背景图像; 获取K组动车票票面词条, 将所述K组动车票票面词条中的每一组动车票票面词条分别写入所述N张动车票背景图像, 得到KN张动车票合成图像, 所述每一组动车票票面词条包括票面关键信息; 获取L张通用 背景图像, 将所述KN张动车票合成图像中的每一张动车票合成图像旋转缩放, 并将每一 张旋转缩放后的动车票合成图像分别黏贴至所述L张通用背景图像的粘贴区域, 得到KN L张动车票样本图像。 这样, 可以通过较少的动车票图像生成大量的动车票样本图像, 大 量。

34、的动车票样本图像可以作为动车票数据集, 从而减少动车票数据集获取方面的人工投 入, 在生成动车票样本图像的过程中记录了票面关键信息的位置信息, 便于后续对动车票 样本图像进行数据标注工作, 可以减少标注过程的人工成本, 提高了动车票样本图像的生 成速率, 以及提高了对动车票样本图像进行标注的准确度。 0075 图8示出了本发明实施例提供的一种通用动车票数据集生成装置800的结构示意 图, 为了便于说明, 仅示出了于本发明实施相关的部分。 该通用动车票数据集生成装置800 包括: 0076 获取模块801, 用于获取N张动车票图像, 将所述N张动车票图像的票面关键信息去 掉, 得到N张动车票背景。

35、图像。 0077 在本实施例中, N张动车票图像可以通过网络获取, 也可以通过人工扫描得到。 为 了保证动车票图像的实时性及丰富度, 要求动车票图像为时间较近、 包含新旧程度不一, 票 面完好的动车票图像。 请参阅图2, 图2的动车票图像200包括: 起始站衡阳东站201、 终点站 长沙南站202、 发车时间 “2018年02月11日21:55” 203、 票价204、 身份证号 “4304261992*0933” 205、 姓名 “张三” 206、 识别码207、 座位信息208、 车次信息209。 0078 举例来说, 获取模块801, 用于将N张动车票扫描得到高清晰的、 尽量没有噪声的动。

36、 车票图像, 利用修图软件将N张动车票图像上的票面关键信息用动车票图像的背景区域替 换, 得到所需的动车票背景图像。 0079 可选的, 获取模块801, 还用于将所述N张动车票图像的票面关键信息用动车票背 景图像替换, 得到N张动车票背景图像, 所述票面关键信息包括车站名、 车次号、 乘车人姓 名、 发车时间、 座位号、 动车票价格、 身份证号。 0080 举例来说, 将图2所示动车票图像200中的起始站衡阳东站201、 终点站长沙南站 202、 发车时间 “2018年02 月11日21:55” 203、 票价204、 身份证号 “4304261992*0933” 205、 姓名 “张三” 。

37、206等信息用背景图像替换, 可以得到相应的动车 票背景图像。 请参阅图3, 图3所示的动车票背景图像300包括背景图形301及识别码302, 其 说明书 6/10 页 9 CN 111179379 A 9 中, 背景图形301可以遍布整个动车票背景图像300所占的界面。 0081 这样, 可以得到清晰完整的动车票背景图像, 便于后续生成动车票合成图像。 0082 写入模块802, 用于获取K组动车票票面词条, 将所述K组动车票票面词条中的每一 组动车票票面词条分别写入所述N张动车票背景图像, 得到KN张动车票合成图像, 所述每 一组动车票票面词条包括票面关键信息。 0083 在本实施例中, 。

38、符号 “” 表示乘号。 写入模块802, 具体用于收集动车票使用的字 体样式; 收集所有动车站名, 生成车站名词条集; 收集百家姓与常用名, 生成姓名词条集; 枚 举动车发车时间, 生成发车时间词条集; 根据动车票上价格格式, 生成价格词条集; 根据身 份证格式产生身份证号, 将身份证号倒数第8位数至倒数第5位数用信号 “*” 替换, 生成身份 证词条集; 从所述车站名词条集、 所述姓名词条集、 所述发车时间词条集、 价格词条集身份 证词条集中分别选取一个词条, 组成一组动车票票面词条, K次重复前述的从所述车站名词 条集、 所述姓名词条集、 所述发车时间词条集、 价格词条集身份证词条集中分别。

39、选取一个词 条, 组成一组动车票票面词条, 得到K组动车票票面词条。 0084 可选的, 请参阅图9, 写入模块802包括: 0085 获取子模块8021, 获取标准动车票图像, 检测所述标准动车票图像的票面关键信 息的位置信息及文字样式; 0086 写入子模块8022, 根据所述票面关键信息的位置信息及文字样式, 将选取得到的K 组词条中的每一组动车票面词条分别写入所述N张动车票背景图像, 得到KN张动车票合 成图像, 记录所述动车票合成图像的票面关键信息的位置信息以及票面关键信息所占长 宽。 0087 获取子模块8021, 具体用于选取一张没有折叠和扭曲的动车票图像, 利用修图软 件将获取。

40、的动车票图像摆正, 裁剪至动车票边界, 即去除图像中动车票以外区域, 得到摆正 裁剪好的动车票图像, 记为标准动车票图像; 检测所述标注动车票图像的票面关键信息的 文字样式及位置信息, 其中, 所述文字样式包括字体格式及字体大小等信息, 票面关键信息 的位置信息可以为关键信息的起始位置、 关键信息所占区域的中心位置等信息。 比如起始 站、 终点站、 车次号等关键信息所占区域的中心位置。 0088 写入子模块8022, 具体用于将选取得到的K组词条中的每一组动车票面词条分别 写入所述N张动车票背景图像中与所述票面关键信息的位置信息相对应的区域, 得到KN 张动车票合成图像, 其中, 写入的票面关。

41、键性的字体样式与所述获取的字体样式一致; 记录 所述动车票合成图像的票面关键信息的位置信息以及票面关键信息所占长宽。 0089 这样, 按照标准动车票图像的文字样式将动车票面词条写入动车票背景图像的相 应位置, 该位置与票面关键信息在标准动车票图像的位置信息相对应, 从而使得动车票合 成图像与标准动车票图像具有相同文字样式、 动车票合成图像的关键信息填写位置与标准 动车票图像的关键信息填写位置相同, 这样模拟生成的动车票合成图像与现实生活中的动 车票具有相同的排版格式和文字样式, 与动车票实际情况更接近。 0090 请参阅图5, 动车票合成图像500包括起始站广州南501、 终点站长沙南站50。

42、2、 发车 时间 “2018年10月08日11:14” 503、 票价504、 身份证号 “6015565266*5262” 505、 姓名 “张植书” 506、 识别码507、 座位号 “08车12D号” 508及车次号 “G1138” 509。 0091 处理模块803, 用于获取L张通用背景图像, 将所述KN张动车票合成图像中的每 说明书 7/10 页 10 CN 111179379 A 10 一张动车票合成图像旋转缩放, 并将每一张旋转缩放后的动车票合成图像分别黏贴至所述 L张通用背景图像的粘贴区域, 得到KNL张动车票样本图像。 0092 在本实施例中, 通用背景图像的作用是模拟通过。

43、人工拍摄过程中动车票图片周围 除动车票图像以外区域。 请参阅图6, 图6所示的通用背景图像600包括边框区域601及粘贴 区域602, 由于后续需要将动车票图像旋转缩放后放入粘贴区域602, 所以粘贴区域602的长 度及宽度要比动车票图像的长度及宽度大, 例如, 粘贴区域602长度可以为动车票图像的长 度的两倍, 粘贴区域602宽度可以为动车票图像的宽度的两倍。 0093 在本实施例中, 将K*N张动车票合成图像随机旋转、 缩放后, 得到K*N张旋转缩放后 的动车票合成图像, 并将每一张旋转缩放后的动车票合成图像分别黏贴至L张通用背景图 像的粘贴区域, 得到KNL张动车票样本图像。 为确保旋转。

44、缩放后的动车票合成图像能完 整地黏贴在通用背景图像的黏贴区域, 所述每一张旋转缩放后的动车票合成图像的尺寸小 于或等于所述L张通用背景图像的粘贴区域的尺寸。 其中, 旋转角度及缩放倍数可以自定义 设定, 只需要确保旋转缩放后的动车票合成图像的尺寸小于或等于所述L张通用背景图像 的粘贴区域的尺寸即可。 请参阅图7, 图7所示的动车票样本图像700包括边框区域701、 粘贴 区域702以及动车票合成图像703, 所示动车票合成图像703粘贴在粘贴区域702上。 0094 请参阅图10, 通用动车票数据集生成装置800还包括: 0095 确定模块804, 用于根据动车票合成图像的票面关键信息的位置信。

45、息、 票面关键信 息所占长宽、 动车票合成图像的旋转角度、 缩放比例, 以及动车票合成图像在通用背景图像 的粘贴位置, 确定通用动车票样本图像的票面关键信息的位置信息。 0096 在本实施例中, 所述确定模块804确定通用动车票样本图像的票面关键信息的位 置信息包括以下过程: 0097 步骤S11, 通过动车票合成图像的票面关键信息的位置信息、 票面关键信息所占长 宽, 计算动车票合成图像的票面关键信息的中心位置; 0098 步骤S12, 已知动车票合成图像的旋转角度、 缩放比例, 及动车票合成图像的票面 关键信息的中心位置, 利用旋转矩阵求得旋转后关键信息坐标, 公式如下: 0099 010。

46、0 其中, 代表动车票合成图像的旋转角度, (x, y)代表旋转前关键信息中心位置, (x1, y1)代表旋转后关键信息中心位置。 0101 步骤S14, 已知缩放比例p, 缩放后关键信息中心位置(x2, y2)为: 0102 x2x1p 0103 y2y1p 0104 4)已知在通用背景图像粘贴位置为(x0, y0), 若通用动车票上关键信息中心位置为 (x3, y3), 则: 0105 x3x2+x0 0106 y3y2+y0 0107 将动车票样本图像上关键信息中心位置以及对应信息记录下来。 0108 这样, 通过记录通用动车票样本图像的票面关键信息的位置信息, 可以提供对检 说明书 8。

47、/10 页 11 CN 111179379 A 11 测通用动车票样本图像的票面关键信息所用到的训练数据和测试数据, 节约标注时间, 提 高标注效率。 0109 本发明提供的通用动车票数据集生成装置, 通过通过获取N张动车票图像, 将所述 N张动车票图像的票面关键信息去掉, 得到N张动车票背景图像; 获取K组动车票票面词条, 将所述K组动车票票面词条中的每一组动车票票面词条分别写入所述N张动车票背景图像, 得到KN张动车票合成图像, 所述每一组动车票票面词条包括票面关键信息; 获取L张通用 背景图像, 将所述KN张动车票合成图像中的每一张动车票合成图像旋转缩放, 并将每一 张旋转缩放后的动车票。

48、合成图像分别黏贴至所述L张通用背景图像的粘贴区域, 得到KN L张动车票样本图像。 这样, 可以通过较少的动车票图像生成大量的动车票样本图像, 大 量的动车票样本图像可以作为动车票数据集, 从而减少动车票数据集获取方面的人工投 入, 在生成动车票样本图像的过程中记录了票面关键信息的位置信息, 便于后续对动车票 样本图像进行数据标注工作, 可以减少标注过程的人工成本, 提高了动车票样本图像的生 成速率, 以及提高了对动车票样本图像进行标注的准确度。 0110 本发明实施例提供一种计算机装置, 该计算机装置包括处理器, 处理器用于执行 存储器中计算机程序时实现上述各个方法实施例提供的通用动车票数据。

49、集生成方法的步 骤。 0111 示例性的, 计算机程序可以被分割成一个或多个模块, 一个或者多个模块被存储 在存储器中, 并由处理器执行, 以完成本发明。 一个或多个模块可以是能够完成特定功能的 一系列计算机程序指令段, 该指令段用于描述计算机程序在计算机装置中的执行过程。 例 如, 计算机程序可以被分割成上述各个方法实施例提供的通用动车票数据集生成方法的步 骤。 0112 本领域技术人员可以理解, 上述计算机装置的描述仅仅是示例, 并不构成对计算 机装置的限定, 可以包括比上述描述更多或更少的部件, 或者组合某些部件, 或者不同的部 件, 例如可以包括输入输出设备、 网络接入设备、 总线等。。

50、 0113 所称处理器可以是中央处理单元(Central Processing Unit, CPU), 还可以是其 他通用处理器、 数字信号处理器(Digital Signal Processor, DSP)、 专用集成电路 (Application Specific Integrated Circuit, ASIC)、 现成可编程门阵列(Field- Programmable Gate Array, FPGA)或者其他可编程逻辑器件、 分立门或者晶体管逻辑器件、 分立硬件组件等。 通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器 等, 所述处理器是所述计算机装置的控制中心, 利用。

展开阅读全文
内容关键字: 通用 车票 数据 生成 方法 装置 计算机 可读 存储 介质
关于本文
本文标题:通用动车票数据集生成方法、装置、计算机装置及计算机可读存储介质.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10677653.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1