仓储物流委托单识别方法及系统.pdf

上传人:一**** 文档编号:10688671 上传时间:2021-08-08 格式:PDF 页数:17 大小:817.30KB
收藏 版权申诉 举报 下载
仓储物流委托单识别方法及系统.pdf_第1页
第1页 / 共17页
仓储物流委托单识别方法及系统.pdf_第2页
第2页 / 共17页
仓储物流委托单识别方法及系统.pdf_第3页
第3页 / 共17页
文档描述:

《仓储物流委托单识别方法及系统.pdf》由会员分享,可在线阅读,更多相关《仓储物流委托单识别方法及系统.pdf(17页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201911269946.7 (22)申请日 2019.12.11 (71)申请人 青岛盈智科技有限公司 地址 266000 山东省青岛市崂山区深圳路 169号中创大厦7层盈智科技 (72)发明人 陈小二王营高君凯陈登虎 张秋萍盛杨周鑫段志超 马海龙 (51)Int.Cl. G06Q 10/08(2012.01) G06K 9/32(2006.01) G06K 9/62(2006.01) (54)发明名称 一种仓储物流委托单识别方法及系统 (57)摘要 本申请公开一种仓储物流委托。

2、单识别方法 及系统。 所述方法包括训练委托单版式分类模 型; 将待识别仓储物流委托单输入委托单版式分 类模型中, 确认待识别委托单的所属版式类型: 若为固定版式, 则对待识别委托书进行固定区域 框选, 从框选的固定区域中识别关键字; 若为包 括关键特征值的非固定版式, 则根据关键特征值 在待识别委托单上的相对位置动态进行区域框 选, 从框选的动态区域中识别关键字; 若为不包 括关键特征值的非固定版式, 则依据文字分块处 理原则对文字分块区域进行框选, 从框选的文字 分块区域中识别关键字; 将识别出的关键字依据 适配规则进行编码对照和数据清洗, 汇总适配结 果。 减少人工录入的工作量和失误, 实。

3、现仓储物 流管理的自动化。 权利要求书2页 说明书9页 附图5页 CN 111047261 A 2020.04.21 CN 111047261 A 1.一种仓储物流委托单识别方法, 其特征在于, 包括: 预先使用大量仓储物流委托单训练委托单版式分类模型; 当获取到待识别仓储物流委托单时, 将待识别仓储物流委托单输入所述委托单版式分 类模型中, 确认所述待识别委托单的所属版式类型: 若确认待识别委托单的所属版式类型为固定版式, 则对待识别委托书进行固定区域框 选, 从框选的固定区域中识别关键字; 若确认待识别委托单的所属版式类型为包括关键特征值的非固定版式, 则根据关键特 征值在待识别委托单上的。

4、相对位置动态进行区域框选, 从框选的动态区域中识别关键字; 若确认待识别委托单的所属格式类型为不包括关键特征值的非固定版式, 则依据文字 分块处理原则对文字分块区域进行框选, 从框选的文字分块区域中识别关键字; 对识别出的关键字依据适配规则进行编码对照和数据清洗, 汇总适配结果。 2.如权利要求1所述的仓储物流委托单识别方法, 其特征在于, 预先使用大量仓储物流 委托单训练委托单版式分类模型, 具体为: 通过预先存储的大量仓储物流委托单和/或从邮 箱中识别邮件中委托书附件的方式, 输入卷积神经网络中训练能够识别各种版式类型的委 托单版式分类模型。 3.如权利要求1或2所述的仓储物流委托单识别方。

5、法, 其特征在于, 训练委托单版式分 类模型, 具体包括如下子步骤: 将大量客户的各种版式类型的委托单作为输入向量输入卷积神经网络进行预处理; 提取各种版式类型的委托单中的局部版式特征, 汇总得到多维度的局部版式特征; 对多维度的局部版式特征进行降维处理, 进一步提取出各类委托单中的版式特征; 对各类委托单中的版式特征进行分类, 得到识别各种版式类型的委托单版式分类模 型。 4.如权利要求1所述的仓储物流委托单识别方法, 其特征在于, 若确认待识别委托单的 所属版式类型为固定版式, 则采用该类委托单对应的预先设置的固定区域进行框选, 从框 选的固定区域中识别关键字。 5.如权利要求1所述的仓储。

6、物流委托单识别方法, 其特征在于, 若确认待识别委托单的 所属版式类型为包括关键特征值的非固定版式, 执行如下操作: 步骤S1、 获取委托单中的首个关键特征值作为当前关键特征值; 步骤S2、 识别委托单中当前关键特征值的下一特征值; 步骤S3、 将当前关键特征值至下一特征值之间的区域作为当前关键特征值的框选区 域; 步骤S4、 从框选区域中识别关键字, 并将当前关键特征值的下一特征值作为当前关键 特征值, 返回执行步骤S2。 6.如权利要求5所述的仓储物流委托单识别方法, 其特征在于, 所述步骤S3具体包括如 下子步骤: 根据当前关键特征值和向下方向的下一特征值确定矩形框选区域的上下边缘; 将。

7、当前关键特征值所在位置向左偏移预定位移的位置作为矩形框选区域的左边缘; 将当前关键特征值的向右方向的下一特征值所在位置将向左偏移约定位移的位置作 为矩形框选区域的右边缘。 权利要求书 1/2 页 2 CN 111047261 A 2 7.如权利要求1所述的仓储物流委托单识别方法, 其特征在于, 若确认待识别委托单的 所属格式类型为不包括关键特征值的非固定版式, 则从委托单中获取当前行区域, 对当前 行区域相邻的四个方向进行识别, 确定关键段落区域的矩形边缘位置, 具体包括: 上边缘: 从首行区域开始识别, 关键段落框选的矩形上边缘即为首行区域的上边缘; 在 识别出某一关键段落之后, 下一关键段。

8、落框选的上边缘即为上一关键段落框选的下边缘; 下边缘: 获取当前行区域向下方向的下一行, 确定下一行与当前行的间距, 若超过预设 距离, 则确定关键段落框选的矩形下边缘即为当前行区域的下边缘; 若在预设距离之内则 将当前行区域的下一行作为当前行区域, 继续再向下获取直至行间距超过预设距离时确定 关键段落框选的矩形下边缘; 左边缘: 在矩形上下边缘的区域内若不存在已经框选过的矩形区域, 则将该区域最左 侧字符所在位置向左偏移约定位移的位置作为矩形框选区域的左边缘, 若存在已经框选过 的矩形区域, 则将前一框选的矩形区域的右边缘作为本次矩形框选区域的左边缘; 右边缘: 在矩形框选区域的上下边缘内,。

9、 检测每一行中每个字符的间距, 若存在字符间 距超过预定宽度且超过值最小的行, 将该行超过预定宽度前的字符所在位置向右偏移约定 位移后的位置作为矩形框选区域的右边缘; 若右侧没有字符则直接将最右侧字符所在位置 向右偏移约定位移的位置作为矩形框选区域的右边缘。 8.如权利要求1所述的仓储物流委托单识别方法, 其特征在于, 将识别出的关键字依据 适配规则进行编码对照和数据清洗, 具体包括如下子步骤: 将识别出的特定关键字进行编码对照, 将特定关键字转化为唯一的编码标识; 将识别出的符合正则表达式的关键字进行数据清洗, 从中提取数值。 9.一种仓储物流委托单识别系统, 其特征在于, 包括仓储物流委托。

10、单识别子系统、 邮件 提取委托单子系统和适配结果管理子系统; 所述仓储物流委托单识别子系统执行如权利要求1-8中任一项所述的仓储物流委托单 识别方法; 所述邮件提取委托单子系统用于自动收取邮件并自动从邮件中提取待识别委托单附 件, 将待识别委托单输入所述仓储物流委托单识别子系统进行识别处理; 所述适配结果管理子系统用于将适配结果存入数据库中, 或对接客户业务系统提供的 API接口, 将适配结果直接录入业务系统中。 10.如权利要求9所述的仓储物流委托单识别系统, 其特征在于, 所述仓储物流委托单 识别子系统还用于将来自邮件提取委托单子系统的委托单重新输入卷积神经网络中训练 委托单版式分类模型。。

11、 权利要求书 2/2 页 3 CN 111047261 A 3 一种仓储物流委托单识别方法及系统 技术领域 0001 本申请涉及仓储管理的技术领域, 尤其涉及一种仓储物流委托单识别方法及系 统。 背景技术 0002 在物流运输环节, 特别是国际进出口物流业务中, 业务过程中产生大量的仓储物 流委托单, 然而由于来自全球各地的空运及海运单据的类型非常多, 所以行业内对客户单 据没有统一格式标准, 一般客户都会依据自家公司需求填写各种格式复杂多变的委托单。 0003 针对小一些的物流公司可能有几十上百中格式的物流文档; 中型和大型的物流公 司的客户可能有上万个, 每天需要处理上万份文档的流转, 需。

12、要处理的文档的格式之多, 录 入工作程序繁琐, 需要大量的消耗大量的人力。 同时人工处理容易出错, 出错后排查错误的 过程异常艰辛。 因此亟需一种能够自动识别各种版式仓储物流委托单的方法, 减少人工处 理的繁琐, 提高信息录入的效率。 发明内容 0004 本申请提供一种仓储物流委托单识别方法, 包括: 0005 预先使用大量仓储物流委托单训练委托单版式分类模型; 0006 当获取到待识别仓储物流委托单时, 将待识别仓储物流委托单输入所述委托单版 式分类模型中, 确认所述待识别委托单的所属版式类型: 0007 若确认待识别委托单的所属版式类型为固定版式, 则对待识别委托书进行固定区 域框选, 从。

13、框选的固定区域中识别关键字; 0008 若确认待识别委托单的所属版式类型为包括关键特征值的非固定版式, 则根据关 键特征值在待识别委托单上的相对位置动态进行区域框选, 从框选的动态区域中识别关键 字; 0009 若确认待识别委托单的所属格式类型为不包括关键特征值的非固定版式, 则依据 文字分块处理原则对文字分块区域进行框选, 从框选的文字分块区域中识别关键字; 0010 将识别出的关键字依据适配规则进行编码对照和数据清洗, 汇总适配结果。 0011 如上所述的仓储物流委托单识别方法, 其中预先使用大量仓储物流委托单训练委 托单版式分类模型, 具体为: 通过预先存储的大量仓储物流委托单和/或从邮。

14、箱中识别邮件 中委托书附件的方式, 输入卷积神经网络中训练能够识别各种版式类型的委托单版式分类 模型。 0012 如上所述的仓储物流委托单识别方法, 其中训练委托单版式分类模型, 具体包括 如下子步骤: 0013 将大量客户的各种版式类型的委托单作为输入向量输入卷积神经网络进行预处 理; 0014 提取各种版式类型的委托单中的局部版式特征, 汇总得到多维度的局部版式特 说明书 1/9 页 4 CN 111047261 A 4 征; 0015 对多维度的局部版式特征进行降维处理, 进一步提取出各类委托单中的版式特 征; 0016 对各类委托单中的版式特征进行分类, 得到识别各种版式类型的委托单版。

15、式分类 模型。 0017 如上所述的仓储物流委托单识别方法, 其中若确认待识别委托单的所属版式类型 为固定版式, 则采用该类委托单对应的预先设置的固定区域进行框选, 从框选的固定区域 中识别关键字。 0018 如上所述的仓储物流委托单识别方法, 其中若确认待识别委托单的所属版式类型 为包括关键特征值的非固定版式, 执行如下操作: 0019 步骤S1、 获取委托单中的首个关键特征值作为当前关键特征值; 0020 步骤S2、 识别委托单中当前关键特征值的下一特征值; 0021 步骤S3、 将当前关键特征值至下一特征值之间的区域作为当前关键特征值的框选 区域; 0022 步骤S4、 从框选区域中识别。

16、关键字, 并将当前关键特征值的下一特征值作为当前 关键特征值, 返回执行步骤S2。 0023 如上所述的仓储物流委托单识别方法, 其中所述步骤S3具体包括如下子步骤: 0024 根据当前关键特征值和向下方向的下一特征值确定矩形框选区域的上下边缘; 0025 将当前关键特征值所在位置向左偏移预定位移的位置作为矩形框选区域的左边 缘; 0026 将当前关键特征值的向右方向的下一特征值所在位置将向左偏移约定位移的位 置作为矩形框选区域的右边缘。 0027 如上所述的仓储物流委托单识别方法, 其中若确认待识别委托单的所属格式类型 为不包括关键特征值的非固定版式, 则从委托单中获取当前行区域, 对当前行。

17、区域相邻的 四个方向进行识别, 确定关键段落区域的矩形边缘位置, 具体包括: 0028 上边缘: 从首行区域开始识别, 关键段落框选的矩形上边缘即为首行区域的上边 缘; 在识别出某一关键段落之后, 下一关键段落框选的上边缘即为上一关键段落框选的下 边缘; 0029 下边缘: 获取当前行区域向下方向的下一行, 确定下一行与当前行的间距, 若超过 预设距离, 则确定关键段落框选的矩形下边缘即为当前行区域的下边缘; 若在预设距离之 内则将当前行区域的下一行作为当前行区域, 继续再向下获取直至行间距超过预设距离时 确定关键段落框选的矩形下边缘; 0030 左边缘: 在矩形上下边缘的区域内若不存在已经框。

18、选过的矩形区域, 则将该区域 最左侧字符所在位置向左偏移约定位移的位置作为矩形框选区域的左边缘, 若存在已经框 选过的矩形区域, 则将前一框选的矩形区域的右边缘作为本次矩形框选区域的左边缘; 0031 右边缘: 在矩形框选区域的上下边缘内, 检测每一行中每个字符的间距, 若存在字 符间距超过预定宽度且超过值最小的行, 将该行超过预定宽度前的字符所在位置向右偏移 约定位移后的位置作为矩形框选区域的右边缘; 若右侧没有字符则直接将最右侧字符所在 位置向右偏移约定位移的位置作为矩形框选区域的右边缘。 说明书 2/9 页 5 CN 111047261 A 5 0032 如上所述的仓储物流委托单识别方法。

19、, 其中将识别出的关键字依据适配规则进行 编码对照和数据清洗, 具体包括如下子步骤: 0033 将识别出的特定关键字进行编码对照, 将特定关键字转化为唯一的编码标识; 0034 将识别出的符合正则表达式的关键字进行数据清洗, 从中提取数值。 0035 本申请还提供一种仓储物流委托单识别系统, 包括仓储物流委托单识别子系统、 邮件提取委托单子系统和适配结果管理子系统; 0036 所述仓储物流委托单识别子系统执行上述任一项所述的仓储物流委托单识别方 法; 0037 所述邮件提取委托单子系统用于自动收取邮件并自动从邮件中提取待识别委托 单附件, 将待识别委托单输入所述仓储物流委托单识别子系统进行识别。

20、处理; 0038 所述适配结果管理子系统用于将适配结果存入数据库中, 或对接客户业务系统提 供的API接口, 将适配结果直接录入业务系统中。 0039 如上所述的仓储物流委托单识别系统, 其中所述仓储物流委托单识别子系统还用 于将来自邮件提取委托单子系统的委托单重新输入卷积神经网络中训练委托单版式分类 模型。 0040 本申请实现的有益效果如下: 0041 (1)采用本申请提供的仓储物流委托单识别方法及系统既能够识别出具有标准版 式的委托单, 而且能够识别出各种没有标准规格的仓储物流委托单; 0042 (2)对于识别出的不同版式的委托单采用不同的处理方法能够准确识别其中的关 键字, 提高关键信。

21、息提取的准确率; 0043 (3)本申请从委托单的邮件收取-版式识别-关键信息提取-关键信息汇总管理 的一系列操作全部为自动化处理, 减少了人工录入的繁琐工作量, 降低了人工录入的错误, 且提高了处理大量委托单的效率, 实现仓储物流管理的自动化。 附图说明 0044 为了更清楚地说明本发明实施例或现有技术中的技术方案, 下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍, 显而易见地, 下面描述中的附图仅仅是本 发明中记载的一些实施例, 对于本领域普通技术人员来讲, 还可以根据这些附图获得其他 的附图。 0045 图1为本申请实施例一提供的一种仓储物流委托单识别方法流程图; 0046。

22、 图2为训练委托单版式分类模型的具体操作流程图; 0047 图3为固定版式类型的委托单示例图; 0048 图4为包括关键特征值的非固定版式类型的委托单示例图; 0049 图5为不包括关键特征值的非固定版式类型的委托单示例图; 0050 图6为本申请实施例二提供的一种仓储物流委托单识别系统示意图。 具体实施方式 0051 实施例一 0052 由于在现有的物流运输业务中, 仓储物流委托单的种类非常非常多, 而且客户提 说明书 3/9 页 6 CN 111047261 A 6 供的单据又没有统一的标准格式, 各家都是按照自己的撰写习惯和需求来填写格式复杂的 委托单。 本申请的申请人研究发现, 虽然委。

23、托单的格式不尽相同但是会存在一定的规律可 循, 例如, 有些客户的委托单格式比较固定, 有些客户虽然委托单格式不固定但是一般委托 单里会写明发件人信息、 收件人信息、 港口信息、 货物信息等常用信息, 也有些客户虽然委 托单中没有常用的关键词但是每个信息之间书写规格基本相似。 0053 因此针对现有的大量不同格式的仓储物流委托单, 本申请实施例一提供一种仓储 物流委托单识别方法, 如图1所述, 包括如下步骤: 0054 步骤110、 基于卷积神经网络预先使用大量仓储物流委托单训练委托单版式分类 模型; 0055 在本申请实施例中, 通过预先存储的大量仓储物流委托单和/或从邮箱中识别邮 件中委托。

24、书附件的方式, 输入卷积神经网络中以训练能够识别各种版式类型的委托单版式 分类模型; 此外当通过邮件等方式接收到新的客户委托单时将委托单输入卷积神经网络中 作进一步训练, 以提高分类模型的准确率; 0056 具体地, 训练委托单版式分类模型, 如图2所示, 具体包括如下子步骤: 0057 步骤210、 将大量客户的各种版式类型的委托单作为输入向量输入卷积神经网络 进行预处理; 0058 本申请以客户的唯一名称/标识以及客户的各种委托书版式类型作为卷积神经网 络待训练的特征, 通过卷积神经网络的训练能够识别出不同客户的不同版式类型。 0059 步骤220、 提取各种版式类型的委托单中的局部版式特。

25、征, 汇总得到多维度的局部 版式特征; 0060 其中, 版式特征包括但不限于文字方向梯度直方图特征、 行间分布特征与行内字 符间特征等; 0061 本申请实施例中, 由委托单中的信息构建向量矩阵D, 然后在卷积神经网络的卷积 层利用一维卷积核wRa*h对向量矩阵D进行特征提取, 获得特征值Cn, 其中a表示向量的维 度, h表示一维卷积核窗口的大小; 0062 具体地, 利用如下公式在卷积层中提取版式特征: 0063 0064 其中, n表示卷积运算的次数, m表示卷积核的个数, h表示一维卷积核的窗口大小, n:n+h-1表示n到n+h-1, f()表示非线性激活函数,表示卷积核的共享权重。

26、和向量矩阵 的对应运算, x表示向量矩阵的输入值, w表示权重, b表示偏差值。 0065 步骤230、 对多维度的局部版式特征进行降维处理, 进一步提取出各类委托单中的 版式特征; 0066 本申请实施例中, 将卷积层提取出的版式特征输入卷积神经网络的池化层, 池化 层的作用是对特征作进一步提取, 将特征映射的最大值作为最重要的特征提取出来, 从而 获得委托单中的版式特征, 对所有的特征映射池化降维后得到一个一维向量。 0067 具体地, 在池化层中用如下公式进一步提取特征值: 0068 pvmaxCn (公式2) 0069 其中n表示卷积运算的次数; 通过池化层的采样, 将通过卷积获得的特。

27、征进一步分 类, 防止过拟合并增强结构的鲁棒性。 说明书 4/9 页 7 CN 111047261 A 7 0070 步骤240、 对各类委托单中的版式特征进行分类, 得到识别各种版式类型的委托单 版式分类模型; 0071 本申请实施例中, 将池化层输出的各类委托单的版式特征输入卷积神经网络的全 连接层进行特征分类, 并引入损失函数来提高模型的预测精准度和使用效率, 输出识别各 种版式类型的委托单版式分类模型; 0072 可选地, 本实施例的分类模型采用先识别出委托单所属客户, 然后再识别委托单 版式类型的方式进行训练和识别, 其中识别出的委托单版式大体分为两大类, 即固定版式 类型和非固定版。

28、式类型, 且固定版式类型和非固定版式类型下均包括多种版式子类; 0073 其中, 固定版式类型指的是关键特征值位置固定且格式固定的委托单, 固定版式 类型包括多种固定版式子类; 如图3所示, 图3为某一客户的其中一种固定版式类型委托单, 从图中可见Shipper发货人、 Consignee收货人、 Notify Party被通知人、 Place of Receipt 收货地、 Port of Loading(装货港)、 Place of Delivery(交货地点)等加粗字体均为委托 单中的关键特征值, 该客户的此类委托单的版式是固定的。 0074 非固定版式类型具体可以分为两类, 即包括关键。

29、特征值的非固定版式类型和不包 括关键特征值的非固定版式类别; 0075 图4为某一客户的其中一种包括关键特征值的非固定版式类型, 如图4所示, 虽然 图4没有像图3的委托书一样具有固定格式, 但是图4的委托书中均包括类似SHIPPPER、 CNEE、 NOTIFY PARTY、 PORT OF LOADING、 DESCRIPTION等关键特征值; 0076 图5为某一客户的其中一种不包括关键特征值的非固定版式类型, 如图5所示, 虽 然图5没有像图3的委托书一样具有固定格式, 也没有像图4的委托书一样具有关键特征值, 但图5的委托单中的关键段落是按照较大间隔来区分的, 而且根据日常委托单形式。

30、可知每 个关键段落的含义; 0077 另外需要说明的是, 委托单中的关键特征值并非固定字符, 在训练模型时对于不 同描述的关键特征值也进行训练, 例如关键特征值Consignee或CNEE等字符经模型训练均 作为含义为 “收货人” 的关键特征值; 而且对于新委托单中出现的新的关键特征值在输入卷 积神经网络后也可训练为可以识别的关键特征值。 0078 返回参见图1, 步骤120、 当获取到待识别仓储物流委托单时, 将待识别仓储物流委 托单输入所述委托单版式分类模型中, 确认所述待识别委托单的所属版式类型: 0079 具体地, 当待识别仓储物流委托单输入委托单版式分类模型之后, 识别出该委托 单的。

31、所属客户和该客户下的所属版式类型, 具体包括如下几种情形: 0080 (1)若确认待识别委托单的所属版式类型为固定版式, 则对待识别委托书进行固 定区域框选, 从框选的固定区域中识别关键字, 执行步骤130; 0081 对于确定出版式类型比较固定的委托单, 采用该类委托单对应的预先设置的固定 区域进行框选, 从框选的固定区域中识别关键字, 例如识别出A客户的A-1类固定版式的委 托单, 采用预先为该类客户的该类版式设置的固定区域进行关键段落框选, 然后利用OCR技 术从框选的区域中识别出关键字; 对于如图3的固定版式委托单, 按照预先设定的长宽确定 的矩形对关键段落进行框选, 即图上虚线框, 。

32、然后从每个虚线框里识别内部关键字。 需要说 明的是, 对于识别出的不同客户的不同固定版式, 预先设置长宽不同的矩形框进行关键段 落框选。 说明书 5/9 页 8 CN 111047261 A 8 0082 (2)若确认待识别委托单的所属版式类型为包括关键特征值的非固定版式, 则根 据关键特征值在待识别委托单上的相对位置动态进行区域框选, 从框选的动态区域中识别 关键字, 执行步骤130; 0083 具体地, 关键特征值包括但不限于发件人、 收件人、 港口信息、 货物信息等委托单 常用关键词; 对于识别出委托单版式类型为包括关键特征值的非固定版式时, 执行如下操 作: 0084 步骤S1、 利用。

33、OCR技术获取委托单中的首个关键特征值作为当前关键特征值; 0085 步骤S2、 继续利用OCR技术识别委托单中当前关键特征值的下一特征值; 0086 其中, 当前关键特征值的下一特征值包括当前关键特征值向下方向的下一特征值 和当前关键特征值向右方向的下一特征值。 0087 步骤S3、 将当前关键特征值至下一特征值之间的区域作为当前关键特征值的框选 区域; 0088 具体地, 先根据当前关键特征值和向下方向的下一特征值确定矩形框选区域的上 下边缘; 然后确定矩形框选区域的左右边缘: 按照书写习惯一般在上一行与下一行具有关 联关系时行左侧位置差距一般不超过预定值(如50mm), 将当前关键特征值。

34、所在位置作为矩 形框选区域的左边缘, 并将当前关键特征值的向右方向的下一特征值所在位置作为矩形框 选区域的右边缘; 0089 可选地, 为了防止出现框选区域不能框全文字, 优选当前关键特征值向左偏移预 定位移(该预设位移可根据实际需要设置为050mm的任一数据)的位置作为矩形框选区域 的左边缘, 将当前关键特征值的向右方向的下一特征值所在位置将向左偏移约定位移的位 置作为矩形框选区域的右边缘。 0090 步骤S4、 从框选区域中识别关键字, 并将当前关键特征值的下一特征值作为当前 关键特征值, 返回执行步骤S2; 0091 例如, 图4所示的包括关键特征值的非固定版式, 先识别出首个关键特征值。

35、 SHIPPER, 然后再依序识别出下一个关键特征值CNEE, 然后就可以确定发货人的关键段落所 在矩形框的上下边缘在SHIPPER和CNEE之间(如图中虚线所示), 然后将当前关键特征值 SHIPPER向左偏移预定位移的位置作为矩形框选区域的左边缘, 然后确定当前关键特征值 SHIPPER向右方向的下一关键特征值为DEMAND, 将DEMAND所在位置向左偏移约定位移的置 位作为矩形框选区域的右边缘; 图4中其他关键特征值采用上述同样方式确定矩形框选区 域, 图上未示出在此不作赘述。 0092 (3)若确认待识别委托单的所属格式类型为不包括关键特征值的非固定版式, 则 依据文字分块处理原则对。

36、文字分块区域进行框选, 从框选的文字分块区域中识别关键字, 执行步骤130; 0093 经研究发现的普遍情况是某一客户在撰写没有关键特征值的委托单时, 委托单上 的段落代表的含义均是根据习惯设定好的, 例如第一段落为发货人信息, 第二段落为收货 人信息, 第三段落为港口信息等, 因此在大量委托单输入卷积神经网络进行训练学习时 对于此类不包括关键特征值的非固定版式的委托单能够识别出各段落位置代表的实际含 义。 0094 具体地, 对于没有关键特征值的委托单, 从委托单中获取当前行区域(先识别委托 说明书 6/9 页 9 CN 111047261 A 9 单的首行区域作为当前行区域, 识别出关键段。

37、落后再将下一段落的首行作为当前行区域), 然后对当前行区域相邻的四个方向进行识别, 确定该关键段落区域的矩形边缘位置, 具体 包括: 0095 上边缘: 从首行区域开始识别, 关键段落框选的矩形上边缘即为首行区域的上边 缘; 在识别出某一关键段落之后, 下一关键段落框选的上边缘即为上一关键段落框选矩形 的下边缘; 0096 下边缘: 获取当前行区域向下方向的下一行, 确定下一行与当前行的间距, 若超过 预设距离, 则确定关键段落框选的矩形下边缘即为当前行区域的下边缘; 若在预设距离之 内则将当前行区域的下一行作为当前行区域, 继续返回再向下获取直至行间距超过预设距 离时确定关键段落框选的矩形下。

38、边缘; 0097 左边缘: 按照书写习惯一般在上一行与下一行具有关联关系时行左侧位置差距一 般不超过预定值(如100mm), 在矩形上下边缘的区域内若不存在已经框选过的矩形区域, 则 将该区域最左侧字符所在位置向左偏移约定位移的位置作为矩形框选区域的左边缘, 若存 在已经框选过的矩形区域, 则将前一框选的矩形区域的右边缘作为本次矩形框选区域的左 边缘; 0098 右边缘: 在矩形框选区域的上下边缘内, 检测每一行中每个字符的间距, 若存在字 符间距超过预定宽度并且从超过预定宽度的行中找超过值最小的行, 将该行超过预定宽度 前的字符所在位置向右偏移约定位移后的位置作为矩形框选区域的右边缘; 若右。

39、侧没有字 符则直接将最右侧字符所在位置向右偏移约定位移的位置作为矩形框选区域的右边缘。 0099 例如, 图5所示的不包括关键特征值的非固定版式, 先识别出首行 “E company请订 T船公司” , 然后向下识别出行间距大于预定距离的行 “F company” , 由此确定矩形框的上边 缘为行 “E company请订T船公司” 之上、 下边缘为行 “F company” 之上(如图中虚线所示); 之 后在该区域内不存在已经框选的矩形区域, 故确定本次框选的矩形区域的左边缘为该区域 最左字符 “Q” 所在位置向左偏移约定位移的位置作为矩形框选区域的左边缘; 之后确定本 次矩形框的右边缘, 。

40、即找到该区域内每一行的字符间距超过预定距离而且超过值最小的 行, 即行 “SHANDONG, CHINA” , 然后将该行的最后字符 “A” 所在位置向右偏移约定位移后的位 置作为矩形框选区域的右边缘。 在确定该矩形框(此处称为第一矩形框)之后, 该第一矩形 框向右的区域由于检测到之前存在第一矩形框, 故右区域确定的矩形(此处称为第二矩形 框)左边缘为第一矩形框的右边缘, 第二矩形框的右侧没有字符故直接将最右侧字符 “港” 所在位置向右偏移约定位移的位置作为矩形框选区域的右边缘。 图5中其他区域采用上述 同样方式确定矩形框选区域, 图上未示出在此不作赘述。 0100 此外, 进一步地, 除上述。

41、对版式的处理外, 本申请对委托单中出现的其他重要信息 也需要进行特殊识别, 例如识别委托单中的 “FREIGHTPREPAID(运费预付)” 、“不显示在提单 上面” 等重要信息, 在识别到委托单上有客户特殊需求时需要依据客户特殊需求进行特定 业务处理。 另外对于委托单中识别出的类似 “: ” 等具有解释含义的字符时可以将该字符前 后的信息进行对应存储。 0101 返回参见图1, 步骤130、 将识别出的关键字依据适配规则进行编码对照和数据清 洗, 汇总适配结果; 0102 可选地, 由于本申请所述的委托单中在应用在港口货运时委托单中会包括类似港 说明书 7/9 页 10 CN 1110472。

42、61 A 10 口名称的专用词汇, 而港口名称在文字描述时可能会存在差异, 因此在识别出类似港口名 称的关键字后, 需要对关键字进行编码对照, 将关键字转化为唯一的编码标识; 0103 另外, 对于委托单中的货物信息一般会包括有箱型、 箱量、 箱重等信息, 例如 1x40RH 50kg, 表示40尺50kg的1个冷藏柜, 通常需要将此类信息依据适配规则进行数据清 洗, 从货物信息对应的正则表达式 “.*d+Xd2A-Z2.*” 中提取出其中的数值, 得到 箱量为1、 箱型为40HQ、 箱重(单位kg)为50; 0104 对于适配结果本申请可以依据实际应用场景进行数据分配, 例如可以将汇总结果 。

43、存入数据库中, 或者也可以对接客户业务系统提供的API接口, 直接将适配结果录入业务系 统中。 0105 实施例二 0106 本申请实施例二提供一种仓储物流委托单识别系统, 如图6所示, 包括仓储物流委 托单识别子系统610、 邮件提取委托单子系统620和适配结果管理子系统630; 0107 仓储物流委托单识别子系统610执行实施例一所述的仓储物流委托单识别方法; 0108 邮件提取委托单子系统620用于自动收取邮件并自动从邮件中提取待识别委托单 附件, 将待识别委托单输入所述仓储物流委托单识别子系统进行识别处理; 0109 适配结果管理子系统630用于将适配结果存入数据库中, 或对接客户业务。

44、系统提 供的API接口, 将适配结果直接录入业务系统中。 0110 具体地, 仓储物流委托单识别子系统610具体包括: 0111 委托单版式分类模型训练模块611, 用于预先使用大量仓储物流委托单训练委托 单版式分类模型; 0112 委托单版式识别处理模块612, 用于当获取到待识别仓储物流委托单时, 将待识别 仓储物流委托单输入所述委托单版式分类模型中, 确认所述待识别委托单的所属版式类 型: 0113 若确认待识别委托单的所属版式类型为固定版式, 则对待识别委托书进行固定区 域框选, 从框选的固定区域中识别关键字; 0114 若确认待识别委托单的所属版式类型为包括关键特征值的非固定版式, 。

45、则根据关 键特征值在待识别委托单上的相对位置动态进行区域框选, 从框选的动态区域中识别关键 字; 0115 若确认待识别委托单的所属格式类型为不包括关键特征值的非固定版式, 则依据 文字分块处理原则对文字分块区域进行框选, 从框选的文字分块区域中识别关键字; 0116 适配结果管理模块613, 用于将识别出的关键字依据适配规则进行编码对照和数 据清洗, 汇总适配结果。 0117 进一步地, 邮件提取委托单子系统620中从邮件中识别委托单具体为自动收取邮 件, 然后从邮件中自动识别具有 “委托书” 、“委托单” 等字样的邮件, 然后从该邮件中查找附 件, 从中提取委托单, 然后邮件提取委托单子系。

46、统将提取的委托单发送至仓储物流委托单 识别子系统610中进行训练和识别; 0118 对应地, 仓储物流委托单识别子系统610在识别确定邮件中的委托单为合法委托 单时, 还用于将来自邮件提取委托单子系统的委托单重新输入卷积神经网络(即委托单版 式分类模型训练模块611)中训练委托单版式分类模型。 说明书 8/9 页 11 CN 111047261 A 11 0119 尽管已描述了本申请的优选实施例, 但本领域内的技术人员一旦得知了基本创造 性概念, 则可对这些实施例作出另外的变更和修改。 所以, 所附权利要求意欲解释为包括优 选实施例以及落入本申请范围的所有变更和修改。 虽然本申请公开的是委托单。

47、的识别方法 和系统, 但是对于具有不同版式的其他物流单据均可以通过本申请的识别方法进行识别, 显然, 本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范 围。 这样, 倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内, 则 本申请也意图包含这些改动和变型在内。 说明书 9/9 页 12 CN 111047261 A 12 图1 图2 说明书附图 1/5 页 13 CN 111047261 A 13 图3 说明书附图 2/5 页 14 CN 111047261 A 14 图4 说明书附图 3/5 页 15 CN 111047261 A 15 图5 说明书附图 4/5 页 16 CN 111047261 A 16 图6 说明书附图 5/5 页 17 CN 111047261 A 17 。

展开阅读全文
内容关键字: 仓储 物流 委托 识别 方法 系统
关于本文
本文标题:仓储物流委托单识别方法及系统.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10688671.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1