终端机跳变数据的剔除方法及装置.pdf

上传人:倪** 文档编号:11490134 上传时间:2021-09-30 格式:PDF 页数:11 大小:599.96KB
收藏 版权申诉 举报 下载
终端机跳变数据的剔除方法及装置.pdf_第1页
第1页 / 共11页
终端机跳变数据的剔除方法及装置.pdf_第2页
第2页 / 共11页
终端机跳变数据的剔除方法及装置.pdf_第3页
第3页 / 共11页
文档描述:

《终端机跳变数据的剔除方法及装置.pdf》由会员分享,可在线阅读,更多相关《终端机跳变数据的剔除方法及装置.pdf(11页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910333774.9 (22)申请日 2019.04.24 (71)申请人 广东联合电子服务股份有限公司 地址 510000 广东省广州市天河区体育西 路189号15楼 (72)发明人 马根峰陈喆郑泽波黄小明 (74)专利代理机构 广州市越秀区哲力专利商标 事务所(普通合伙) 44288 代理人 郭佳利彭诗萍 (51)Int.Cl. G06F 16/215(2019.01) G08G 1/065(2006.01) (54)发明名称 一种终端机跳变数据的剔除方法及装置 (5。

2、7)摘要 本发明公开了一种终端机跳变数据的剔除 方法, 包括以下步骤: 获取选定时间范围内收费 点各PSAM卡中终端机交易序列号, 并根据各PSAM 卡的终端机交易序列号得到选定时间范围交易 数量; 计算选定时间范围内各收费点的平均车流 量; 判断PSAM卡在选定时间范围内的交易数量是 否大于对应收费点的平均车流量, 如果是, 则判 断对应PSAM卡中数据出现异常跳变并剔除对应 的发生跳变的终端机交易序列号。 本发明还公开 了一种终端机跳变数据的剔除装置。 本发明的终 端机跳变数据的剔除方法通过判断选定时间范 围内交易数量与平均车辆量的大小进而判断是 否出现需要剔除的异常数据, 通过剔除异常数。

3、据 为后续滞留数据判断提供更为准确的数据集。 权利要求书2页 说明书5页 附图3页 CN 110083594 A 2019.08.02 CN 110083594 A 1.一种终端机跳变数据的剔除方法, 其特征在于, 包括以下步骤: 获取步骤: 获取选定时间范围内收费点各PSAM卡中终端机交易序列号, 并根据各PSAM 卡的终端机交易序列号得到选定时间范围交易数量; 计算步骤: 计算选定时间范围内各收费点的平均车流量; 第一判断步骤: 判断PSAM卡在选定时间范围内的交易数量是否大于对应收费点的平均 车流量, 如果是, 则判断对应PSAM卡中数据出现异常跳变并剔除对应的发生跳变的终端机 交易序列。

4、号。 2.如权利要求1所述的一种终端机跳变数据的剔除方法, 其特征在于, 所述获取步骤具 体为: 获取选定时间范围内收费点各PSAM卡中终端机交易序列号, 并统计得到终端机交易 序列号的最大值、 最小值和平均值, 根据最大值和最小值计算得到交易数量; 所述判断步骤具体的: 判断PSAM卡在选定时间范围内的交易数量是否大于1.5倍的平 均车流量, 如果是, 则判断对应PSAM卡中数据出现异常跳变并剔除对应的发生跳变的终端 机交易序列号。 3.如权利要求2所述的一种终端机跳变数据的剔除方法, 其特征在于, 在第一判断步骤 中判断为是之后, 还包括更新步骤: 将最大值减去1作为修正后的最大值, 最小。

5、值加1作为修 改正后的最小值; 根据修正后的最大值和最小值更新对应的终端机交易序列号的最大值、 最小值和平均值, 并判断所有交易序列号是否处于最大值与最小值这个有效区间内, 如果 否, 则剔除对应的数据。 4.如权利要求1-3中任意一项所述的一种终端机跳变数据的剔除方法, 其特征在于, 在 所述获取步骤之后还包括第二判断步骤: 判断所有终端机交易序列号是否大于预设值, 如 果是, 则执行计算步骤, 如果否, 则剔除对应数据。 5.如权利要求4所述的一种终端机跳变数据的剔除方法, 其特征在于, 所述预设值为零 或者所述预设值为5。 6.如权利要求2所述的一种终端机跳变数据的剔除方法, 其特征在于。

6、, 在第一判断步骤 之后还包括第三判断步骤: 判断最大值是否大于两倍的平均值, 如果是, 则判断发生了异常 跳变并剔除对应的终端机交易序列号, 如果否, 则没有发生异常跳变。 7.如权利要求2所述的一种终端机跳变数据的剔除方法, 其特征在于, 所述收费点为各 收费站; 在第一判断步骤之后还包括预警步骤: 根据公式计算得到未上传数量和未上传比 例, 当所述未上传数量大于20或者未上传比例大于5, 则进行数据滞留预警; 未上传数量理论数量-实际数量, 未上传比例未上传数量/实际数量; 理论数量最大值-最小值+1, 实际数量通过统计剔除数据之后的终端机交易序列号 的数量得到。 8.一种终端机跳变数据。

7、的剔除装置, 其特征在于, 包括如下模块: 获取模块: 用于获取选定时间范围内收费点各PSAM卡中终端机交易序列号, 并根据各 PSAM卡的终端机交易序列号得到选定时间范围交易数量; 计算模块: 用于计算选定时间范围内各收费点的平均车流量; 第一判断模块: 用于判断PSAM卡在选定时间范围内的交易数量是否大于平均车流量, 如果是, 则判断对应PSAM卡中数据出现异常跳变并剔除对应的发生跳变的终端机交易序列 号。 权利要求书 1/2 页 2 CN 110083594 A 2 9.一种电子设备, 包括存储器、 处理器以及存储在存储器上并可在处理器上运行的计 算机程序, 其特征在于, 所述处理器执行。

8、所述计算机程序时实现权利要求1-8中任意一项所 述的一种终端机跳变数据的剔除方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于: 所述计算机程序 被处理器执行时实现如权利要求1-8任意一项所述的一种终端机跳变数据的剔除方法。 权利要求书 2/2 页 3 CN 110083594 A 3 一种终端机跳变数据的剔除方法及装置 技术领域 0001 本发明涉及一种数据处理技术领域, 尤其涉及一种终端机跳变数据的剔除方法及 装置。 背景技术 0002 目前, 广东省电子标签的套装用户接近900多万, 达到全国的1/9左右。 因此, 这带 来了非现金车辆与ETC车辆的通行次数大幅度。

9、提高, 二者在总车流量中所占的比例也得到 大幅度提高, 目前非现金支付与ETC支付的通行次数所占比例在广东省分别达到了高速公 路车辆总体通行次数的45与34左右, ETC车辆的通行次数占到了非现金车辆的76左 右。 0003 广东联合电子服务股份有限公司(以下简称: 联合电服), 作为广东省高速公路联 网收费的清分结算机构, 承担着将所有高速公路的每一笔车辆通行收费记录, 按照业务逻 辑规则准确地、 及时地拆分给相关的每一条高速公路公司, 如果有跨省通行车辆的话, 还要 将跨省交易记录进行省间结算。 清分结算的及时性、 准确性要求, 使得每条高速公路公司都 要将生成的车辆收费通行记录及时地传送。

10、到联合电服。 否则, 一旦发生通行记录数据滞留 在高速公路公司的收费系统, 会严重地影响到给联合电服清分结算工作的准确性与及时 性, 还会带来非常复杂的后续处理工作, 并且还会给相关的高速公路业主公司造成损失。 0004 但在实际中, 广东省高速公路发生过多起ETC车道的收费数据滞留在ETC车道, 没 有上传到联合电服。 原因在于, 首先, 高速公路车道收费系统采用的是脱机的交易方式; 其 次, 数据上传采用的是收费车道、 收费站、 路段中心、 联合电服这四级的逐级上传。 第三, MTC 车道与ETC车道的开发商通常是不同的, ETC车道的出口流水由ETC车道上传到收费站的ETC 数据库, 然。

11、后再由ETC数据库发送到收费站数据库。 这就存在着如果ETC车道的收费流水上 传环节发生了故障, 就会造成收费站数据库、 高速公路路段中心数据库中有可能收不到ETC 收费流水, 进而这些流水也不会上传到联合电服。 并且当存在较大的异常数据的时候, 会影 响后期数据统计的精确度。 发明内容 0005 为了克服现有技术的不足, 本发明的目的之一在于提供一种终端机跳变数据的剔 除方法, 其能有效剔除异常数据。 0006 本发明的目的之二在于提供一种终端机跳变数据的剔除装置, 其能有效剔除异常 数据。 0007 本发明的目的之三在于提供一种电子设备, 其能有效剔除异常数据。 0008 本发明的目的之四。

12、在于提供一种计算机可读存储介质, 其能有效剔除异常数据。 0009 本发明的目的之一采用如下技术方案实现: 0010 一种终端机跳变数据的剔除方法, 包括以下步骤: 0011 获取步骤: 获取选定时间范围内收费点各PSAM卡中终端机交易序列号, 并根据各 说明书 1/5 页 4 CN 110083594 A 4 PSAM卡的终端机交易序列号得到选定时间范围交易数量; 0012 计算步骤: 计算选定时间范围内各收费点的平均车流量; 0013 第一判断步骤: 判断PSAM卡在选定时间范围内的交易数量是否大于平均车流量, 如果是, 则判断对应PSAM卡中数据出现异常跳变并剔除对应的发生跳变的终端机交。

13、易序列 号。 0014 进一步地, 所述获取步骤具体为: 获取选定时间范围内收费点各PSAM卡中终端机 交易序列号, 并统计得到终端机交易序列号的最大值、 最小值和平均值, 根据最大值和最小 值计算得到交易数量; 0015 所述判断步骤具体的: 判断PSAM卡在选定时间范围内的交易数量是否大于1.5倍 的平均车流量, 如果是, 则判断对应PSAM卡中数据出现异常跳变并剔除对应的发生跳变的 终端机交易序列号。 0016 进一步地, 在第一判断步骤中判断为是之后, 还包括更新步骤: 将最大值减去1作 为修正后的最大值, 最小值加1作为修改正后的最小值; 根据修正后的最大值和最小值更新 对应的终端机。

14、交易序列号的最大值、 最小值和平均值, 并判断所有交易序列号是否处于最 大值与最小值这个有效区间内, 如果否, 则剔除对应的数据。 0017 进一步地, 在所述获取步骤之后还包括第二判断步骤: 判断所有终端机交易序列 号是否大于预设值, 如果是, 则执行计算步骤, 如果否, 则剔除对应数据。 0018 进一步地, 所述预设值为零或者所述预设值为5。 0019 进一步地, 在第一判断步骤之后还包括第三判断步骤: 判断最大值是否大于两倍 的平均值, 如果是, 则判断发生了异常跳变并剔除对应的终端机交易序列号, 如果否, 则没 有发生异常跳变。 0020 进一步地, 所述收费点为各收费站; 在第一判。

15、断步骤之后还包括预警步骤: 根据公 式计算得到未上传数量和未上传比例, 当所述未上传数量大于20或者未上传比例大于5, 则进行数据滞留预警; 0021 未上传数量理论数量-实际数量, 未上传比例未上传数量/实际数量; 0022 理论数量最大值-最小值+1, 实际数量通过统计终端机交易序列号的数量得到。 0023 本发明的目的之二采用如下技术方案实现: 0024 一种终端机跳变数据的剔除装置, 包括如下模块: 0025 获取模块: 用于获取选定时间范围内收费点各PSAM卡中终端机交易序列号, 并根 据各PSAM卡的终端机交易序列号得到选定时间范围交易数量; 0026 计算模块: 用于计算选定时间。

16、范围内各收费点的平均车流量; 0027 第一判断模块: 用于判断PSAM卡在选定时间范围内的交易数量是否大于平均车流 量, 如果是, 则判断对应PSAM卡中数据出现异常跳变并剔除对应的发生跳变的终端机交易 序列号。 0028 本发明的目的之三采用如下技术方案实现: 0029 一种电子设备, 包括存储器、 处理器以及存储在存储器上并可在处理器上运行的 计算机程序, , 所述处理器执行所述计算机程序时实现本发明目的之一中任意一项所述的 一种终端机跳变数据的剔除方法。 0030 本发明的目的之四采用如下技术方案实现: 说明书 2/5 页 5 CN 110083594 A 5 0031 一种计算机可读。

17、存储介质, 其上存储有计算机程序, 所述计算机程序被处理器执 行时实现如本发明目的之一中任意一项所述的一种终端机跳变数据的剔除方法。 0032 相比现有技术, 本发明的有益效果在于: 0033 本发明的终端机跳变数据的剔除方法通过判断选定时间范围内交易数量与平均 车辆量的大小进而判断是否出现需要剔除的异常数据, 通过剔除异常数据为后续滞留数据 判断提供更为准确的数据集。 附图说明 0034 图1为实施例一的终端机跳变数据的剔除方法的流程图; 0035 图2为实施例一的终端机跳变数据的剔除方法的具体流程图; 0036 图3为实施例二的终端机跳变数据的剔除装置的结构图。 具体实施方式 0037 下。

18、面, 结合附图以及具体实施方式, 对本发明做进一步描述, 需要说明的是, 在不 相冲突的前提下, 以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施 例。 0038 实施例一 0039 经过对广东省高速公路近二年高达40亿条左右的海量车辆通行收费记录统计发 现, 全省ETC车道使用的PSAM卡在每天生成的收费记录中, 有50概率会出现跳变的终端机 交易序列号。 0040 并且, 跳变的数值往往是一个, 它的绝对值通常是一个4个字节(终端机交易序列 号的长度, 在数据库中是4个字节的整数)所能表示的最大数级别的数字, 远远大于正常的 终端机交易序列号。 一条最繁忙的ETC车道在几百年。

19、来都按照一天最繁忙的一个小时内那 样工作, 才能产生那样级别的终端机交易序列号数值。 还有, 正常的终端机交易序列号是不 会为负值的。 每调用一次PSAM卡来生成ETC的收费流水, 生成的流水中的终端机交易序列号 就会加1; 一般都是从零开始, 所以不可能是为负数。 0041 经过对广东省高速公路近二年高达40亿条左右的海量车辆通行收费记录, 进行大 量的专业的数据统计与分析、 数据挖掘, 同时也进行了大量的算法研究与实现, 不仅发现了 ETC收费记录中的终端机交易序列号的跳变规律, 也发现了广东省高速公路车流量存在的 内在模式。 0042 为了实现ETC数据滞留分析软件中计算发生滞留的ETC。

20、收费记录数量, 首先通过自 己设计的一个算法来剔除掉ETC收费数据中发生跳变的终端机交易序列号。 0043 如图1和图2所示, 本实施例提供了一种终端机跳变数据的剔除方法, 包括以下步 骤: 0044 S1: 获取选定时间范围内收费点各PSAM卡中终端机交易序列号, 并统计得到终端 机交易序列号的最大值、 最小值和平均值, 根据最大值和最小值计算得到交易数量; 获取 ETC车道信息, 所述ETC车道信息包括路段、 收费站、 PSAM卡卡号、 工班日期; 并统计对应单元 中终端机交易序列号的最大值、 最小值、 平均值、 收费记录数、 最大值-最小值+1; 这个记录 集为A。 说明书 3/5 页 。

21、6 CN 110083594 A 6 0045 S11: 判断所有终端机交易序列号是否大于预设值, 如果是, 则执行计算步骤, 如果 否, 则剔除对应数据。 所述预设值为零或者所述预设值为5。 优选地, 所述预设值为5, 根据对 全省近40亿条记录的统计, 跳变的数值往往是一个非常大的数值、 非常小的负数, 0-3的数 字、 负1-负10以内的数; 故而在进行数据筛选的时候, 需要尽可能删掉负数以及比较小的数 字这些, 这样的话, 在后续进行判断的时候, 会使得数据集非常的便于计算; 设置这样的阈 值也会使得噪音数据更少。 0046 S2: 计算选定时间范围内各收费点的平均车流量; 所述收费点。

22、为收费站。 计算出选 定时间范围内高速公路的每个收费站的平均车流量; 记录集合B; 这个平均车流量指的是整 个收费站的平均车流量, 由于在步骤S1中统计到的是PSAM卡的交易数量, 但是一个收费点 有至少一张PSAM卡, 这样就可以知晓S1中统计得到的数据是肯定是小于整个收费站的平均 车流量的, 只有在发生异常的时候, 交易数量才可能大于收费点的平均车流量。 0047 S3: 判断PSAM卡在选定时间范围内的交易数量是否大于平均车流量, 如果是, 则判 断对应PSAM卡中数据出现异常跳变并剔除对应的发生跳变的终端机交易序列号。 更为优选 地, 判断PSAM卡在选定时间范围内的交易数量是否大于1。

23、.5倍的平均车流量。 因为跳变的数 值一般都很大。 将最大值减去1作为修正后的最大值, 最小值加1作为修改正后的最小值; 根 据修正后的最大值和最小值更新对应的终端机交易序列号的最大值、 最小值和平均值。 将 新的区间最为有效区间去进行重新判断, 只有满足在这个有效区间内的数据才是有意义的 数据。 具体的, 计算出记录A1中当前PSAM卡所对应的(最大值-最小值+1), 然后将其赋值到 变量N; 从B找到A1收费站对应的平均车流量M, 正常情况下, N只是当前收费中的一条, 但是 如果当前PSAM在该工班所生成的收费记录中的终端机交易序列号发生了跳变, 因为记录集 A在生成的时候, 剔除掉了终。

24、端机交易序列号的一些跳变异常, 只剩下数值非常大的跳变, 所以只要该PSAM卡在这一工班的收费流水中, 发生了大数值的跳变, N就会远远大于M; 0048 S4: 判断最大值是否大于两倍的平均值, 如果是, 则判断发生了异常跳变并剔除对 应的终端机交易序列号, 如果否, 则没有发生异常跳变。 由等差数列推导可以知晓, 最大值 肯定小于平均值的两倍, 由于终端机交易序列号是等差数列, 故而可以利用这条性质来进 行滞留流水熟练的可靠性的判断依据。 0049 S5: 根据公式计算得到未上传数量和未上传比例, 当所述未上传数量大于20或者 未上传比例大于5, 则进行数据滞留预警; 0050 未上传数量。

25、理论数量-实际数量, 未上传比例未上传数量/实际数量; 0051 理论数量最大值-最小值+1, 实际数量通过统计终端机交易序列号的数量得到。 通过构建上述算法用于剔除掉终端机交易序列号中跳变的终端机交易序列号, 负责对全省 选定的时间段内的ETC车道流水, 剔除掉发生跳变而生成的非常巨大的终端机交易序列号 数值。 并设计对应的数学模型, 用于判断是否剔除掉了终端机交易序列号的中异常大的数 字, 通过建立数学模型, 对建立的用于剔除异常终端交易序列号的算法进行效果判断。 只有 图2中N小于1.5M时, 计算出来的ETC滞留数据数量才是可靠的。 0052 实施例二 0053 如图3所示, 本实施例。

26、提供了一种终端机跳变数据的剔除装置, 包括如下模块: 0054 获取模块: 用于获取选定时间范围内收费点各PSAM卡中终端机交易序列号, 并根 据各PSAM卡的终端机交易序列号得到选定时间范围交易数量; 说明书 4/5 页 7 CN 110083594 A 7 0055 计算模块: 用于计算选定时间范围内各收费点的平均车流量; 0056 第一判断模块: 用于判断PSAM卡在选定时间范围内的交易数量是否大于平均车流 量, 如果是, 则判断对应PSAM卡中数据出现异常跳变并剔除对应的发生跳变的终端机交易 序列号。 0057 实施例三 0058 实施例三公开了一种电子设备, 该电子设备包括处理器、 。

27、存储器以及程序, 其中处 理器和存储器均可采用一个或多个, 程序被存储在存储器中, 并且被配置成由处理器执行, 处理器执行该程序时, 实现实施例一的一种终端机跳变数据的剔除方法。 该电子设备可以 是手机、 电脑、 平板电脑等等一系列的电子设备。 0059 实施例四 0060 实施例四公开了一种计算机可读存储介质, 该存储介质用于存储程序, 并且该程 序被处理器执行时, 实现实施例一的一种终端机跳变数据的剔除方法。 0061 当然, 本发明实施例所提供的一种包含计算机可执行指令的存储介质, 其计算机 可执行指令不限于如上所述的方法操作, 还可以执行本发明任意实施例所提供的方法中的 相关操作。 0。

28、062 通过以上关于实施方式的描述, 所属领域的技术人员可以清楚地了解到, 本发明 可借助软件及必需的通用硬件来实现, 当然也可以通过硬件实现, 但很多情况下前者是更 佳的实施方式。 基于这样的理解, 本发明的技术方案本质上或者说对现有技术做出贡献的 部分可以以软件产品的形式体现出来, 该计算机软件产品可以存储在计算机可读存储介质 中, 如计算机的软盘、 只读存储器(Read-Only Memory, ROM)、 随机存取存储器(Random Access Memory, RAM)、 闪存(FLASH)、 硬盘或光盘等, 包括若干指令用以使得一台电子设备 (可以是个人计算机, 服务器, 或者网。

29、络设备等)执行本发明各个实施例所述的方法。 0063 值得注意的是, 上述基于内容更新通知装置的实施例中, 所包括的各个单元和模 块只是按照功能逻辑进行划分的, 但并不局限于上述的划分, 只要能够实现相应的功能即 可; 另外, 各功能单元的具体名称也只是为了便于相互区分, 并不用于限制本发明的保护范 围。 0064 上述实施方式仅为本发明的优选实施方式, 不能以此来限定本发明保护的范围, 本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所 要求保护的范围。 说明书 5/5 页 8 CN 110083594 A 8 图1 说明书附图 1/3 页 9 CN 110083594 A 9 图2 说明书附图 2/3 页 10 CN 110083594 A 10 图3 说明书附图 3/3 页 11 CN 110083594 A 11 。

展开阅读全文
内容关键字: 终端机 数据 剔除 方法 装置
关于本文
本文标题:终端机跳变数据的剔除方法及装置.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/11490134.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1