判断寄递电话号码真实使用者的方法及装置.pdf

上传人:姓*** 文档编号:10379241 上传时间:2021-06-19 格式:PDF 页数:15 大小:649.22KB
收藏 版权申诉 举报 下载
判断寄递电话号码真实使用者的方法及装置.pdf_第1页
第1页 / 共15页
判断寄递电话号码真实使用者的方法及装置.pdf_第2页
第2页 / 共15页
判断寄递电话号码真实使用者的方法及装置.pdf_第3页
第3页 / 共15页
文档描述:

《判断寄递电话号码真实使用者的方法及装置.pdf》由会员分享,可在线阅读,更多相关《判断寄递电话号码真实使用者的方法及装置.pdf(15页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010707689.7 (22)申请日 2020.07.21 (71)申请人 北京明朝万达科技股份有限公司 地址 100142 北京市海淀区阜外亮甲店1号 恩济西园产业园16号楼B座 (72)发明人 张鹏飞喻波王志海安鹏 王志华 (51)Int.Cl. G06Q 10/08(2012.01) G06F 16/22(2019.01) G06F 17/18(2006.01) (54)发明名称 一种判断寄递电话号码真实使用者的方法 及装置 (57)摘要 本发明提供一种判断寄递信息。

2、中电话号码 真实使用者的方法及装置, 所述方法包括: 获取 数据信息, 所述数据信息包括寄递数据、 运营商 开户数据、 房产数据、 车辆数据以及法人数据, 在 数据库中合并数据信息, 得到合并数据表; 对合 并数据表中的数据进行分组、 合并, 得到处理后 的数据表; 获取概率计算模板, 从所述概率计算 模板获取概率规则; 基于所述概率规则, 使用 Spark对所述处理后的数据表中的电话号码及姓 名进行概率计算。 根据本发明的方案, 对寄递数 据中发件人或收件人所填的电话号码的真实使 用者是否是该发件人或收件人进行判断。 在大规 模数据下, 当有多个人员使用同一个号码混淆查 询视线时, 可快速定。

3、位该号码的真实使用者。 权利要求书3页 说明书8页 附图3页 CN 111832998 A 2020.10.27 CN 111832998 A 1.一种判断寄递信息中电话号码真实使用者的方法, 其特征在于, 包括以下步骤: 步骤S101: 获取数据信息, 所述数据信息包括寄递数据、 运营商开户数据、 房产数据、 车 辆数据以及法人数据, 在数据库中合并数据信息, 得到合并数据表; 并对数据信息依据数据 内容、 来源进行分区存储; 步骤S102: 对合并数据表中的数据进行分组、 合并, 得到处理后的数据表, 所述处理后 的数据表中至少记录有姓名、 电话号码、 地址、 该电话号码在不同应用场景应用。

4、的次数; 步骤S103: 获取概率计算模板, 从所述概率计算模板获取概率规则; 步骤S104: 基于所述概率规则, 使用Spark对所述处理后的数据表中的电话号码及姓名 进行概率计算。 2.如权利要求1所述的判断寄递信息中电话号码真实使用者的方法, 其特征在于, 所述 步骤S101的所述在数据库中合并数据信息, 包括: 根据获取到的寄递数据, 从寄递数据中提 取运单号、 寄件人信息及收件人信息; 再根据寄件人信息、 收件人信息分别查询运营商开户 数据、 房产数据、 车辆数据以及法人数据, 使寄递数据的每一个运单号对应两条数据记录, 分别为第一记录和第二记录; 所述第一记录至少包括获取的寄递数据。

5、中的运单号、 快递公 司、 该运单号对应的寄件人电话号、 该电话号对应的开户人姓名、 开户人身份证号、 房产数 据、 车辆数据以及法人数据; 所述第二记录至少包括获取的寄递数据中的运单号、 快递公 司、 该运单号对应的收件人电话号、 该电话号对应的开户人姓名、 开户人身份证号、 房产数 据、 车辆数据以及法人数据; 得到待计算数据; 所述该运单号对应的寄件人电话号、 该运单号对应的收件人电话号均对应于电话号 列, 该电话号对应的开户人姓名, 均对应于姓名列; 在数据库中合并数据信息, 并对数据信息依据数据内容、 来源进行分区存储, 还包括: 使用greenplum数据库, 利用应用场景标志dt。

6、、 快递类型code为数据信息进行分区; 对于应用场景标志dt, dt1表示该数据为发件数据, dt2表示该数据为收件数据, dt 3表示数据为运营商开户数据, dt4表示数据至少为房产数据、 车辆、 法人数据之一; 对于快递类型code, 先获取该数据信息对应的应用场景标志dt, 若dt1或dt2, 则该 快递类型code为快递公司名称缩写; 若dt3, 则该快递类型code标记为kh, 若dt4, 则该 快递类型code标记为ybss。 3.如权利要求1所述的判断寄递信息中电话号码真实使用者的方法, 其特征在于, 所述 步骤S102包括: 获取合并数据表, 使用sql, 根据姓名、 电话号。

7、, 将合并数据表中的数据分组, 对于姓名、 电话号均相同的记录, 将地址去重, 对于具有多个地址的, 使用符号&连接多个地 址, 并对应用场景dt进行逻辑计数, 生成处理后的数据表, 所述处理后的数据表中至少记录 有姓名、 电话号码、 地址、 该电话号码在不同应用场景应用的次数。 4.如权利要求1所述的判断寄递信息中电话号码真实使用者的方法, 其特征在于, 所述 概率规则为: 当寄递次数至少为2时, 即寄快递、 收快递累计至少2次时, 也即dt1和dt2 的计数和至少为2时, 处理后的数据表中的电话号码的实际使用者与处理后的数据表中记 录的姓名一致的概率为0.6; 当寄递次数为1时, 即仅寄快。

8、递1次或收快递1次时, 也即dt1和dt2的计数和为1时, 处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率 为0.3; 权利要求书 1/3 页 2 CN 111832998 A 2 当运营商开户数据计数大于0, dt3的计数大于0时, 处理后的数据表中的电话号码的 实际使用者与处理后的数据表中记录的姓名一致的概率为0.15; 当房产信息、 车辆数据、 法人数据的计数大于0, 即dt4的计数大于0时, 处理后的数据 表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.25。 5.一种判断寄递信息中电话号码真实使用者的装置, 其特征在于, 所述装置包。

9、括: 合并数据表生成模块: 获取数据信息, 所述数据信息包括寄递数据、 运营商开户数据、 房产数据、 车辆数据以及法人数据, 在数据库中合并数据信息, 得到合并数据表; 并对数据 信息依据数据内容、 来源进行分区存储; 处理后数据表生成模块: 对合并数据表中的数据进行分组、 合并, 得到处理后的数据 表, 所述处理后的数据表中至少记录有姓名、 电话号码、 地址、 该电话号码在不同应用场景 应用的次数; 获取模块: 获取概率计算模板, 从所述概率计算模板获取概率规则; 计算模块: 基于所述概率规则, 使用Spark对所述处理后的数据表中的电话号码及姓名 进行概率计算。 6.如权利要求5所述的判断。

10、寄递信息中电话号码真实使用者的装置, 其特征在于, 所述 合并数据表生成模块的所述在数据库中合并数据信息, 包括: 根据获取到的寄递数据, 从寄 递数据中提取运单号、 寄件人信息及收件人信息; 再根据寄件人信息、 收件人信息分别查询 运营商开户数据、 房产数据、 车辆数据以及法人数据, 使寄递数据的每一个运单号对应两条 数据记录, 分别为第一记录和第二记录; 所述第一记录至少包括获取的寄递数据中的运单 号、 快递公司、 该运单号对应的寄件人电话号、 该电话号对应的开户人姓名、 开户人身份证 号、 房产数据、 车辆数据以及法人数据; 所述第二记录至少包括获取的寄递数据中的运单 号、 快递公司、 。

11、该运单号对应的收件人电话号、 该电话号对应的开户人姓名、 开户人身份证 号、 房产数据、 车辆数据以及法人数据; 得到待计算数据; 所述该运单号对应的寄件人电话号、 该运单号对应的收件人电话号均对应于电话号 列, 该电话号对应的开户人姓名, 均对应于姓名列; 在数据库中合并数据信息, 并对数据信息依据数据内容、 来源进行分区存储, 还包括: 使用greenplum数据库, 利用应用场景标志dt、 快递类型code为数据信息进行分区; 对于应用场景标志dt, dt1表示该数据为发件数据, dt2表示该数据为收件数据, dt 3表示数据为运营商开户数据, dt4表示数据至少为房产数据、 车辆、 法。

12、人数据之一; 对于快递类型code, 先获取该数据信息对应的应用场景标志dt, 若dt1或dt2, 则该 快递类型code为快递公司名称缩写; 若dt3, 则该快递类型code标记为kh, 若dt4, 则该 快递类型code标记为ybss。 7.如权利要求5所述的判断寄递信息中电话号码真实使用者的装置, 其特征在于, 所述 处理后数据表生成模块包括: 生成子模块, 用于获取合并数据表, 使用sql, 根据姓名、 电话 号, 将合并数据表中的数据分组, 对于姓名、 电话号均相同的记录, 将地址去重, 对于具有多 个地址的, 使用符号&连接多个地址, 并对应用场景dt进行逻辑计数, 生成处理后的数。

13、据表, 所述处理后的数据表中至少记录有姓名、 电话号码、 地址、 该电话号码在不同应用场景应用 的次数。 8.如权利要求5所述的判断寄递信息中电话号码真实使用者的装置, 其特征在于, 所述 权利要求书 2/3 页 3 CN 111832998 A 3 概率规则为: 当寄递次数至少为2时, 即寄快递、 收快递累计至少2次时, 也即dt1和dt2 的计数和至少为2时, 处理后的数据表中的电话号码的实际使用者与处理后的数据表中记 录的姓名一致的概率为0.6; 当寄递次数为1时, 即仅寄快递1次或收快递1次时, 也即dt1和dt2的计数和为1时, 处理后的数据表中的电话号码的实际使用者与处理后的数据表。

14、中记录的姓名一致的概率 为0.3; 当运营商开户数据计数大于0, dt3的计数大于0时, 处理后的数据表中的电话号码的 实际使用者与处理后的数据表中记录的姓名一致的概率为0.15; 当房产信息、 车辆数据、 法人数据的计数大于0, 即dt4的计数大于0时, 处理后的数据 表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.25。 9.一种判断寄递信息中电话号码真实使用者的系统, 其特征在于, 包括: 处理器, 用于执行多条指令; 存储器, 用于存储多条指令; 其中, 所述多条指令, 用于由所述存储器存储, 并由所述处理器加载并执行如权利要求 1-4之任一项所述的判断寄递信息中。

15、电话号码真实使用者的方法。 10.一种计算机可读存储介质, 其特征在于, 所述存储介质中存储有多条指令; 所述多 条指令, 用于由处理器加载并执行如权利要求1-4之任一项所述的判断寄递信息中电话号 码真实使用者的方法。 权利要求书 3/3 页 4 CN 111832998 A 4 一种判断寄递电话号码真实使用者的方法及装置 技术领域 0001 本发明涉及数据处理领域, 尤其涉及一种判断寄递电话号码真实使用者的方法及 装置。 背景技术 0002 随着互联网技术的日益成熟及人们生活水平的大幅度提高, 越来越多的人选择在 网络上购物消费, 这也促进了寄递行业的快速发展壮大, 为更多的劳动力提供了就业。

16、机会。 因此, 产生的寄递数据越来越多, 为了使用、 管理数据, 必不可少的, 需要提高数据的准确 性。 虽然目前办理电话号码都必须使用身份证实名注册, 但实名注册之后并不一定是注册 人在使用该电话号码, 所以仅根据运营商的开户信息不能确定寄递信息中的寄递电话是该 注册人在使用或是其他人在使用。 因此, 造成注册使用的身份信息和寄递信息中的寄递姓 名不能完全匹配。 为了对数据进行分析, 需要提高数据的准确性, 也需要对寄递数据中发件 人或收件人所填的电话号码的真实使用者是否是该发件人或收件人进行判断。 0003 但现有技术中并不存在对寄递数据中发件人或收件人所填的电话号码的真实使 用者是否是该。

17、发件人或收件人进行判断的方法。 发明内容 0004 为解决上述技术问题, 本发明提出了一种判断寄递电话号码真实使用者的方法及 装置, 所述方法及装置, 用以解决现有技术中缺少对寄递数据中发件人或收件人所填的电 话号码的真实使用者是否是该发件人或收件人进行判断的技术问题。 0005 根据本发明的第一方面, 提供一种判断寄递电话号码真实使用者的方法, 所述方 法包括以下步骤: 0006 步骤S101: 获取数据信息, 所述数据信息包括寄递数据、 运营商开户数据、 房产数 据、 车辆数据以及法人数据, 在数据库中合并数据信息, 得到合并数据表; 并对数据信息依 据数据内容、 来源进行分区存储; 00。

18、07 步骤S102: 对合并数据表中的数据进行分组、 合并, 得到处理后的数据表, 所述处 理后的数据表中至少记录有姓名、 电话号码、 地址、 该电话号码在不同应用场景应用的次 数; 0008 步骤S103: 获取概率计算模板, 从所述概率计算模板获取概率规则; 0009 步骤S104: 基于所述概率规则, 使用Spark对所述处理后的数据表中的电话号码及 姓名进行概率计算。 0010 进一步地, 所述步骤S101的所述在数据库中合并数据信息, 包括: 根据获取到的寄 递数据, 从寄递数据中提取运单号、 寄件人信息及收件人信息; 再根据寄件人信息、 收件人 信息分别查询运营商开户数据、 房产数。

19、据、 车辆数据以及法人数据, 使寄递数据的每一个运 单号对应两条数据记录, 分别为第一记录和第二记录; 所述第一记录至少包括获取的寄递 数据中的运单号、 快递公司、 该运单号对应的寄件人电话号、 该电话号对应的开户人姓名、 说明书 1/8 页 5 CN 111832998 A 5 开户人身份证号、 房产数据、 车辆数据以及法人数据; 所述第二记录至少包括获取的寄递数 据中的运单号、 快递公司、 该运单号对应的收件人电话号、 该电话号对应的开户人姓名、 开 户人身份证号、 房产数据、 车辆数据以及法人数据; 得到待计算数据; 0011 所述该运单号对应的寄件人电话号、 该运单号对应的收件人电话号。

20、均对应于电话 号列, 该电话号对应的开户人姓名, 均对应于姓名列; 0012 在数据库中合并数据信息, 并对数据信息依据数据内容、 来源进行分区存储, 还包 括: 使用greenplum数据库, 利用应用场景标志dt、 快递类型code为数据信息进行分区; 0013 对于应用场景标志dt, dt1表示该数据为发件数据, dt2表示该数据为收件数 据, dt3表示数据为运营商开户数据, dt4表示数据至少为房产数据、 车辆、 法人数据之 一; 0014 对于快递类型code, 先获取该数据信息对应的应用场景标志dt, 若dt1或dt2, 则该快递类型code为快递公司名称缩写; 若dt3, 则该。

21、快递类型code标记为kh, 若dt4, 则该快递类型code标记为ybss。 0015 进一步地, 所述步骤S102包括: 获取合并数据表, 使用sql, 根据姓名、 电话号, 将合 并数据表中的数据分组, 对于姓名、 电话号均相同的记录, 将地址去重, 对于具有多个地址 的, 使用符号&连接多个地址, 并对应用场景dt进行逻辑计数, 生成处理后的数据表, 所述处 理后的数据表中至少记录有姓名、 电话号码、 地址、 该电话号码在不同应用场景应用的次 数。 0016 进一步地, 所述概率规则为: 当寄递次数至少为2时, 即寄快递、 收快递累计至少2 次时, 也即dt1和dt2的计数和至少为2时。

22、, 处理后的数据表中的电话号码的实际使用者 与处理后的数据表中记录的姓名一致的概率为0.6; 0017 当寄递次数为1时, 即仅寄快递1次或收快递1次时, 也即dt1和dt2的计数和为 1时, 处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的 概率为0.3; 0018 当运营商开户数据计数大于0, dt3的计数大于0时, 处理后的数据表中的电话号 码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.15; 0019 当房产信息、 车辆数据、 法人数据的计数大于0, 即dt4的计数大于0时, 处理后的 数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的。

23、概率为0.25。 0020 根据本发明第二方面, 提供一种判断寄递电话号码真实使用者的装置, 所述装置 包括: 0021 合并数据表生成模块: 获取数据信息, 所述数据信息包括寄递数据、 运营商开户数 据、 房产数据、 车辆数据以及法人数据, 在数据库中合并数据信息, 得到合并数据表; 并对数 据信息依据数据内容、 来源进行分区存储; 0022 处理后数据表生成模块: 对合并数据表中的数据进行分组、 合并, 得到处理后的数 据表, 所述处理后的数据表中至少记录有姓名、 电话号码、 地址、 该电话号码在不同应用场 景应用的次数; 0023 获取模块: 获取概率计算模板, 从所述概率计算模板获取概。

24、率规则; 0024 计算模块: 基于所述概率规则, 使用Spark对所述处理后的数据表中的电话号码及 姓名进行概率计算。 说明书 2/8 页 6 CN 111832998 A 6 0025 进一步地, 所述合并数据表生成模块的所述在数据库中合并数据信息, 包括: 根据 获取到的寄递数据, 从寄递数据中提取运单号、 寄件人信息及收件人信息; 再根据寄件人信 息、 收件人信息分别查询运营商开户数据、 房产数据、 车辆数据以及法人数据, 使寄递数据 的每一个运单号对应两条数据记录, 分别为第一记录和第二记录; 所述第一记录至少包括 获取的寄递数据中的运单号、 快递公司、 该运单号对应的寄件人电话号、。

25、 该电话号对应的开 户人姓名、 开户人身份证号、 房产数据、 车辆数据以及法人数据; 所述第二记录至少包括获 取的寄递数据中的运单号、 快递公司、 该运单号对应的收件人电话号、 该电话号对应的开户 人姓名、 开户人身份证号、 房产数据、 车辆数据以及法人数据; 得到待计算数据; 0026 所述该运单号对应的寄件人电话号、 该运单号对应的收件人电话号均对应于电话 号列, 该电话号对应的开户人姓名, 均对应于姓名列; 0027 在数据库中合并数据信息, 并对数据信息依据数据内容、 来源进行分区存储, 还包 括: 使用greenplum数据库, 利用应用场景标志dt、 快递类型code为数据信息进行。

26、分区; 0028 对于应用场景标志dt, dt1表示该数据为发件数据, dt2表示该数据为收件数 据, dt3表示数据为运营商开户数据, dt4表示数据至少为房产数据、 车辆、 法人数据之 一; 0029 对于快递类型code, 先获取该数据信息对应的应用场景标志dt, 若dt1或dt2, 则该快递类型code为快递公司名称缩写; 若dt3, 则该快递类型code标记为kh, 若dt4, 则该快递类型code标记为ybss。 0030 进一步地, 所述处理后数据表生成模块包括: 生成子模块, 用于获取合并数据表, 使用sql, 根据姓名、 电话号, 将合并数据表中的数据分组, 对于姓名、 电话。

27、号均相同的记录, 将地址去重, 对于具有多个地址的, 使用符号&连接多个地址, 并对应用场景dt进行逻辑计 数, 生成处理后的数据表, 所述处理后的数据表中至少记录有姓名、 电话号码、 地址、 该电话 号码在不同应用场景应用的次数。 0031 进一步地, 所述概率规则为: 当寄递次数至少为2时, 即寄快递、 收快递累计至少2 次时, 也即dt1和dt2的计数和至少为2时, 处理后的数据表中的电话号码的实际使用者 与处理后的数据表中记录的姓名一致的概率为0.6; 0032 当寄递次数为1时, 即仅寄快递1次或收快递1次时, 也即dt1和dt2的计数和为 1时, 处理后的数据表中的电话号码的实际使。

28、用者与处理后的数据表中记录的姓名一致的 概率为0.3; 0033 当运营商开户数据计数大于0, dt3的计数大于0时, 处理后的数据表中的电话号 码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.15; 0034 当房产信息、 车辆数据、 法人数据的计数大于0, 即dt4的计数大于0时, 处理后的 数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.25。 0035 根据本发明第三方面, 提供一种判断寄递电话号码真实使用者的系统, 包括: 0036 处理器, 用于执行多条指令; 0037 存储器, 用于存储多条指令; 0038 其中, 所述多条指令, 用于由所述存。

29、储器存储, 并由所述处理器加载并执行如前所 述的一种判断寄递电话号码真实使用者的方法。 0039 根据本发明第四方面, 提供一种计算机可读存储介质, 所述存储介质中存储有多 说明书 3/8 页 7 CN 111832998 A 7 条指令; 所述多条指令, 用于由处理器加载并执行如前所述的一种判断寄递电话号码真实 使用者的方法。 0040 根据本发明的上述方案, 对寄递数据中发件人或收件人所填的电话号码的真实使 用者是否是该发件人或收件人进行判断。 在大规模数据下, 当有多个人员使用同一个号码 混淆查询视线时, 可快速定位该号码的真实使用者, 为不同方向的数据提取和查询准确性 提供强有力的帮助。

30、与支撑。 0041 上述说明仅是本发明技术方案的概述, 为了能够更清楚了解本发明的技术手段, 并可依照说明书的内容予以实施, 以下以本发明的较佳实施例并配合附图详细说明如后。 附图说明 0042 构成本发明的一部分的附图用来提供对本发明的进一步理解, 本发明提供如下附 图进行说明。 在附图中: 0043 图1为本发明一个实施方式的判断寄递信息中电话号码真实使用者的方法流程 图; 0044 图2为本发明一个实施方式的使用Spark对所述处理后的数据表中的电话号码及 姓名进行概率计算示意图; 0045 图3为本发明一个实施方式的判断寄递信息中电话号码真实使用者的系统架构 图; 0046 图4为本发。

31、明一个实施方式的判断寄递信息中电话号码真实使用者的装置结构框 图。 具体实施方式 0047 定义: 0048 寄递: 指邮局寄送邮件, 也指邮局递送邮件, 本文中特指快递公司的快递。 0049 Spark: Apache Spark就专为大规模数据处理而设计的快速通用的计算引擎。 Spark是UC Berkeley AMP lab(加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架。 Spark拥有Hadoop MapReduce所具有的优点, 但不同于 MapReduce的是, Job中间输出结果可以保存在内存中, 从而不再需要读写HDFS, 因此, 。

32、Spark 能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。 0050 为使本发明的目的、 技术方案和优点更加清楚, 下面将结合本发明具体实施例及 相应的附图对本发明技术方案进行清楚、 完整地描述。 显然, 所描述的实施例仅是本发明一 部分实施例, 而不是全部的实施例。 基于本发明中的实施例, 本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例, 都属于本发明保护的范围。 0051 首先结合图1说明为本发明一个实施方式的识别打印文件的敏感内容的方法流程 图。 如图1所示, 所述方法包括以下步骤: 0052 步骤S101: 获取数据信息, 所述数据信息包括。

33、寄递数据、 运营商开户数据、 房产数 据、 车辆数据以及法人数据, 在数据库中合并数据信息, 得到合并数据表; 并对数据信息依 据数据内容、 来源进行分区存储; 0053 步骤S102: 对合并数据表中的数据进行分组、 合并, 得到处理后的数据表, 所述处 说明书 4/8 页 8 CN 111832998 A 8 理后的数据表中至少记录有姓名、 电话号码、 地址、 该电话号码在不同应用场景应用的次 数; 0054 步骤S103: 获取概率计算模板, 从所述概率计算模板获取概率规则; 0055 步骤S104: 基于所述概率规则, 使用Spark对所述处理后的数据表中的电话号码及 姓名进行概率计算。

34、。 0056 所述步骤S101: 获取数据信息, 所述数据信息包括寄递数据、 运营商开户数据、 房 产数据、 车辆数据以及法人数据, 在数据库中合并数据信息, 得到合并数据表; 并对数据信 息依据数据内容、 来源进行分区存储; 包括: 0057 所述寄递数据、 运营商开户数据、 房产数据、 车辆数据以及法人数据要以从多个数 据源获取。 0058 所述在数据库中合并数据信息, 包括: 根据获取到的寄递数据, 从寄递数据中提取 运单号、 寄件人信息及收件人信息; 再根据寄件人信息、 收件人信息分别查询运营商开户数 据、 房产数据、 车辆数据以及法人数据, 使寄递数据的每一个运单号对应两条数据记录,。

35、 分 别为第一记录和第二记录; 所述第一记录至少包括获取的寄递数据中的运单号、 快递公司、 该运单号对应的寄件人电话号、 该电话号对应的开户人姓名、 开户人身份证号、 房产数据、 车辆数据以及法人数据; 所述第二记录至少包括获取的寄递数据中的运单号、 快递公司、 该 运单号对应的收件人电话号、 该电话号对应的开户人姓名、 开户人身份证号、 房产数据、 车 辆数据以及法人数据; 得到待计算数据; 0059 所述该运单号对应的寄件人电话号、 该运单号对应的收件人电话号均对应于电话 号列, 该电话号对应的开户人姓名, 均对应于姓名列。 0060 在数据库中合并数据信息, 并对数据信息依据数据内容、 。

36、来源进行分区存储, 还包 括: 使用greenplum数据库, 利用应用场景标志dt、 快递类型code为数据信息进行分区; 0061 对于应用场景标志dt, dt1表示该数据为发件数据, dt2表示该数据为收件数 据, dt3表示数据为运营商开户数据, dt4表示数据至少为房产数据、 车辆、 法人数据之 一; 0062 对于快递类型code, 先获取该数据信息对应的应用场景标志dt, 若dt1或dt2, 则该快递类型code为快递公司名称缩写; 若dt3, 则该快递类型code标记为kh, 若dt4, 则该快递类型code标记为ybss。 0063 本实施例中, 合并后生成的记录如表1所示。。

37、 说明书 5/8 页 9 CN 111832998 A 9 0064 0065 表1 0066 所述步骤S102: 对合并数据表中的数据进行分组、 合并, 得到处理后的数据表, 所 述处理后的数据表中至少记录有姓名、 电话号码、 地址、 该电话号码在不同应用场景应用的 次数; 包括: 0067 获取合并数据表, 使用sql, 根据姓名、 电话号, 将合并数据表中的数据分组, 对于 姓名、 电话号均相同的记录, 将地址去重, 对于具有多个地址的, 使用符号&连接多个地址, 并对应用场景dt进行逻辑计数, 生成处理后的数据表, 所述处理后的数据表中至少记录有 姓名、 电话号码、 地址、 该电话号码。

38、在不同应用场景应用的次数。 0068 本实施例中, 表1中的数据经过处理后, 得到的处理后的数据表如下表2所示。 0069 姓名电话地址dt1dt2dt3dt4 张三13619192929地址一&地址五1001 李四13899029983地址二2000 王五17799092278地址三0010 钱七17799092278地址六&地址七1101 程六13881819900地址四0010 0070 表2 0071 结合表1和表2可以看出, 张三在发送快递及与房产、 车辆、 法人等相关使用场景 下, 使用过其对应的电话号码; 李四在两次发送快递时使用其对应的电话号码; 王五在运营 商处获得的信息中使。

39、用过其对应的号码, 钱七使用的号码与王五一致, 钱七在发快递、 收快 递、 以及与房产、 车辆、 法人等相关使用场景下, 均使用过该号码。 程六在运营商处获得的信 息中使用过其对应的号码。 0072 所述步骤S103: 获取概率计算模板, 从所述概率计算模板获取概率规则, 其概率计 算模板可以由用户根据使用需求动态配置。 0073 本实施例中, 所述概率规则为: 当寄递次数至少为2时, 即寄快递、 收快递累计至少 2次时, 也即dt1和dt2的计数和至少为2时, 处理后的数据表中的电话号码的实际使用 者与处理后的数据表中记录的姓名一致的概率为0.6; 0074 当寄递次数为1时, 即仅寄快递1。

40、次或收快递1次时, 也即dt1和dt2的计数和为 说明书 6/8 页 10 CN 111832998 A 10 1时, 处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的 概率为0.3; 0075 当运营商开户数据计数大于0, dt3的计数大于0时, 处理后的数据表中的电话号 码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.15; 0076 当房产信息、 车辆数据、 法人数据的计数大于0, 即dt4的计数大于0时, 处理后的 数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.25; 0077 步骤S104: 基于所述概率规则, 使用Spa。

41、rk对所述处理后的数据表中的电话号码及 姓名进行概率计算, 如图2所示。 包括: 0078 基于所述概率规则及处理后的数据表中的该电话号码在不同应用场景应用的次 数, 将各应用场景各自对应的标志dt的数值以连接符&连接; 由Spark分别针对各应用场景 进行概率计算; 再将各应用场景对应的概率值求和。 0079 对如表2中的处理后的数据表, 按所述概率规则进行计算后, 得到的概率表如表3 所示。 0080 姓名电话地址descrate 张三13619192929地址一&地址五1&0&0&10.55 李四13899029983地址二2&0&0&00.6 王五17799092278地址三0&0&1。

42、&00.15 钱七17799092278地址六1&1&0&10.75 程六13881819900地址四0&0&1&00.15 0081 表3 0082 从表3中, 可以看出人员与当前使用的电话号码的匹配度, 特别注意王五与钱七的 数据, 两人共用同一个号码, 该号码是王五注册的, 但实际使用是由钱七使用, 根据数据计 算结果, 可以大概率地判定此号码的真实使用者是钱七。 对于海量数据, 计算出来的真实使 用者的概率会更趋近于实际情况。 0083 图3为本发明一个实施方式的判断寄递信息中电话号码真实使用者的系统架构 图, 具体如图3所示。 0084 本发明实施例进一步给出一种判断寄递信息中电话号。

43、码真实使用者的装置, 如图 4所示, 所述装置包括: 0085 合并数据表生成模块: 获取数据信息, 所述数据信息包括寄递数据、 运营商开户数 据、 房产数据、 车辆数据以及法人数据, 在数据库中合并数据信息, 得到合并数据表; 并对数 据信息依据数据内容、 来源进行分区存储; 0086 处理后数据表生成模块: 对合并数据表中的数据进行分组、 合并, 得到处理后的数 据表, 所述处理后的数据表中至少记录有姓名、 电话号码、 地址、 该电话号码在不同应用场 景应用的次数; 0087 获取模块: 获取概率计算模板, 从所述概率计算模板获取概率规则; 0088 计算模块: 基于所述概率规则, 使用S。

44、park对所述处理后的数据表中的电话号码及 姓名进行概率计算。 0089 本发明实施例进一步给出一种判断寄递信息中电话号码真实使用者的系统, 包 括: 说明书 7/8 页 11 CN 111832998 A 11 0090 处理器, 用于执行多条指令; 0091 存储器, 用于存储多条指令; 0092 其中, 所述多条指令, 用于由所述存储器存储, 并由所述处理器加载并执行如前所 述的一种判断寄递信息中电话号码真实使用者的方法。 0093 本发明实施例进一步给出一种计算机可读存储介质, 所述存储介质中存储有多条 指令; 所述多条指令, 用于由处理器加载并执行如前所述的一种判断寄递信息中电话号码。

45、 真实使用者的方法。 0094 需要说明的是, 在不冲突的情况下, 本发明中的实施例及实施例中的特征可以相 互组合。 0095 在本发明所提供的几个实施例中, 应该理解到, 所揭露的系统, 装置和方法, 可以 通过其它的方式实现。 例如, 以上所描述的装置实施例仅仅是示意性的, 例如, 所述单元的 划分, 仅仅为一种逻辑功能划分, 实际实现时可以有另外的划分方式, 例如, 多个单元或组 件可以结合或者可以集成到另一个系统, 或一些特征可以忽略, 或不执行。 另一点, 所显示 或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口, 装置或单元的间接 耦合或通信连接, 可以是电性, 机械或。

46、其它的形式。 0096 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的, 作为单元显 示的部件可以是或者也可以不是物理单元, 即可以位于一个地方, 或者也可以分布到多个 网络单元上。 可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目 的。 0097 另外, 在本发明各个实施例中的各功能单元可以集成在一个处理单元中, 也可以 是各个单元单独物理存在, 也可以两个或两个以上单元集成在一个单元中。 上述集成的单 元既可以采用硬件的形式实现, 也可以采用硬件加软件功能单元的形式实现。 0098 上述以软件功能单元的形式实现的集成的单元, 可以存储在一个计算机可读取存 储介。

47、质中。 上述软件功能单元存储在一个存储介质中, 包括若干指令用以使得一台计算机 装置(可以是个人计算机, 实体机服务器, 或者网络云服务器等, 需安装Windows或者 Windows Server操作系统)执行本发明各个实施例所述方法的部分步骤。 而前述的存储介 质包括: U盘、 移动硬盘、 只读存储器(Read-Only Memory, ROM)、 随机存取存储器(Random Access Memory, RAM)、 磁碟或者光盘等各种可以存储程序代码的介质。 0099 以上所述, 仅是本发明的较佳实施例而已, 并非对本发明作任何形式上的限制, 依 据本发明的技术实质对以上实施例所作的任何简单修改、 等同变化与修饰, 均仍属于本发 明技术方案的范围内。 说明书 8/8 页 12 CN 111832998 A 12 图1 说明书附图 1/3 页 13 CN 111832998 A 13 图2 说明书附图 2/3 页 14 CN 111832998 A 14 图3 图4 说明书附图 3/3 页 15 CN 111832998 A 15 。

展开阅读全文
内容关键字: 判断 寄递 电话号码 真实 使用者 方法 装置
关于本文
本文标题:判断寄递电话号码真实使用者的方法及装置.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10379241.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1