《一种通过捕捉比对关键元素实现多系统信息关联的方法.pdf》由会员分享,可在线阅读,更多相关《一种通过捕捉比对关键元素实现多系统信息关联的方法.pdf(7页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102236635 A (43)申请公布日 2011.11.09 CN 102236635 A *CN102236635A* (21)申请号 201010153330.6 (22)申请日 2010.04.22 G06F 17/27(2006.01) G06Q 10/00(2006.01) (71)申请人 上海百果信息科技有限公司 地址 201700 上海市青浦区聚星街 18 号 -640 申请人 董鸣雁 (72)发明人 董鸣雁 (74)专利代理机构 上海世贸专利代理有限责任 公司 31128 代理人 李浩东 (54) 发明名称 一种通过捕捉比对关键元素实现多系统信息 。
2、关联的方法 (57) 摘要 本发明公开了一种通过捕捉比对关键元素 实现多系统信息关联的方法, 其特征在于 : 所述 方法的步骤为 I、 获取记录 A 和记录 B 中的关键 元素 ; II、 对记录 A 和记录 B 中的关键元素进行 比对, 只提取共有的关键元素 ; III、 对所提取的 关键元素的合理性进行分值评估 ; V、 权重分值判 定 ; 采用 X-MPI 技术将大大减少对源系统数据手 工校验的工作量, 同时提高各系统间数据关联的 命中率, 最大程度减少原有系统的改造量, 本系统 所实现的方法相比现有技术而言具有突出的实质 性特点和显著进步。 (51)Int.Cl. (19)中华人民共和。
3、国国家知识产权局 (12)发明专利申请 权利要求书 1 页 说明书 4 页 附图 1 页 CN 102236639 A1/1 页 2 1. 一种通过捕捉比对关键元素实现多系统信息关联的方法, 其特征在于 : 所述方法的 步骤为 I、 获取记录 A 和记录 B 中的关键元素 ; II、 对记录 A 和记录 B 中的关键元素进行比对, 只提取共有的关键元素 ; III、 对所提取的关键元素的合理性进行分值评估 ; i、 对其中任意一个关键元素进行合理性评估, 若判定为 “合理” 则继续下个关键元素的 合理性评估 ; ii、 对其中任意一个关键元素进行合理性评估, 若判定为 “不合理” , 则降低合。
4、理性分 值, 再继续下个关键元素的合理性评估 ; IV、 对所提取的关键元素的相似度进行分值评估 ; i、 对其中任意一个关键元素进行相似度评估, 若判定为 “相似” 则继续下个关键元素的 相似度评估 ; ii、 对其中任意一个关键元素进行相似度评估, 若判定为 “相似” , 则降低相似度分值, 再继续下个关键元素的相似度评估 ; V、 权重分值判定 ; i、 权重分值合理性分值 相似度分值 ; ii、 权重分值与预设分值进行判定 ; iii、 权重分值达到预设分值, 则判定记录 A 和记录 B 为同一件事物 ; iv、 若权重分值没有达到预设分值, 则对比一般元素及参考元素, 再累加权重分值。
5、, 如 果总分值达到预设分值, 则判定记录 A 和记录 B 为同一件事物, 若总分值没有达到预设分值, 则结束程序。 2. 根据权利要求 1 所述的一种通过捕捉比对关键元素实现多系统信息关联的方法, 其 特征在于 : 所述记录 A 和记录 B 中一项关键元素内的信息内容包含有其它项关键元素的内 容, 相互之间可实现交叉验证。 权 利 要 求 书 CN 102236635 A CN 102236639 A1/4 页 3 一种通过捕捉比对关键元素实现多系统信息关联的方法 技术领域 : 0001 本发明涉及计算机信息管理的技术领域, 具体的说是一种通过捕捉比对关键元素 实现多系统信息关联的方法, 特。
6、别涉及其终端连接结构和居民主索引方式。 背景技术 : 0002 目前各个行业都采用大型数据库存储业务数据。根据行业自身特点, 开发不同的 行业系统。虽然这些系统满足各行业本身业务要求, 但将这些信息关联起来却成了一个非 常大的难题。 没有统一的技术标准、 不精确的业务用词、 存在偏差的数据等都会对信息关联 产生影响。比如一位叫 “张三” 的居民, 在系统 A 中登记为 “张三” , 而在系统 B 中由于某些 原因被登记为 “张叁” , 当这 2 个系统需要做信息关联时, 会被认为 2 个不同的居民。除了对 人的信息关联外, 其他需要关联的信息也存在这一问题, 比如企事业单位、 商品信息等。 0。
7、003 目前解决这一问题的主要方法是制定标准的技术接口, 并对现有系统进行改造, 同时采用人工或半人工的方式核对数据正确性。这种解决方案的缺点显而易见, 当相关联 的系统数量越多, 需要制定的标准技术接口就越复杂, 需要改造的系统数量就越多, 需要核 对的数据量也越多, 实施成本成指数级增长。 发明内容 : 0004 本发明的目的在于提供一种通过捕捉比对关键元素实现多系统信息关 联的方法, 从根本上解决多系统间的数据交互问题, 将各系统的关键元素设置到 X-MPI(Cross-Platform Master Personal Index, 跨平台信息主索引, 简称X-MPI)系统中, 通过对各。
8、个系统中关键元素的采样分析, 通过各种权重配比, 完成数据关联, 准克服了现有 技术中存在的缺点和不足。 0005 为了实现上述目的, 本发明的技术方案是 : 一种通过捕捉比对关键元素实现多系 统信息关联的, 其特征在于 : 所述方法的步骤为 0006 I、 获取记录A和记录B中的关键元素, 关键元素的内容可由系统自动生成, 也可由 用户自定义生成 ; 0007 II、 对记录 A 和记录 B 中的关键元素进行比对, 只提取共有的关键元素 ; 0008 III、 对所提取的关键元素的合理性进行分值评估 ; 0009 i、 对其中任意一个关键元素进行合理性评估, 若判定为 “合理” 则继续下个关。
9、键元 素的合理性评估 ; 0010 ii、 对其中任意一个关键元素进行合理性评估, 若判定为 “不合理” , 则降低合理性 分值, 再继续下个关键元素的合理性评估 ; 0011 IV、 对所提取的关键元素的相似度进行分值评估 ; 0012 i、 对其中任意一个关键元素进行相似度评估, 若判定为 “相似” 则继续下个关键元 素的相似度评估 ; 0013 ii、 对其中任意一个关键元素进行相似度评估, 若判定为 “相似” , 则降低相似度分 说 明 书 CN 102236635 A CN 102236639 A2/4 页 4 值, 再继续下个关键元素的相似度评估 ; 0014 V、 权重分值判定 。
10、; 0015 i、 权重分值合理性分值 相似度分值 ; 0016 ii、 权重分值与预设分值进行判定 ; 0017 iii、 权重分值达到预设分值, 则判定记录 A 和记录 B 为同一件事物 ; 0018 iv、 若权重分值没有达到预设分值, 则对比一般元素及参考元素, 再累加权重分 值, 如果总分值达到预设分值, 则则判定记录 A 和记录 B 为同一件事物, 若总分值没有达到 预设分值, 则结束程序。 0019 本发明公开了一种通过捕捉比对关键元素实现多系统信息关联的方法, 采用 X-MPI 技术将大大减少对源系统数据手工校验的工作量, 同时提高各系统间数据关联的命 中率, 最大程度减少原有。
11、系统的改造量, 本系统所实现的方法相比现有技术而言具有突出 的实质性特点和显著进步。 附图说明 : 0020 图 1 为本发明流程框图 ; 具体实施方式 : 0021 下面参照附图, 对本发明进一步进行描述 0022 本发明为一种通过捕捉比对关键元素实现多系统信息关联的方法, 其区别于现有 技术在于 : 所述方法的步骤为 0023 I、 获取记录 A 和记录 B 中的关键元素 ; 0024 II、 对记录 A 和记录 B 中的关键元素进行比对, 只提取共有的关键元素 ; 0025 III、 对所提取的关键元素的合理性进行分值评估 ; 0026 i、 对其中任意一个关键元素进行合理性评估, 若判。
12、定为 “合理” 则继续下个关键元 素的合理性评估 ; 0027 ii、 对其中任意一个关键元素进行合理性评估, 若判定为 “不合理” , 则降低合理性 分值, 再继续下个关键元素的合理性评估 ; 0028 IV、 对所提取的关键元素的相似度进行分值评估 ; 0029 i、 对其中任意一个关键元素进行相似度评估, 若判定为 “相似” 则继续下个关键元 素的相似度评估 ; 0030 ii、 对其中任意一个关键元素进行相似度评估, 若判定为 “相似” , 则降低相似度分 值, 再继续下个关键元素的相似度评估 ; 0031 V、 权重分值判定 ; 0032 i、 权重分值合理性分值 相似度分值 ; 0。
13、033 ii、 权重分值与预设分值进行判定 ; 0034 iii、 权重分值达到预设分值, 则判定记录 A 和记录 B 为同一件事物 ; 0035 iv、 若权重分值没有达到预设分值, 则对比一般元素及参考元素, 再累加权重分 值, 如果总分值达到预设分值, 0036 则判定记录 A 和记录 B 为同一件事物, 若总分值没有达到预设分值, 则结束程序。 说 明 书 CN 102236635 A CN 102236639 A3/4 页 5 0037 所述记录 A 和记录 B 中一项关键元素内的信息内容包含有其它项关键元素的内 容, 相互之间可实现交叉验证。 0038 X-MPI 技术是通过对多系。
14、统中关键元素的特征值采样分析来关联数据的。这里以 多个系统中的居民信息关联为例 : 0039 实施例 : 假定以姓名、 性别、 出生年月和身份证号作为首要关键元素, 系统首先会 对其进行有效性判定, 比如性别、 出生年月和身份证号的相互校验 ( 将出生年月与身份证 的 7 到 14 位做正确性校验, 判断日期是否一致 ; 将性别与身份证的 17 位做校验, 奇数为男 偶数为女 ) ; 15 位 18 位身份证号的转换 ( 系统会将 15 位的老身份证转换为 18 位新身份 证) ; 18位身份证有效性校验(将身份证前17位进行一个固定的运算, 获得09或者X的校 验位, 判断计算获得的校验位与。
15、身份证第 18 位是否一致 ) ; 姓名合理性判定 ( 系统首先会 对姓名字符串做前后去空格操作, 然后识别字符串中的每个字符, 当同时存在中文、 英文字 母、 数字、 符号中的 2 个及以上时, 会降低该姓名的关键程度, 系统会认为该姓名 “不可信” ) 等。对于不合理或错误的元素降低其关键程度。再将需要关联两个或多个系统中居民的信 息进行比对, 对每个元素进行权重打分。根据分值判断是否为同一居民。对于分值不足的, 采用其他关键元素采样分析。举例说明 : 0040 关键元素设置 : 姓名、 性别、 出生年月、 身份证, 性别和出生年月对身份证有依赖关 系 ( 身份证可以替换性别和出生年月, 。
16、当身份证不存在时, 出生年月和性别的有效性都会 降低一个等级 ), 每个元素权重分 25 分。 0041 合理性设置 : 满分 5 分, 部分有效 3 分, 空值 0 分 ; 0042 相似度设置 : 满分 5 分, 相邻 3 分, 相隔 2 分, 单个包含 1 分, 不同 0 分, 允许信息分 段比较 ; 0043 权重分设置 : 满分 100, 60 分及以上认为可以执行关联 ; 0044 权重公式 : 有效性 相似度。 0045 记 录 A :姓 名 ( 张 三 ),性 别 ( 男 ),出 生 年 月 (1982-6-26),身 份 证 (310103820726403) 0046 记 。
17、录 B :姓 名 ( 张 三 a),性 别 ( 男 ),出 生 年 月 (820726),身 份 证 (310103198207264032) 0047 1. 判定各元素有效性 : 0048 a) 姓名 : 由于记录 B 中姓名同时存在中英文, 不符合使用习惯, 降低有效度 (3 分 ) ; 0049 b)身份证 : 长度合理, 15位验证年月日通过, 18位验证年月日及性别通过, 18位验 证校验位通过, 有效性 5 分 ; 0050 c)出生年月 : 记录A中出生年月与身份证的年月日不一致, 但相似程度超过60, 认为部分有效, 有效性 3 分 ; 0051 d) 性别 : 通过与身份证的。
18、比对, 有效性 5 分。 0052 2. 判断相似度 : 0053 a) 姓名 : 记录 A 包含记录 B 中, 且为相邻位置完全包含, 相似性 3 分 ; 0054 b) 性别 : 完全相同, 相似性 5 分 ; 0055 c) 出生年月 : 当前年份最近的 82 年为 1982 年, 因此年份相同, 07 月等同于 7 月, 说 明 书 CN 102236635 A CN 102236639 A4/4 页 6 与 6 月份不相同, 日期都为 26 日, 日期相同。由于年份占据出生日期中较高的重要性, 我们 将日期分成年、 月、 日 3 段, 分别划分为 40、 30、 30, 3 段日期中。
19、月份不同, 我们认为有 70的相似性, 因此得 3.5 分 ; 0056 d) 身份证 : 将 15 位身份证转换为 18 为, 两者相同, 相似性 5 分 ; 0057 3. 权重打分 : (33)+(55)+(33.5)+(55) 69.5 0058 4. 信息关联 : 由于权重打分 69.5 超过标准的 60 分, 系统将记录 A 和记录 B 关联 在同一位居民的信息中, 同时记录信息来源, 完成索引登记。 0059 注意 : 如果关键元素的分值不足以判定关联, X-MPI 系统会通过 2 套系统提供的其 他元素 ( 一般元素和参考元素, 比对方式同关键元素, 但分值远小于关键元素 )。。
20、比对完所 有可用元素后仍然无法确认关联关系的, 系统会将其标记为不同居民。 0060 对于信息关联采用元素采样的方式, 对于元素本身, 同样可以通过采样分析来确 定其相似性, 比如 “上海市普陀区怒江北路 427 号” 、“上海普陀怒江北路 427 号” 、“普陀区怒 江北路 427 号” 、“上海市怒江北路 427 号” , 虽然这些地址的描述方式不同, 通过对地址中关 键信息 “怒江北路” 、“427” 、“普陀” 等信息的采样, 分别给出相似性 ( 假定我们定义 “市、 区 / 县、 街道 / 镇、 居委 / 村、 路 / 队、 弄、 号、 室” 是地址中的固定区域划分标志, 那么 “上。
21、海市 普陀区” 和 “上海普陀” 就认为是相同的地区 ; 另外, 区域范围内有唯一性,“上海市普陀区 怒江北路 427 号” 和 “上海市怒江北路 427 号” , 由于 “上海市, , 中只有一个 “怒江北路 427 号” , 因此我们认为这 2 个地址是相同门牌, 而 “上海市怒江北路 427 号” 和 “怒江北路 427 号” 由于没有确定的区域, 这 2 个地址我们认为是相似的门牌, 其权重分数将低于之前的那 组 ), 同时结合元素本身的重要程度给出该元素的权重分数。 说 明 书 CN 102236635 A CN 102236639 A1/1 页 7 图 1 说 明 书 附 图 CN 102236635 A 。