书签分享收藏举报版权申诉 / 7

立即下载加入VIP,免费下载

当前位置：首页 > 物理 > 计算；推算；计数 > 一种通过捕捉比对关键元素实现多系统信息关联的方法.pdf

一种通过捕捉比对关键元素实现多系统信息关联的方法.pdf

上传人：00062****4422

文档编号：5862519

上传时间：2019-03-26

格式：PDF

页数：7

大小：399.36KB

《一种通过捕捉比对关键元素实现多系统信息关联的方法.pdf》由会员分享，可在线阅读，更多相关《一种通过捕捉比对关键元素实现多系统信息关联的方法.pdf（7页完整版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 102236635 A (43)申请公布日 2011.11.09 CN 102236635 A *CN102236635A* (21)申请号 201010153330.6 (22)申请日 2010.04.22 G06F 17/27(2006.01) G06Q 10/00(2006.01) (71)申请人上海百果信息科技有限公司地址 201700 上海市青浦区聚星街 18 号 -640 申请人董鸣雁 (72)发明人董鸣雁 (74)专利代理机构上海世贸专利代理有限责任公司 31128 代理人李浩东 (54) 发明名称一种通过捕捉比对关键元素实现多系统信息。

2、关联的方法 (57) 摘要本发明公开了一种通过捕捉比对关键元素实现多系统信息关联的方法，其特征在于：所述方法的步骤为 I、获取记录 A 和记录 B 中的关键元素； II、对记录 A 和记录 B 中的关键元素进行比对，只提取共有的关键元素； III、对所提取的关键元素的合理性进行分值评估； V、权重分值判定；采用 X-MPI 技术将大大减少对源系统数据手工校验的工作量，同时提高各系统间数据关联的命中率，最大程度减少原有系统的改造量，本系统所实现的方法相比现有技术而言具有突出的实质性特点和显著进步。 (51)Int.Cl. (19)中华人民共和。

3、国国家知识产权局 (12)发明专利申请权利要求书 1 页说明书 4 页附图 1 页 CN 102236639 A1/1 页 2 1. 一种通过捕捉比对关键元素实现多系统信息关联的方法，其特征在于：所述方法的步骤为 I、获取记录 A 和记录 B 中的关键元素； II、对记录 A 和记录 B 中的关键元素进行比对，只提取共有的关键元素； III、对所提取的关键元素的合理性进行分值评估； i、对其中任意一个关键元素进行合理性评估，若判定为 “合理” 则继续下个关键元素的合理性评估； ii、对其中任意一个关键元素进行合理性评估，若判定为 “不合理” ，则降低合。

4、理性分值，再继续下个关键元素的合理性评估； IV、对所提取的关键元素的相似度进行分值评估； i、对其中任意一个关键元素进行相似度评估，若判定为 “相似” 则继续下个关键元素的相似度评估； ii、对其中任意一个关键元素进行相似度评估，若判定为 “相似” ，则降低相似度分值，再继续下个关键元素的相似度评估； V、权重分值判定； i、权重分值合理性分值相似度分值； ii、权重分值与预设分值进行判定； iii、权重分值达到预设分值，则判定记录 A 和记录 B 为同一件事物； iv、若权重分值没有达到预设分值，则对比一般元素及参考元素，再累加权重分值。

5、，如果总分值达到预设分值，则判定记录 A 和记录 B 为同一件事物，若总分值没有达到预设分值，则结束程序。 2. 根据权利要求 1 所述的一种通过捕捉比对关键元素实现多系统信息关联的方法，其特征在于：所述记录 A 和记录 B 中一项关键元素内的信息内容包含有其它项关键元素的内容，相互之间可实现交叉验证。权利要求书 CN 102236635 A CN 102236639 A1/4 页 3 一种通过捕捉比对关键元素实现多系统信息关联的方法技术领域： 0001 本发明涉及计算机信息管理的技术领域，具体的说是一种通过捕捉比对关键元素实现多系统信息关联的方法，特。

6、别涉及其终端连接结构和居民主索引方式。背景技术： 0002 目前各个行业都采用大型数据库存储业务数据。根据行业自身特点，开发不同的行业系统。虽然这些系统满足各行业本身业务要求，但将这些信息关联起来却成了一个非常大的难题。没有统一的技术标准、不精确的业务用词、存在偏差的数据等都会对信息关联产生影响。比如一位叫 “张三” 的居民，在系统 A 中登记为 “张三” ，而在系统 B 中由于某些原因被登记为 “张叁” ，当这 2 个系统需要做信息关联时，会被认为 2 个不同的居民。除了对人的信息关联外，其他需要关联的信息也存在这一问题，比如企事业单位、商品信息等。 0。

7、003 目前解决这一问题的主要方法是制定标准的技术接口，并对现有系统进行改造，同时采用人工或半人工的方式核对数据正确性。这种解决方案的缺点显而易见，当相关联的系统数量越多，需要制定的标准技术接口就越复杂，需要改造的系统数量就越多，需要核对的数据量也越多，实施成本成指数级增长。发明内容： 0004 本发明的目的在于提供一种通过捕捉比对关键元素实现多系统信息关联的方法，从根本上解决多系统间的数据交互问题，将各系统的关键元素设置到 X-MPI(Cross-Platform Master Personal Index，跨平台信息主索引，简称X-MPI)系统中，通过对各。

8、个系统中关键元素的采样分析，通过各种权重配比，完成数据关联，准克服了现有技术中存在的缺点和不足。 0005 为了实现上述目的，本发明的技术方案是：一种通过捕捉比对关键元素实现多系统信息关联的，其特征在于：所述方法的步骤为 0006 I、获取记录A和记录B中的关键元素，关键元素的内容可由系统自动生成，也可由用户自定义生成； 0007 II、对记录 A 和记录 B 中的关键元素进行比对，只提取共有的关键元素； 0008 III、对所提取的关键元素的合理性进行分值评估； 0009 i、对其中任意一个关键元素进行合理性评估，若判定为 “合理” 则继续下个关。

9、键元素的合理性评估； 0010 ii、对其中任意一个关键元素进行合理性评估，若判定为 “不合理” ，则降低合理性分值，再继续下个关键元素的合理性评估； 0011 IV、对所提取的关键元素的相似度进行分值评估； 0012 i、对其中任意一个关键元素进行相似度评估，若判定为 “相似” 则继续下个关键元素的相似度评估； 0013 ii、对其中任意一个关键元素进行相似度评估，若判定为 “相似” ，则降低相似度分说明书 CN 102236635 A CN 102236639 A2/4 页 4 值，再继续下个关键元素的相似度评估； 0014 V、权重分值判定。

10、； 0015 i、权重分值合理性分值相似度分值； 0016 ii、权重分值与预设分值进行判定； 0017 iii、权重分值达到预设分值，则判定记录 A 和记录 B 为同一件事物； 0018 iv、若权重分值没有达到预设分值，则对比一般元素及参考元素，再累加权重分值，如果总分值达到预设分值，则则判定记录 A 和记录 B 为同一件事物，若总分值没有达到预设分值，则结束程序。 0019 本发明公开了一种通过捕捉比对关键元素实现多系统信息关联的方法，采用 X-MPI 技术将大大减少对源系统数据手工校验的工作量，同时提高各系统间数据关联的命中率，最大程度减少原有。

11、系统的改造量，本系统所实现的方法相比现有技术而言具有突出的实质性特点和显著进步。附图说明： 0020 图 1 为本发明流程框图；具体实施方式： 0021 下面参照附图，对本发明进一步进行描述 0022 本发明为一种通过捕捉比对关键元素实现多系统信息关联的方法，其区别于现有技术在于：所述方法的步骤为 0023 I、获取记录 A 和记录 B 中的关键元素； 0024 II、对记录 A 和记录 B 中的关键元素进行比对，只提取共有的关键元素； 0025 III、对所提取的关键元素的合理性进行分值评估； 0026 i、对其中任意一个关键元素进行合理性评估，若判。

12、定为 “合理” 则继续下个关键元素的合理性评估； 0027 ii、对其中任意一个关键元素进行合理性评估，若判定为 “不合理” ，则降低合理性分值，再继续下个关键元素的合理性评估； 0028 IV、对所提取的关键元素的相似度进行分值评估； 0029 i、对其中任意一个关键元素进行相似度评估，若判定为 “相似” 则继续下个关键元素的相似度评估； 0030 ii、对其中任意一个关键元素进行相似度评估，若判定为 “相似” ，则降低相似度分值，再继续下个关键元素的相似度评估； 0031 V、权重分值判定； 0032 i、权重分值合理性分值相似度分值； 0。

13、033 ii、权重分值与预设分值进行判定； 0034 iii、权重分值达到预设分值，则判定记录 A 和记录 B 为同一件事物； 0035 iv、若权重分值没有达到预设分值，则对比一般元素及参考元素，再累加权重分值，如果总分值达到预设分值， 0036 则判定记录 A 和记录 B 为同一件事物，若总分值没有达到预设分值，则结束程序。说明书 CN 102236635 A CN 102236639 A3/4 页 5 0037 所述记录 A 和记录 B 中一项关键元素内的信息内容包含有其它项关键元素的内容，相互之间可实现交叉验证。 0038 X-MPI 技术是通过对多系。

14、统中关键元素的特征值采样分析来关联数据的。这里以多个系统中的居民信息关联为例： 0039 实施例：假定以姓名、性别、出生年月和身份证号作为首要关键元素，系统首先会对其进行有效性判定，比如性别、出生年月和身份证号的相互校验 ( 将出生年月与身份证的 7 到 14 位做正确性校验，判断日期是否一致；将性别与身份证的 17 位做校验，奇数为男偶数为女 ) ； 15 位 18 位身份证号的转换 ( 系统会将 15 位的老身份证转换为 18 位新身份证) ； 18位身份证有效性校验(将身份证前17位进行一个固定的运算，获得09或者X的校验位，判断计算获得的校验位与。

15、身份证第 18 位是否一致 ) ；姓名合理性判定 ( 系统首先会对姓名字符串做前后去空格操作，然后识别字符串中的每个字符，当同时存在中文、英文字母、数字、符号中的 2 个及以上时，会降低该姓名的关键程度，系统会认为该姓名 “不可信” ) 等。对于不合理或错误的元素降低其关键程度。再将需要关联两个或多个系统中居民的信息进行比对，对每个元素进行权重打分。根据分值判断是否为同一居民。对于分值不足的，采用其他关键元素采样分析。举例说明： 0040 关键元素设置：姓名、性别、出生年月、身份证，性别和出生年月对身份证有依赖关系 ( 身份证可以替换性别和出生年月，。

16、当身份证不存在时，出生年月和性别的有效性都会降低一个等级 )，每个元素权重分 25 分。 0041 合理性设置：满分 5 分，部分有效 3 分，空值 0 分； 0042 相似度设置：满分 5 分，相邻 3 分，相隔 2 分，单个包含 1 分，不同 0 分，允许信息分段比较； 0043 权重分设置：满分 100， 60 分及以上认为可以执行关联； 0044 权重公式：有效性相似度。 0045 记录 A ：姓名 ( 张三 )，性别 ( 男 )，出生年月 (1982-6-26)，身份证 (310103820726403) 0046 记。

17、录 B ：姓名 ( 张三 a)，性别 ( 男 )，出生年月 (820726)，身份证 (310103198207264032) 0047 1. 判定各元素有效性： 0048 a) 姓名：由于记录 B 中姓名同时存在中英文，不符合使用习惯，降低有效度 (3 分 ) ； 0049 b)身份证：长度合理， 15位验证年月日通过， 18位验证年月日及性别通过， 18位验证校验位通过，有效性 5 分； 0050 c)出生年月：记录A中出生年月与身份证的年月日不一致，但相似程度超过60，认为部分有效，有效性 3 分； 0051 d) 性别：通过与身份证的。

18、比对，有效性 5 分。 0052 2. 判断相似度： 0053 a) 姓名：记录 A 包含记录 B 中，且为相邻位置完全包含，相似性 3 分； 0054 b) 性别：完全相同，相似性 5 分； 0055 c) 出生年月：当前年份最近的 82 年为 1982 年，因此年份相同， 07 月等同于 7 月，说明书 CN 102236635 A CN 102236639 A4/4 页 6 与 6 月份不相同，日期都为 26 日，日期相同。由于年份占据出生日期中较高的重要性，我们将日期分成年、月、日 3 段，分别划分为 40、 30、 30， 3 段日期中。

19、月份不同，我们认为有 70的相似性，因此得 3.5 分； 0056 d) 身份证：将 15 位身份证转换为 18 为，两者相同，相似性 5 分； 0057 3. 权重打分： (33)+(55)+(33.5)+(55) 69.5 0058 4. 信息关联：由于权重打分 69.5 超过标准的 60 分，系统将记录 A 和记录 B 关联在同一位居民的信息中，同时记录信息来源，完成索引登记。 0059 注意：如果关键元素的分值不足以判定关联， X-MPI 系统会通过 2 套系统提供的其他元素 ( 一般元素和参考元素，比对方式同关键元素，但分值远小于关键元素 )。。

20、比对完所有可用元素后仍然无法确认关联关系的，系统会将其标记为不同居民。 0060 对于信息关联采用元素采样的方式，对于元素本身，同样可以通过采样分析来确定其相似性，比如 “上海市普陀区怒江北路 427 号” 、“上海普陀怒江北路 427 号” 、“普陀区怒江北路 427 号” 、“上海市怒江北路 427 号” ，虽然这些地址的描述方式不同，通过对地址中关键信息 “怒江北路” 、“427” 、“普陀” 等信息的采样，分别给出相似性 ( 假定我们定义 “市、区 / 县、街道 / 镇、居委 / 村、路 / 队、弄、号、室” 是地址中的固定区域划分标志，那么 “上。

21、海市普陀区” 和 “上海普陀” 就认为是相同的地区；另外，区域范围内有唯一性，“上海市普陀区怒江北路 427 号” 和 “上海市怒江北路 427 号” ，由于 “上海市，，中只有一个 “怒江北路 427 号” ，因此我们认为这 2 个地址是相同门牌，而 “上海市怒江北路 427 号” 和 “怒江北路 427 号” 由于没有确定的区域，这 2 个地址我们认为是相似的门牌，其权重分数将低于之前的那组 )，同时结合元素本身的重要程度给出该元素的权重分数。说明书 CN 102236635 A CN 102236639 A1/1 页 7 图 1 说明书附图 CN 102236635 A 。

摘要
申请专利号：	CN201010153330.6	申请日：	2010.04.22
公开号：	CN102236635A	公开日：	2011.11.09
当前法律状态：	撤回	有效性：	无权
法律详情：	发明专利申请公布后的视为撤回IPC(主分类):G06F 17/27申请公布日:20111109\|\|\|实质审查的生效IPC(主分类):G06F 17/27申请日:20100422\|\|\|公开
IPC分类号：	G06F17/27; G06Q10/00	主分类号：	G06F17/27
申请人：	上海百果信息科技有限公司; 董鸣雁
发明人：	董鸣雁
地址：	201700 上海市青浦区聚星街18号-640
优先权：
专利代理机构：	上海世贸专利代理有限责任公司 31128	代理人：	李浩东
PDF完整版下载：	PDF下载

内容摘要

本发明公开了一种通过捕捉比对关键元素实现多系统信息关联的方法，其特征在于：所述方法的步骤为I、获取记录A和记录B中的关键元素；II、对记录A和记录B中的关键元素进行比对，只提取共有的关键元素；III、对所提取的关键元素的合理性进行分值评估；V、权重分值判定；采用X-MPI技术将大大减少对源系统数据手工校验的工作量，同时提高各系统间数据关联的命中率，最大程度减少原有系统的改造量，本系统所实现的方法相比现有技术而言具有突出的实质性特点和显著进步。

权利要求书

1.一种通过捕捉比对关键元素实现多系统信息关联的方法，其
特征在于：所述方法的步骤为
I、获取记录A和记录B中的关键元素；
II、对记录A和记录B中的关键元素进行比对，只提取共有的
关键元素；
III、对所提取的关键元素的合理性进行分值评估；
i、对其中任意一个关键元素进行合理性评估，若判定为“合理”
则继续下个关键元素的合理性评估；
ii、对其中任意一个关键元素进行合理性评估，若判定为“不合
理”，则降低合理性分值，再继续下个关键元素的合理性评估；
IV、对所提取的关键元素的相似度进行分值评估；
i、对其中任意一个关键元素进行相似度评估，若判定为“相似”
则继续下个关键元素的相似度评估；
ii、对其中任意一个关键元素进行相似度评估，若判定为“相似”，
则降低相似度分值，再继续下个关键元素的相似度评估；
V、权重分值判定；
i、权重分值＝合理性分值×相似度分值；
ii、权重分值与预设分值进行判定；
iii、权重分值达到预设分值，则判定记录A和记录B为同一件
事物；
iv、若权重分值没有达到预设分值，则对比一般元素及参考元素，
再累加权重分值，如果总分值达到预设分值，
则判定记录A和记录B为同一件事物，若总分值没有达到预设分
值，则结束程序。
2.根据权利要求1所述的一种通过捕捉比对关键元素实现多系
统信息关联的方法，其特征在于：所述记录A和记录B中一项关键
元素内的信息内容包含有其它项关键元素的内容，相互之间可实现交
叉验证。

说明书

一种通过捕捉比对关键元素实现多系统信息关联的方法

技术领域：

本发明涉及计算机信息管理的技术领域，具体的说是一种通过捕
捉比对关键元素实现多系统信息关联的方法，特别涉及其终端连接结
构和居民主索引方式。

背景技术：

目前各个行业都采用大型数据库存储业务数据。根据行业自身特
点，开发不同的行业系统。虽然这些系统满足各行业本身业务要求，
但将这些信息关联起来却成了一个非常大的难题。没有统一的技术标
准、不精确的业务用词、存在偏差的数据等都会对信息关联产生影响。
比如一位叫“张三”的居民，在系统A中登记为“张三”，而在系统
B中由于某些原因被登记为“张叁”，当这2个系统需要做信息关联
时，会被认为2个不同的居民。除了对人的信息关联外，其他需要关
联的信息也存在这一问题，比如企事业单位、商品信息等。

目前解决这一问题的主要方法是制定标准的技术接口，并对现有
系统进行改造，同时采用人工或半人工的方式核对数据正确性。这种
解决方案的缺点显而易见，当相关联的系统数量越多，需要制定的标
准技术接口就越复杂，需要改造的系统数量就越多，需要核对的数据
量也越多，实施成本成指数级增长。

发明内容：

本发明的目的在于提供一种通过捕捉比对关键元素实现多系统
信息关联的方法，从根本上解决多系统间的数据交互问题，将各系统
的关键元素设置到X-MPI(Cross-Platform Master Personal Index，
跨平台信息主索引，简称X-MPI)系统中，通过对各个系统中关键元
素的采样分析，通过各种权重配比，完成数据关联，准克服了现有技
术中存在的缺点和不足。

为了实现上述目的，本发明的技术方案是：一种通过捕捉比对关
键元素实现多系统信息关联的，其特征在于：所述方法的步骤为

I、获取记录A和记录B中的关键元素，关键元素的内容可由
系统自动生成，也可由用户自定义生成；

II、对记录A和记录B中的关键元素进行比对，只提取共有的
关键元素；

III、对所提取的关键元素的合理性进行分值评估；

i、对其中任意一个关键元素进行合理性评估，若判定为“合理”
则继续下个关键元素的合理性评估；

ii、对其中任意一个关键元素进行合理性评估，若判定为“不合
理”，则降低合理性分值，再继续下个关键元素的合理性评估；

IV、对所提取的关键元素的相似度进行分值评估；

i、对其中任意一个关键元素进行相似度评估，若判定为“相似”
则继续下个关键元素的相似度评估；

ii、对其中任意一个关键元素进行相似度评估，若判定为“相似”，
则降低相似度分值，再继续下个关键元素的相似度评估；

V、权重分值判定；

i、权重分值＝合理性分值×相似度分值；

ii、权重分值与预设分值进行判定；

iii、权重分值达到预设分值，则判定记录A和记录B为同一件
事物；

iv、若权重分值没有达到预设分值，则对比一般元素及参考元素，
再累加权重分值，如果总分值达到预设分值，则则判定记录A和记录
B为同一件事物，若总分值没有达到预设分值，则结束程序。

本发明公开了一种通过捕捉比对关键元素实现多系统信息关联
的方法，采用X-MPI技术将大大减少对源系统数据手工校验的工作量，
同时提高各系统间数据关联的命中率，最大程度减少原有系统的改造
量，本系统所实现的方法相比现有技术而言具有突出的实质性特点和
显著进步。

附图说明：

图1为本发明流程框图；

具体实施方式：

下面参照附图，对本发明进一步进行描述

本发明为一种通过捕捉比对关键元素实现多系统信息关联的方
法，其区别于现有技术在于：所述方法的步骤为

I、获取记录A和记录B中的关键元素；

II、对记录A和记录B中的关键元素进行比对，只提取共有的
关键元素；

III、对所提取的关键元素的合理性进行分值评估；

i、对其中任意一个关键元素进行合理性评估，若判定为“合理”
则继续下个关键元素的合理性评估；

ii、对其中任意一个关键元素进行合理性评估，若判定为“不合
理”，则降低合理性分值，再继续下个关键元素的合理性评估；

IV、对所提取的关键元素的相似度进行分值评估；

i、对其中任意一个关键元素进行相似度评估，若判定为“相似”
则继续下个关键元素的相似度评估；

ii、对其中任意一个关键元素进行相似度评估，若判定为“相似”，
则降低相似度分值，再继续下个关键元素的相似度评估；

V、权重分值判定；

i、权重分值＝合理性分值×相似度分值；

ii、权重分值与预设分值进行判定；

iii、权重分值达到预设分值，则判定记录A和记录B为同一件
事物；

iv、若权重分值没有达到预设分值，则对比一般元素及参考元素，
再累加权重分值，如果总分值达到预设分值，

则判定记录A和记录B为同一件事物，若总分值没有达到预设分
值，则结束程序。

所述记录A和记录B中一项关键元素内的信息内容包含有其它
项关键元素的内容，相互之间可实现交叉验证。

X-MPI技术是通过对多系统中关键元素的特征值采样分析来关联
数据的。这里以多个系统中的居民信息关联为例：

实施例：假定以姓名、性别、出生年月和身份证号作为首要关键
元素，系统首先会对其进行有效性判定，比如性别、出生年月和身份
证号的相互校验(将出生年月与身份证的7到14位做正确性校验，
判断日期是否一致；将性别与身份证的17位做校验，奇数为男偶数
为女)；15位18位身份证号的转换(系统会将15位的老身份证转换
为18位新身份证)；18位身份证有效性校验(将身份证前17位进行
一个固定的运算，获得0~9或者X的校验位，判断计算获得的校验位
与身份证第18位是否一致)；姓名合理性判定(系统首先会对姓名字
符串做前后去空格操作，然后识别字符串中的每个字符，当同时存在
中文、英文字母、数字、符号中的2个及以上时，会降低该姓名的关
键程度，系统会认为该姓名“不可信”)等。对于不合理或错误的元
素降低其关键程度。再将需要关联两个或多个系统中居民的信息进行
比对，对每个元素进行权重打分。根据分值判断是否为同一居民。对
于分值不足的，采用其他关键元素采样分析。举例说明：

关键元素设置：姓名、性别、出生年月、身份证，性别和出生年
月对身份证有依赖关系(身份证可以替换性别和出生年月，当身份证
不存在时，出生年月和性别的有效性都会降低一个等级)，每个元素
权重分25分。

合理性设置：满分5分，部分有效3分，空值0分；

相似度设置：满分5分，相邻3分，相隔2分，单个包含1分，
不同0分，允许信息分段比较；

权重分设置：满分100，60分及以上认为可以执行关联；

权重公式：有效性×相似度。

记录A：姓名(张三)，性别(男)，出生年月(1982-6-26)，
身份证(310103820726403)

记录B：姓名(张三a)，性别(男)，出生年月(820726)，身
份证(310103198207264032)

1.判定各元素有效性：

a)姓名：由于记录B中姓名同时存在中英文，不符合使用
习惯，降低有效度(3分)；

b)身份证：长度合理，15位验证年月日通过，18位验证
年月日及性别通过，18位验证校验位通过，有效性5
分；

c)出生年月：记录A中出生年月与身份证的年月日不一致，
但相似程度超过60％，认为部分有效，有效性3分；

d)性别：通过与身份证的比对，有效性5分。

2.判断相似度：

a)姓名：记录A包含记录B中，且为相邻位置完全包含，
相似性3分；

b)性别：完全相同，相似性5分；

c)出生年月：当前年份最近的82年为1982年，因此年份
相同，07月等同于7月，与6月份不相同，日期都为
26日，日期相同。由于年份占据出生日期中较高的重
要性，我们将日期分成年、月、日3段，分别划分为
40％、30％、30％，3段日期中月份不同，我们认为有70％
的相似性，因此得3.5分；

d)身份证：将15位身份证转换为18为，两者相同，相似
性5分；

3.权重打分：(3×3)+(5×5)+(3×3.5)+(5×5)＝69.5

4.信息关联：由于权重打分69.5超过标准的60分，系统将
记录A和记录B关联在同一位居民的信息中，同时记录信
息来源，完成索引登记。

注意：如果关键元素的分值不足以判定关联，X-MPI系统会通过
2套系统提供的其他元素(一般元素和参考元素，比对方式同关键元
素，但分值远小于关键元素)。比对完所有可用元素后仍然无法确认
关联关系的，系统会将其标记为不同居民。

对于信息关联采用元素采样的方式，对于元素本身，同样可以通
过采样分析来确定其相似性，比如“上海市普陀区怒江北路427号”、
“上海普陀怒江北路427号”、“普陀区怒江北路427号”、“上海市怒
江北路427号”，虽然这些地址的描述方式不同，通过对地址中关键
信息“怒江北路”、“427”、“普陀”等信息的采样，分别给出相似性
(假定我们定义“市、区/县、街道/镇、居委/村、路/队、弄、号、
室”是地址中的固定区域划分标志，那么“上海市普陀区”和“上海
普陀”就认为是相同的地区；另外，区域范围内有唯一性，“上海市
普陀区怒江北路427号”和“上海市怒江北路427号”，由于“上海
市，，中只有一个“怒江北路427号”，因此我们认为这2个地址是相
同门牌，而“上海市怒江北路427号”和“怒江北路427号”由于没
有确定的区域，这2个地址我们认为是相似的门牌，其权重分数将低
于之前的那组)，同时结合元素本身的重要程度给出该元素的权重分
数。