《自然人基本身份信息匹配方法.pdf》由会员分享,可在线阅读,更多相关《自然人基本身份信息匹配方法.pdf(11页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103646110 A (43)申请公布日 2014.03.19 CN 103646110 A (21)申请号 201310728741.7 (22)申请日 2013.12.26 G06F 17/30(2006.01) (71)申请人 中国人民银行征信中心 地址 100031 北京市西城区闹市口大街 1 号 长安兴融中心 (72)发明人 刘宇 李朝东 缪成 (74)专利代理机构 北京市中银律师事务所 11423 代理人 修雪静 (54) 发明名称 自然人基本身份信息匹配方法 (57) 摘要 本发明提供了一种能够将个人信用数据从以 账户为主题转变到以自然人为主题的自然人。
2、基本 身份信息匹配方法, 包括如下步骤 :(1) 在征信系 统中找出姓名相同, 证件号码不同的人员, 将这些 人员的其他信息字段进行比对, 有任意一个字段 值完全相同, 就对该人员标识匹配 ;(2) 在征信系 统中找出证件号码相同, 姓名不同的人员, 将这些 人员的配偶姓名相同, 就对该人员标识匹配 ;(3) 在征信系统中找出姓名和证件号码都相同的人员 标识对 ; 对上述的人员标识的单位电话、 通讯地 址、 居住地址、 住宅电话、 手机号码、 单位名称、 户 籍地址、 配偶姓名、 配偶证件号码九个字段进行清 洗, 清洗后有任意一个字段值完全相同, 就对该人 员标识匹配。 (51)Int.Cl.。
3、 权利要求书 3 页 说明书 6 页 附图 1 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书3页 说明书6页 附图1页 (10)申请公布号 CN 103646110 A CN 103646110 A 1/3 页 2 1. 一种自然人基本身份信息匹配方法, 包括如下步骤 : (1) 在征信系统中找出姓名相同, 证件号码不同的人员, 将这些人员的其他信息字段进 行比对, 有任意一个字段值完全相同, 就对该人员标识匹配 ; (2) 在征信系统中找出证件号码相同, 姓名不同的人员, 将这些人员的配偶姓名相同, 就对该人员标识匹配 ; (3) 在征信系统中找出姓名和证件号码。
4、都相同的人员标识对 ; 对上述的人员标识的单 位电话、 通讯地址、 居住地址、 住宅电话、 手机号码、 单位名称、 户籍地址、 配偶姓名、 配偶证 件号码九个字段进行清洗, 清洗后有任意一个字段值完全相同, 就对该人员标识匹配 ; (4) 对于征信系统中姓名和证件号码都不同的人员, 分别进行姓名相似度计算、 证件号 码相似度计算、 地址相似度计算、 机构名称相似度计算和电话号码相似度计算 ; 将上述相似 度计算得到的数值根据不同身份信息字段在人员匹配中的重要性, 赋予权重, 然后计算平 均值, 即加权平均法获得平均值 ; 该平均值大于设定的阈值, 就对该人员标识匹配。 2.根据权利要求1所述的。
5、自然人基本身份信息匹配方法, 其特征在于 : 所述步骤 (1) 的 匹配过程包括以下四种匹配方法中的一种或几种 : 第一种匹配方法, 包括如下步骤 : 对姓名和配偶证件号码两个字段进行清洗 ; 找出姓名和配偶证件号码两个字段值完全相同的人员标识对 ; 对上述的人员标识对, 对手机号码、 通讯地址、 居住地址、 住宅电话、 单位电话、 单位 名称、 户籍地址、 出生日期、 配偶姓名九个字段进行清洗, 清洗后有任意一个字段值完全相 同, 就对该人员标识对进行人员匹配 ; 第二种匹配方法, 包括如下步骤 : 对姓名、 手机号码、 出生日期三个字段进行清洗 ; 找出姓名、 手机号码和出生日期三个字段值。
6、完全相同的人员标识对 ; 对上述的人员标识对, 对配偶证件号码、 通讯地址、 居住地址、 住宅电话、 单位电话、 单位名称、 户籍地址、 配偶姓名八个字段进行清洗, 清洗后有任意一个字段值完全相同, 就 对该人员标识对进行人员匹配 ; 第三种匹配方法, 包括如下步骤 : 对姓名、 住宅电话、 出生日期三个字段进行清洗 ; 找出姓名、 住宅电话和出生日期三个字段值完全相同的人员标识对 ; 对上述的人员标识对, 对配偶证件号码、 通讯地址、 居住地址、 手机号码、 单位电话、 单位名称、 户籍地址、 配偶姓名八个字段进行清洗, 清洗后有任意一个字段值完全相同, 就 对该人员标识对进行人员匹配 ; 。
7、第四种匹配方法, 包括如下步骤 : 对姓名、 单位电话、 出生日期三个字段进行清洗 ; 找出姓名、 单位电话和出生日期三个字段值完全相同的人员标识对 ; 对上述的人员标识对, 对配偶证件号码、 通讯地址、 居住地址、 住宅电话、 手机号码、 单位名称、 户籍地址、 配偶姓名八个字段进行清洗, 清洗后有任意一个字段值完全相同, 就 对该人员标识对进行人员匹配。 3. 根据权利要求 2 所述的自然人基本身份信息匹配方法, 其特征在于 : 所述第一中匹 权 利 要 求 书 CN 103646110 A 2 2/3 页 3 配方法、 第二中匹配方法、 第三种匹配方法和第四种匹配方法中, 步骤找出的人员。
8、标识 对, 如果有 10 条以上相同的人员标识的情况, 将这些人员标识对转入存疑区, 留待人工处 理, 剔除重复数据后, 进入下一步骤。 4.根据权利要求1所述的自然人基本身份信息匹配方法, 其特征在于 : 所述步骤 (2) 的 匹配过程包括以下两种匹配方法中的一种或两种 : 第五种匹配方法, 包括如不步骤 : 对证件号码和配偶证件号码两个字段进行清洗 ; 找出证件号码和配偶证件号码两个字段值完全相同的人员标识对 ; 对上述的人员标识对, 如果其中一条人员标识下的配偶姓名字段有有效值且与另一 条人员标识中的姓名相同, 就对该人员标识对进行人员匹配 ; 如果两条人员标识的姓名都 为全中文字符且没。
9、有公共的中文字符, 不进行匹配 ; 第六种匹配方法, 包括如下步骤 : 对证件号码、 手机号码、 单位电话、 住宅电话、 居住地址、 通讯地址、 单位名称、 户籍地 址、 配偶姓名九个字段进行清洗 ; 找出对于满足证件号码相同, 并且手机号码、 单位电话、 住宅电话、 居住地址、 通讯地 址、 单位名称、 户籍地址、 配偶姓名中任意两项相同的人员标识对 ; 其中, 对于两个人员标识下的通讯地址、 户籍地址、 居住地址、 单位名称四个字段, 如果 有两个或两个以上字段相同但实际填写的都是同一内容, 则相同项数仍记为 1 ; 对上述的人员标识对, 如果其中一条人员标识下的配偶姓名字段有有效值且与另。
10、一 条人员标识中的姓名相同, 就对该人员标识对进行人员匹配 ; 如果两条人员标识的姓名都 为全中文字符且没有公共的中文字符, 不进行匹配。 5. 根据权利要求 4 所述的自然人基本身份信息匹配方法, 其特征在于 : 所述第五种匹 配方法和第六种匹配方法中, 步骤找出的人员标识对, 如果有 10 条以上相同的人员标识 的情况, 将这些人员标识对转入存疑区, 留待人工处理, 剔除重复数据后, 进入下一步骤。 6. 根据权利要求 1 5 任一所述的自然人基本身份信息匹配方法, 其特征在于 : 所述 步骤 (3) 中如果找出 10 条以上相同的人员标识的情况, 将这些人员标识对转入存疑区, 留 待人工。
11、处理, 剔除重复数据后, 进入下一步骤。 7. 根据权利要求 1 5 任一所述的自然人基本身份信息匹配方法, 其特征在于 : 所述 步骤 (4) 中的相似度计算, 包括如下步骤 : 对于号码证件号码和电话号码的相似度计算采用寻找相同数字串的长度与总字符串 的比例进行计算 ; 对于姓名、 地址和机构名称的相似度计算采用如下步骤 : 进行分词, 将地址信息按照 “行政区划 + 详细地址” 的规则构成, 详细地址进一步又 可分为 “街道 + 门牌号 + 房间号” ; 机构名称信息按照 “行政区划 + 字号 + 行业 + 组织形式” 的规则构成 ; 姓名信息按照 “姓氏 + 名字” 的规则构成 ; 建。
12、立一个包含全部中文词条的机器 字典, 将字符串与机器词典中的词条进行比对, 若词典中存在与之匹配的某个字符串, 则将 其分离出原有字符串 ; 进行标准化, 将上述分离出来的字符串采用相同的格式进行编辑 ; 进行相似度计算 : 对上述编辑后的字符串进行比对, 计算相同的字符串与总字符串 权 利 要 求 书 CN 103646110 A 3 3/3 页 4 长度的比例得出相似度。 权 利 要 求 书 CN 103646110 A 4 1/6 页 5 自然人基本身份信息匹配方法 技术领域 0001 本发明涉及一种个人征信方法, 尤其是一种自然人基本身份信息匹配方法。 背景技术 0002 征信系统的主。
13、要功能是面向全国所有金融机构和政府有关部门采集具有主体性 与财产性特点企业和个人的信用信息, 并将信用信息以企业或个人为主题进行整合、 加工 形成征信产品, 并向金融机构、 政府部门、 企业和个人提供征信产品服务, 以帮助他们对信 用实体未来是否能够按照契约规定履行信用经济活动的义务做出合理的判断。 0003 个人征信系统作为一个信息发布系统, 其产品信用报告以信息主体为主题。而征 信数据是从不同数据源以账户为主题进行报送的, 这就需要将征信数据中与身份标识相关 的信息抽取出来, 在多个数据源之间进行信息主体匹配及同一自然人名下的信用信息整 合, 使征信数据完成从以账户为主题到以信用主体为主题。
14、的转变。 在这个过程中, 如何实现 信息主体的匹配是要解决的重要问题。 0004 由于自然人办理业务时采用了不同证件、 人员标识信息表达方式不同等多方面原 因, 造成个人征信系统中存在大量同一自然人有多个不同人员标识进而拥有多份信用报告 的情况。此外, 由于信息的表达方式多样, 再加上各机构上报的数据可能存在输入错误、 格 式或拼写差异等人为原因, 个人征信系统中还存在多条并不完全相同的身份信息项 (如姓 名、 地址) 实际代表同一实体的情况。 发明内容 0005 本发明提供了一种能够将个人信用数据从以账户为主题转变到以自然人为主题 的自然人基本身份信息匹配方法。 0006 实现本发明目的的自。
15、然人基本身份信息匹配方法, 包括如下步骤 : (1) 在征信系统中找出姓名相同, 证件号码不同的人员, 将这些人员的其他信息字段进 行比对, 有任意一个字段值完全相同, 就对该人员标识匹配 ; (2) 在征信系统中找出证件号码相同, 姓名不同的人员, 将这些人员的配偶姓名相同, 就对该人员标识匹配 ; (3) 在征信系统中找出姓名和证件号码都相同的人员标识对 ; 对上述的人员标识的单 位电话、 通讯地址、 居住地址、 住宅电话、 手机号码、 单位名称、 户籍地址、 配偶姓名、 配偶证 件号码九个字段进行清洗, 清洗后有任意一个字段值完全相同, 就对该人员标识匹配 ; (4) 对于征信系统中姓名。
16、和证件号码都不同的人员, 分别进行姓名相似度计算、 证件号 码相似度计算、 地址相似度计算、 机构名称相似度计算和电话号码相似度计算 ; 将上述相似 度计算得到的数值根据不同身份信息字段在人员匹配中的重要性, 赋予权重, 然后计算平 均值, 即加权平均法获得平均值 ; 该平均值大于设定的阈值, 就对该人员标识匹配。 0007 所述步骤 (1) 的匹配过程包括以下四种匹配方法中的一种或几种 : 第一种匹配方法, 包括如下步骤 : 说 明 书 CN 103646110 A 5 2/6 页 6 对姓名和配偶证件号码两个字段进行清洗 ; 找出姓名和配偶证件号码两个字段值完全相同的人员标识对 ; 对上述。
17、的人员标识对, 对手机号码、 通讯地址、 居住地址、 住宅电话、 单位电话、 单位 名称、 户籍地址、 出生日期、 配偶姓名九个字段进行清洗, 清洗后有任意一个字段值完全相 同, 就对该人员标识对进行人员匹配 ; 第二种匹配方法, 包括如下步骤 : 对姓名、 手机号码、 出生日期三个字段进行清洗 ; 找出姓名、 手机号码和出生日期三个字段值完全相同的人员标识对 ; 对上述的人员标识对, 对配偶证件号码、 通讯地址、 居住地址、 住宅电话、 单位电话、 单位名称、 户籍地址、 配偶姓名八个字段进行清洗, 清洗后有任意一个字段值完全相同, 就 对该人员标识对进行人员匹配 ; 第三种匹配方法, 包括。
18、如下步骤 : 对姓名、 住宅电话、 出生日期三个字段进行清洗 ; 找出姓名、 住宅电话和出生日期三个字段值完全相同的人员标识对 ; 对上述的人员标识对, 对配偶证件号码、 通讯地址、 居住地址、 手机号码、 单位电话、 单位名称、 户籍地址、 配偶姓名八个字段进行清洗, 清洗后有任意一个字段值完全相同, 就 对该人员标识对进行人员匹配 ; 第四种匹配方法, 包括如下步骤 : 对姓名、 单位电话、 出生日期三个字段进行清洗 ; 找出姓名、 单位电话和出生日期三个字段值完全相同的人员标识对 ; 对上述的人员标识对, 对配偶证件号码、 通讯地址、 居住地址、 住宅电话、 手机号码、 单位名称、 户籍。
19、地址、 配偶姓名八个字段进行清洗, 清洗后有任意一个字段值完全相同, 就 对该人员标识对进行人员匹配。 0008 所述第一中匹配方法、 第二中匹配方法、 第三种匹配方法和第四种匹配方法中, 步 骤找出的人员标识对, 如果有 10 条以上相同的人员标识的情况, 将这些人员标识对转入 存疑区, 留待人工处理, 剔除重复数据后, 进入下一步骤。 0009 所述步骤 (2) 的匹配过程包括以下两种匹配方法中的一种或两种 : 第五种匹配方法, 包括如不步骤 : 对证件号码和配偶证件号码两个字段进行清洗 ; 找出证件号码和配偶证件号码两个字段值完全相同的人员标识对 ; 对上述的人员标识对, 如果其中一条人。
20、员标识下的配偶姓名字段有有效值且与另一 条人员标识中的姓名相同, 就对该人员标识对进行人员匹配 ; 如果两条人员标识的姓名都 为全中文字符且没有公共的中文字符, 不进行匹配 ; 第六种匹配方法, 包括如下步骤 : 对证件号码、 手机号码、 单位电话、 住宅电话、 居住地址、 通讯地址、 单位名称、 户籍地 址、 配偶姓名九个字段进行清洗 ; 找出对于满足证件号码相同, 并且手机号码、 单位电话、 住宅电话、 居住地址、 通讯地 址、 单位名称、 户籍地址、 配偶姓名中任意两项相同的人员标识对 ; 其中, 对于两个人员标识下的通讯地址、 户籍地址、 居住地址、 单位名称四个字段, 如果 说 明 。
21、书 CN 103646110 A 6 3/6 页 7 有两个或两个以上字段相同但实际填写的都是同一内容, 则相同项数仍记为 1 ; 对上述的人员标识对, 如果其中一条人员标识下的配偶姓名字段有有效值且与另一 条人员标识中的姓名相同, 就对该人员标识对进行人员匹配 ; 如果两条人员标识的姓名都 为全中文字符且没有公共的中文字符, 不进行匹配。 0010 所述第五种匹配方法和第六种匹配方法中, 步骤找出的人员标识对, 如果有 10 条以上相同的人员标识的情况, 将这些人员标识对转入存疑区, 留待人工处理, 剔除重复数 据后, 进入下一步骤。 0011 所述步骤 (3) 中如果找出 10 条以上相同。
22、的人员标识的情况, 将这些人员标识对转 入存疑区, 留待人工处理, 剔除重复数据后, 进入下一步骤。 0012 所述步骤 (4) 中的相似度计算, 包括如下步骤 : 对于号码证件号码和电话号码的相似度计算采用寻找相同数字串的长度与总字符串 的比例进行计算 ; 对于姓名、 地址和机构名称的相似度计算采用如下步骤 : 进行分词, 将地址信息按照 “行政区划 + 详细地址” 的规则构成, 详细地址进一步又 可分为 “街道 + 门牌号 + 房间号” ; 机构名称信息按照 “行政区划 + 字号 + 行业 + 组织形式” 的规则构成 ; 姓名信息按照 “姓氏 + 名字” 的规则构成 ; 建立一个包含全部中。
23、文词条的机器 字典, 将字符串与机器词典中的词条进行比对, 若词典中存在与之匹配的某个字符串, 则将 其分离出原有字符串 ; 进行标准化, 将上述分离出来的字符串采用相同的格式进行编辑 ; 进行相似度计算 : 对上述编辑后的字符串进行比对, 计算相同的字符串与总字符串 长度的比例得出相似度。 0013 本发明的自然人基本身份信息匹配方法的有益效果如下 : 本发明的自然人基本身份信息匹配方法, 通过精确匹配和模糊匹配两部分技术来实现 自然人基本身份信息的匹配, 解决了在个人征信系统中同一自然人不同身份标识间的匹配 问题, 使个人征信系统具备了将数据从以账户 (身份标识) 为主题转变到以信用实体 。
24、(自然 人) 为主题的能力 ; 实现对个人征信系统中的同一自然人来自不同报送机构的身份信息的 清洗、 整合, 匹配 ; 减少了数据的冗余, 提高了数据质量。 附图说明 0014 图 1 为本发明的自然人基本身份信息匹配方法中对于姓名、 地址和机构名称的相 似度计算的流程图。 具体实施方式 0015 实施例 1 本发明的自然人基本身份信息匹配方法, 包括如下步骤 : (1) 在征信系统中找出姓名相同, 证件号码不同的人员, 将这些人员的其他信息字段进 行比对, 有任意一个字段值完全相同, 就对该人员标识匹配 ; (2) 在征信系统中找出证件号码相同, 姓名不同的人员, 将这些人员的配偶姓名相同,。
25、 就对该人员标识匹配 ; 说 明 书 CN 103646110 A 7 4/6 页 8 (3) 在征信系统中找出姓名和证件号码都相同的人员标识对 ; 对上述的人员标识的单 位电话、 通讯地址、 居住地址、 住宅电话、 手机号码、 单位名称、 户籍地址、 配偶姓名、 配偶证 件号码九个字段进行清洗, 清洗后有任意一个字段值完全相同, 就对该人员标识匹配 ; (4) 对于征信系统中姓名和证件号码都不同的人员, 分别进行姓名相似度计算、 证件号 码相似度计算、 地址相似度计算、 机构名称相似度计算和电话号码相似度计算 ; 将上述相似 度计算得到的数值根据不同身份信息字段在人员匹配中的重要性, 赋予权。
26、重, 然后计算平 均值, 即加权平均法获得平均值 ; 该平均值大于设定的阈值, 就对该人员标识匹配。 0016 实施例 2 本发明的自然人基本身份信息匹配方法, 包括如下步骤 : (1) 在征信系统中找出姓名相同, 证件号码不同的人员, 将这些人员的其他信息字段进 行比对, 有任意一个字段值完全相同, 就对该人员标识匹配 ; 匹配过程包括以下四种匹配方法中的一种或几种 : 第一种匹配方法, 包括如下步骤 : 对姓名和配偶证件号码两个字段进行清洗 ; 找出姓名和配偶证件号码两个字段值完全相同的人员标识对, 将有 10 条以上人员 标识具有相同姓名和配偶证件号码的情况转入存疑区, 留待人工处理 ;。
27、 对上述的人员标识对, 对手机号码、 通讯地址、 居住地址、 住宅电话、 单位电话、 单位 名称、 户籍地址、 出生日期、 配偶姓名九个字段进行清洗, 清洗后有任意一个字段值完全相 同, 就对该人员标识对进行人员匹配 ; 第二种匹配方法, 包括如下步骤 : 对姓名、 手机号码、 出生日期三个字段进行清洗 ; 找出姓名、 手机号码和出生日期三个字段值完全相同的人员标识对, 将有 10 条以上 人员标识具有相同姓名、 手机号码和出生日期的情况转入存疑区, 留待人工处理 ; 对上述的人员标识对, 对配偶证件号码、 通讯地址、 居住地址、 住宅电话、 单位电话、 单位名称、 户籍地址、 配偶姓名八个字。
28、段进行清洗, 清洗后有任意一个字段值完全相同, 就 对该人员标识对进行人员匹配 ; 第三种匹配方法, 包括如下步骤 : 对姓名、 住宅电话、 出生日期三个字段进行清洗 ; 找出姓名、 住宅电话和出生日期三个字段值完全相同的人员标识对, 将有 10 条以上 人员标识具有相同姓名、 住宅电话和出生日期的情况转入存疑区, 留待人工处理 ; 对上述的人员标识对, 对配偶证件号码、 通讯地址、 居住地址、 手机号码、 单位电话、 单位名称、 户籍地址、 配偶姓名八个字段进行清洗, 清洗后有任意一个字段值完全相同, 就 对该人员标识对进行人员匹配 ; 第四种匹配方法, 包括如下步骤 : 对姓名、 单位电话。
29、、 出生日期三个字段进行清洗 ; 找出姓名、 单位电话和出生日期三个字段值完全相同的人员标识对, 将有 10 条以上 人员标识具有相同姓名、 单位电话和出生日期的情况转入存疑区, 留待人工处理 ; 对上述的人员标识对, 对配偶证件号码、 通讯地址、 居住地址、 住宅电话、 手机号码、 单位名称、 户籍地址、 配偶姓名八个字段进行清洗, 清洗后有任意一个字段值完全相同, 就 说 明 书 CN 103646110 A 8 5/6 页 9 对该人员标识对进行人员匹配。 0017 (2) 在征信系统中找出证件号码相同, 姓名不同的人员, 将这些人员的配偶姓名相 同, 就对该人员标识匹配 ; 匹配过程包。
30、括以下两种匹配方法中的一种或两种 : 第五种匹配方法, 包括如不步骤 : 对证件号码和配偶证件号码两个字段进行清洗 ; 找出证件号码和配偶证件号码两个字段值完全相同的人员标识对, 将有 10 条以上 人员标识具有相同证件号码、 配偶证件号码的情况转入存疑区, 留待人工处理 ; 对上述的人员标识对, 如果其中一条人员标识下的配偶姓名字段有有效值且与另一 条人员标识中的姓名相同, 就对该人员标识对进行人员匹配 ; 如果两条人员标识的姓名都 为全中文字符且没有公共的中文字符, 不进行匹配 ; 第六种匹配方法, 包括如下步骤 : 对证件号码、 手机号码、 单位电话、 住宅电话、 居住地址、 通讯地址、。
31、 单位名称、 户籍地 址、 配偶姓名九个字段进行清洗 ; 对于满足证件号码相同, 并且手机号码、 单位电话、 住宅电话、 居住地址、 通讯地址、 单位名称、 户籍地址、 配偶姓名中任意两项相同的人员标识对, 将有 10 条以上人员标识具 有相同证件号码和身份信息的情况转入存疑区, 留待人工处理 ; 其中, 对于两个人员标识下的通讯地址、 户籍地址、 居住地址、 单位名称四个字段, 如果 有两个或两个以上字段相同但实际填写的都是同一内容, 则相同项数仍记为 1 ; 对上述的人员标识对, 如果其中一条人员标识下的配偶姓名字段有有效值且与另一 条人员标识中的姓名相同, 就对该人员标识对进行人员匹配 。
32、; 如果两条人员标识的姓名都 为全中文字符且没有公共的中文字符, 不进行匹配。 0018 (3) 在征信系统中找出姓名和证件号码都相同的人员, 具体匹配方法如下 : 对证件号码和姓名两个字段进行清洗 ; 找出证件号码和姓名两个字段值完全相同的人员标识对, 将有 10 条以上人员标识 具有相同证件号码、 姓名的情况转入存疑区, 留待人工处理 ; 对上述的人员标识对, 对单位电话、 通讯地址、 居住地址、 住宅电话、 手机号码、 单位 名称、 户籍地址、 配偶姓名、 配偶证件号码九个字段进行清洗, 清洗后有任意一个字段值完 全相同, 就对该人员标识对进行人员匹配。 0019 (4) 对于征信系统中。
33、姓名和证件号码都不同的人员, 分别进行姓名相似度计算、 证 件号码相似度计算、 地址相似度计算、 机构名称相似度计算和电话号码相似度计算 ; 将上述 相似度计算得到的数值根据不同身份信息字段在人员匹配中的重要性, 赋予权重, 然后计 算平均值, 即加权平均法获得平均值 ; 该平均值大于设定的阈值, 就对该人员标识匹配。 0020 上述的相似度计算, 包括如下步骤 : 对于号码证件号码和电话号码的相似度计算采用寻找相同数字串的长度与总字符串 的比例进行计算 ; 如图 1 所示, 对于姓名、 地址和机构名称的相似度计算采用如下步骤 : 进行分词, 中文信息构成复杂, 命名方法各式各样, 因此在模糊。
34、匹配前, 需要进行分 词处理。 将地址信息按照 “行政区划+详细地址” 的规则构成, 详细地址进一步又可分为 “街 说 明 书 CN 103646110 A 9 6/6 页 10 道 + 门牌号 + 房间号” ; 机构名称信息按照 “行政区划 + 字号 + 行业 + 组织形式” 的规则构 成 ; 姓名信息按照 “姓氏 + 名字” 的规则构成 ; 建立一个包含全部中文词条的机器字典, 将字 符串与机器词典中的词条进行比对, 若词典中存在与之匹配的某个字符串, 则将其分离出 原有字符串 ; 进行标准化, 将上述分离出来的字符串采用相同的格式进行编辑 ; 不规范中文信息的种类繁多, 难以完全穷举和定。
35、义, 因此在进行标准化时, 需要对个人 征信系统的数据集做大量调研工作, 根据数据集内的不规范中文信息类型有针对性地制定 标准化规则。在个人征信系统中发现的不规范中文信息主要有全 / 半角字符输入、 专有名 词缩写、 错别系等类型。 0021 进行相似度计算 : 对上述编辑后的字符串进行比对, 计算相同的字符串与总字 符串长度的比例得出相似度。 0022 本发明的自然人基本身份信息匹配方法的优点如下 : 根据同一自然人三项标识的差异特征, 可以将问题划分为以下三个大类 : 1. 同一自然 人姓名相同但证件号码不同而导致出现不同三项标识人员记录的匹配问题 ; 2. 同一自然 人证件号码相同但姓名。
36、不同而导致出现不同三项标识人员记录的匹配问题 ; 3. 同一自然 人姓名、 证件类型和证件号码都不相同。 前两类问题通过精确匹配方法解决, 第三类问题通 过模糊匹配方法解决。 0023 名词解释 : 三项标识是指姓名、 证件类型和证件号码三个字段的组合, 在个人征信系统中用于不 同自然人的标识与定位。 0024 上面所述的实施例仅仅是对本发明的优选实施方式进行描述, 并非对本发明的范围进 行限定, 在不脱离本发明设计精神前提下, 本领域普通工程技术人员对本发明技术方案做 出的各种变形和改进, 均应落入本发明的权利要求书确定的保护范围内。 说 明 书 CN 103646110 A 10 1/1 页 11 图 1 说 明 书 附 图 CN 103646110 A 11 。