书签 分享 收藏 举报 版权申诉 / 7

一种通过捕捉比对关键元素实现多系统信息关联的方法.pdf

  • 上传人:00062****4422
  • 文档编号:5862519
  • 上传时间:2019-03-26
  • 格式:PDF
  • 页数:7
  • 大小:399.36KB
  • 摘要
    申请专利号:

    CN201010153330.6

    申请日:

    2010.04.22

    公开号:

    CN102236635A

    公开日:

    2011.11.09

    当前法律状态:

    撤回

    有效性:

    无权

    法律详情:

    发明专利申请公布后的视为撤回IPC(主分类):G06F 17/27申请公布日:20111109|||实质审查的生效IPC(主分类):G06F 17/27申请日:20100422|||公开

    IPC分类号:

    G06F17/27; G06Q10/00

    主分类号:

    G06F17/27

    申请人:

    上海百果信息科技有限公司; 董鸣雁

    发明人:

    董鸣雁

    地址:

    201700 上海市青浦区聚星街18号-640

    优先权:

    专利代理机构:

    上海世贸专利代理有限责任公司 31128

    代理人:

    李浩东

    PDF完整版下载: PDF下载
    内容摘要

    本发明公开了一种通过捕捉比对关键元素实现多系统信息关联的方法,其特征在于:所述方法的步骤为I、获取记录A和记录B中的关键元素;II、对记录A和记录B中的关键元素进行比对,只提取共有的关键元素;III、对所提取的关键元素的合理性进行分值评估;V、权重分值判定;采用X-MPI技术将大大减少对源系统数据手工校验的工作量,同时提高各系统间数据关联的命中率,最大程度减少原有系统的改造量,本系统所实现的方法相比现有技术而言具有突出的实质性特点和显著进步。

    权利要求书

    1.一种通过捕捉比对关键元素实现多系统信息关联的方法,其
    特征在于:所述方法的步骤为
    I、获取记录A和记录B中的关键元素;
    II、对记录A和记录B中的关键元素进行比对,只提取共有的
    关键元素;
    III、对所提取的关键元素的合理性进行分值评估;
    i、对其中任意一个关键元素进行合理性评估,若判定为“合理”
    则继续下个关键元素的合理性评估;
    ii、对其中任意一个关键元素进行合理性评估,若判定为“不合
    理”,则降低合理性分值,再继续下个关键元素的合理性评估;
    IV、对所提取的关键元素的相似度进行分值评估;
    i、对其中任意一个关键元素进行相似度评估,若判定为“相似”
    则继续下个关键元素的相似度评估;
    ii、对其中任意一个关键元素进行相似度评估,若判定为“相似”,
    则降低相似度分值,再继续下个关键元素的相似度评估;
    V、权重分值判定;
    i、权重分值=合理性分值×相似度分值;
    ii、权重分值与预设分值进行判定;
    iii、权重分值达到预设分值,则判定记录A和记录B为同一件
    事物;
    iv、若权重分值没有达到预设分值,则对比一般元素及参考元素,
    再累加权重分值,如果总分值达到预设分值,
    则判定记录A和记录B为同一件事物,若总分值没有达到预设分
    值,则结束程序。
    2.根据权利要求1所述的一种通过捕捉比对关键元素实现多系
    统信息关联的方法,其特征在于:所述记录A和记录B中一项关键
    元素内的信息内容包含有其它项关键元素的内容,相互之间可实现交
    叉验证。

    说明书

    一种通过捕捉比对关键元素实现多系统信息关联的方法

    技术领域:

    本发明涉及计算机信息管理的技术领域,具体的说是一种通过捕
    捉比对关键元素实现多系统信息关联的方法,特别涉及其终端连接结
    构和居民主索引方式。

    背景技术:

    目前各个行业都采用大型数据库存储业务数据。根据行业自身特
    点,开发不同的行业系统。虽然这些系统满足各行业本身业务要求,
    但将这些信息关联起来却成了一个非常大的难题。没有统一的技术标
    准、不精确的业务用词、存在偏差的数据等都会对信息关联产生影响。
    比如一位叫“张三”的居民,在系统A中登记为“张三”,而在系统
    B中由于某些原因被登记为“张叁”,当这2个系统需要做信息关联
    时,会被认为2个不同的居民。除了对人的信息关联外,其他需要关
    联的信息也存在这一问题,比如企事业单位、商品信息等。

    目前解决这一问题的主要方法是制定标准的技术接口,并对现有
    系统进行改造,同时采用人工或半人工的方式核对数据正确性。这种
    解决方案的缺点显而易见,当相关联的系统数量越多,需要制定的标
    准技术接口就越复杂,需要改造的系统数量就越多,需要核对的数据
    量也越多,实施成本成指数级增长。

    发明内容:

    本发明的目的在于提供一种通过捕捉比对关键元素实现多系统
    信息关联的方法,从根本上解决多系统间的数据交互问题,将各系统
    的关键元素设置到X-MPI(Cross-Platform Master Personal Index,
    跨平台信息主索引,简称X-MPI)系统中,通过对各个系统中关键元
    素的采样分析,通过各种权重配比,完成数据关联,准克服了现有技
    术中存在的缺点和不足。

    为了实现上述目的,本发明的技术方案是:一种通过捕捉比对关
    键元素实现多系统信息关联的,其特征在于:所述方法的步骤为

    I、获取记录A和记录B中的关键元素,关键元素的内容可由
    系统自动生成,也可由用户自定义生成;

    II、对记录A和记录B中的关键元素进行比对,只提取共有的
    关键元素;

    III、对所提取的关键元素的合理性进行分值评估;

    i、对其中任意一个关键元素进行合理性评估,若判定为“合理”
    则继续下个关键元素的合理性评估;

    ii、对其中任意一个关键元素进行合理性评估,若判定为“不合
    理”,则降低合理性分值,再继续下个关键元素的合理性评估;

    IV、对所提取的关键元素的相似度进行分值评估;

    i、对其中任意一个关键元素进行相似度评估,若判定为“相似”
    则继续下个关键元素的相似度评估;

    ii、对其中任意一个关键元素进行相似度评估,若判定为“相似”,
    则降低相似度分值,再继续下个关键元素的相似度评估;

    V、权重分值判定;

    i、权重分值=合理性分值×相似度分值;

    ii、权重分值与预设分值进行判定;

    iii、权重分值达到预设分值,则判定记录A和记录B为同一件
    事物;

    iv、若权重分值没有达到预设分值,则对比一般元素及参考元素,
    再累加权重分值,如果总分值达到预设分值,则则判定记录A和记录
    B为同一件事物,若总分值没有达到预设分值,则结束程序。

    本发明公开了一种通过捕捉比对关键元素实现多系统信息关联
    的方法,采用X-MPI技术将大大减少对源系统数据手工校验的工作量,
    同时提高各系统间数据关联的命中率,最大程度减少原有系统的改造
    量,本系统所实现的方法相比现有技术而言具有突出的实质性特点和
    显著进步。

    附图说明:

    图1为本发明流程框图;

    具体实施方式:

    下面参照附图,对本发明进一步进行描述

    本发明为一种通过捕捉比对关键元素实现多系统信息关联的方
    法,其区别于现有技术在于:所述方法的步骤为

    I、获取记录A和记录B中的关键元素;

    II、对记录A和记录B中的关键元素进行比对,只提取共有的
    关键元素;

    III、对所提取的关键元素的合理性进行分值评估;

    i、对其中任意一个关键元素进行合理性评估,若判定为“合理”
    则继续下个关键元素的合理性评估;

    ii、对其中任意一个关键元素进行合理性评估,若判定为“不合
    理”,则降低合理性分值,再继续下个关键元素的合理性评估;

    IV、对所提取的关键元素的相似度进行分值评估;

    i、对其中任意一个关键元素进行相似度评估,若判定为“相似”
    则继续下个关键元素的相似度评估;

    ii、对其中任意一个关键元素进行相似度评估,若判定为“相似”,
    则降低相似度分值,再继续下个关键元素的相似度评估;

    V、权重分值判定;

    i、权重分值=合理性分值×相似度分值;

    ii、权重分值与预设分值进行判定;

    iii、权重分值达到预设分值,则判定记录A和记录B为同一件
    事物;

    iv、若权重分值没有达到预设分值,则对比一般元素及参考元素,
    再累加权重分值,如果总分值达到预设分值,

    则判定记录A和记录B为同一件事物,若总分值没有达到预设分
    值,则结束程序。

    所述记录A和记录B中一项关键元素内的信息内容包含有其它
    项关键元素的内容,相互之间可实现交叉验证。

    X-MPI技术是通过对多系统中关键元素的特征值采样分析来关联
    数据的。这里以多个系统中的居民信息关联为例:

    实施例:假定以姓名、性别、出生年月和身份证号作为首要关键
    元素,系统首先会对其进行有效性判定,比如性别、出生年月和身份
    证号的相互校验(将出生年月与身份证的7到14位做正确性校验,
    判断日期是否一致;将性别与身份证的17位做校验,奇数为男偶数
    为女);15位18位身份证号的转换(系统会将15位的老身份证转换
    为18位新身份证);18位身份证有效性校验(将身份证前17位进行
    一个固定的运算,获得0~9或者X的校验位,判断计算获得的校验位
    与身份证第18位是否一致);姓名合理性判定(系统首先会对姓名字
    符串做前后去空格操作,然后识别字符串中的每个字符,当同时存在
    中文、英文字母、数字、符号中的2个及以上时,会降低该姓名的关
    键程度,系统会认为该姓名“不可信”)等。对于不合理或错误的元
    素降低其关键程度。再将需要关联两个或多个系统中居民的信息进行
    比对,对每个元素进行权重打分。根据分值判断是否为同一居民。对
    于分值不足的,采用其他关键元素采样分析。举例说明:

    关键元素设置:姓名、性别、出生年月、身份证,性别和出生年
    月对身份证有依赖关系(身份证可以替换性别和出生年月,当身份证
    不存在时,出生年月和性别的有效性都会降低一个等级),每个元素
    权重分25分。

    合理性设置:满分5分,部分有效3分,空值0分;

    相似度设置:满分5分,相邻3分,相隔2分,单个包含1分,
    不同0分,允许信息分段比较;

    权重分设置:满分100,60分及以上认为可以执行关联;

    权重公式:有效性×相似度。

    记录A:姓名(张三),性别(男),出生年月(1982-6-26),
    身份证(310103820726403)

    记录B:姓名(张三a),性别(男),出生年月(820726),身
    份证(310103198207264032)

    1.判定各元素有效性:

    a)姓名:由于记录B中姓名同时存在中英文,不符合使用
    习惯,降低有效度(3分);

    b)身份证:长度合理,15位验证年月日通过,18位验证
    年月日及性别通过,18位验证校验位通过,有效性5
    分;

    c)出生年月:记录A中出生年月与身份证的年月日不一致,
    但相似程度超过60%,认为部分有效,有效性3分;

    d)性别:通过与身份证的比对,有效性5分。

    2.判断相似度:

    a)姓名:记录A包含记录B中,且为相邻位置完全包含,
    相似性3分;

    b)性别:完全相同,相似性5分;

    c)出生年月:当前年份最近的82年为1982年,因此年份
    相同,07月等同于7月,与6月份不相同,日期都为
    26日,日期相同。由于年份占据出生日期中较高的重
    要性,我们将日期分成年、月、日3段,分别划分为
    40%、30%、30%,3段日期中月份不同,我们认为有70%
    的相似性,因此得3.5分;

    d)身份证:将15位身份证转换为18为,两者相同,相似
    性5分;

    3.权重打分:(3×3)+(5×5)+(3×3.5)+(5×5)=69.5

    4.信息关联:由于权重打分69.5超过标准的60分,系统将
    记录A和记录B关联在同一位居民的信息中,同时记录信
    息来源,完成索引登记。

    注意:如果关键元素的分值不足以判定关联,X-MPI系统会通过
    2套系统提供的其他元素(一般元素和参考元素,比对方式同关键元
    素,但分值远小于关键元素)。比对完所有可用元素后仍然无法确认
    关联关系的,系统会将其标记为不同居民。

    对于信息关联采用元素采样的方式,对于元素本身,同样可以通
    过采样分析来确定其相似性,比如“上海市普陀区怒江北路427号”、
    “上海普陀怒江北路427号”、“普陀区怒江北路427号”、“上海市怒
    江北路427号”,虽然这些地址的描述方式不同,通过对地址中关键
    信息“怒江北路”、“427”、“普陀”等信息的采样,分别给出相似性
    (假定我们定义“市、区/县、街道/镇、居委/村、路/队、弄、号、
    室”是地址中的固定区域划分标志,那么“上海市普陀区”和“上海
    普陀”就认为是相同的地区;另外,区域范围内有唯一性,“上海市
    普陀区怒江北路427号”和“上海市怒江北路427号”,由于“上海
    市,,中只有一个“怒江北路427号”,因此我们认为这2个地址是相
    同门牌,而“上海市怒江北路427号”和“怒江北路427号”由于没
    有确定的区域,这2个地址我们认为是相似的门牌,其权重分数将低
    于之前的那组),同时结合元素本身的重要程度给出该元素的权重分
    数。

    关 键  词:
    一种 通过 捕捉 关键 元素 实现 系统 信息 关联 方法
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:一种通过捕捉比对关键元素实现多系统信息关联的方法.pdf
    链接地址:https://www.zhuanlichaxun.net/p-5862519.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1