书签 分享 收藏 举报 版权申诉 / 23

一种融合数据纠错方法及装置.pdf

  • 上传人:1****2
  • 文档编号:1753804
  • 上传时间:2018-07-09
  • 格式:PDF
  • 页数:23
  • 大小:1.21MB
  • 摘要
    申请专利号:

    CN201510167018.5

    申请日:

    2015.04.09

    公开号:

    CN104778094A

    公开日:

    2015.07.15

    当前法律状态:

    实审

    有效性:

    审中

    法律详情:

    实质审查的生效IPC(主分类):G06F 11/08申请日:20150409|||公开

    IPC分类号:

    G06F11/08

    主分类号:

    G06F11/08

    申请人:

    北京羽乐创新科技有限公司

    发明人:

    王国杰; 陈林松; 赵星

    地址:

    102200北京市昌平区科技园区超前路13号2幢1202

    优先权:

    专利代理机构:

    北京尚伦律师事务所11477

    代理人:

    张俊国

    PDF完整版下载: PDF下载
    内容摘要

    本发明公开了一种融合数据纠错方法及装置,用以实现融合数据纠错的自动化。所述方法包括:针对待纠错的融合数据,根据多个预设数据指标,确定所述融合数据对应于各个预设数据指标的指标值;将各个所述指标值与各个所述预设数据指标对应的指标权重值加权求和,得到所述融合数据的指标得分;当所述指标得分大于预设触发阈值时,对所述融合数据进行纠错。本发明能够应用数据融合过程中的多个指标,并且通过加权求和的方式,将各指标对数据的影响进行量化,通过与预设触发值对比,根据预设条件触发纠错,实现了融合数据纠错的自动化。

    权利要求书

    权利要求书
    1.  一种融合数据纠错方法,其特征在于,包括:
    针对待纠错的融合数据,根据多个预设数据指标,确定所述融合数据对应 于各个预设数据指标的指标值;
    将各个所述指标值与各个所述预设数据指标对应的指标权重值加权求和, 得到所述融合数据的指标得分;
    当所述指标得分大于预设触发阈值时,对所述融合数据进行纠错。

    2.  如权利要求1所述的方法,其特征在于,所述方法还包括:
    针对获取的各个样本融合数据,根据所述多个预设数据指标,确定所述样 本融合数据对应于各个预设数据指标的指标值;将各个所述指标值与各个所述 预设数据指标对应的权重值变量加权求和,得到所述样本融合数据的指标得 分;当所述指标得分大于预设触发阈值时,对所述样本融合数据进行纠错;
    确定各个预设数据指标对应的权重值变量的最优变量值,所述最优变量值 使各个样本融合数据的纠错成功率最高,将所述最优变量值作为所述预设数据 指标对应的指标权重值。

    3.  如权利要求1所述的方法,其特征在于,当所述预设数据指标包括整 体相似度指标时,所述针对待纠错的融合数据,根据多个预设数据指标,确定 所述融合数据对应于各个预设数据指标的指标值,包括:
    对于用于融合为所述融合数据的多条数据,计算每两条数据间的相似度, 将所述每两条数据间的相似度的平均值,作为所述融合数据的对应于整体相似 度指标的指标值。

    4.  如权利要求1所述的方法,其特征在于,当所述预设数据指标包括算 法更新指标时,所述针对待纠错的融合数据,根据多个预设数据指标,确定所 述融合数据对应于各个预设数据指标的指标值,包括:
    当融合所述融合数据的算法变更时,得出所述融合数据对应于算法更新指 标的指标值为第一预设值,当融合所述融合数据的算法没有变更时,得出所述 融合数据对应于算法更新指标的指标值为第二预设值。

    5.  如权利要求1所述的方法,其特征在于,当所述预设数据指标包括时 效指标或数据源信任度指标时,所述针对待纠错的融合数据,根据多个预设数 据指标,确定所述融合数据对应于各个预设数据指标的指标值,包括:
    根据用于融合为所述融合数据的多条数据的最近抓取时间与上次抓取时 间的时间差,或者用于融合为所述融合数据的多条数据的信任度变化前后的差 值,确定所述融合数据对应的变化参量Δk;
    根据所得比值确定所述融合数据对应于时效指标或数据源信任度指标 的指标值;
    其中,K为与时效指标或数据源信任度指标对应的常量。

    6.  如权利要求5所述的方法,其特征在于,所述方法还包括:
    将时效指标或数据源信任度指标对应的常量K从初始值开始,按预设步长 逐步进行增加;
    对应于增加后所得的常量K,针对获取的各个样本融合数据,根据用于融 合为所述样本融合数据的多条数据的最近抓取时间与上次抓取时间的时间差, 或者用于融合为所述样本融合数据的多条数据的信任度变化前后的差值,确定 所述样本融合数据对应的变化参量Δk,当所得比值大于1时,对所述样本 融合数据进行纠错;
    统计进行纠错的样本融合数据的纠错成功率,当所述纠错成功率大于预设 成功率阈值时,停止对所述常量K进行增加,确定所述常量K的取值为当前 所得数值。

    7.  如权利要求1-6任一所述的方法,其特征在于,对所述融合数据或所 述样本融合数据进行纠错,包括:
    对于用于融合为所述融合数据或所述样本融合数据的多条数据,计算每两 条数据间的相似度;
    当所述每两条数据间的相似度的平均值小于预设相似度阈值时,按预设策 略逐步去除用于融合为所述融合数据或所述样本融合数据的多条数据中部分 数据,直到所述多条数据的剩余的数据中每两条数据间的相似度的平均值大于 预设相似度阈值时为止。

    8.  一种融合数据纠错装置,其特征在于,包括:
    第一确定模块,用于针对待纠错的融合数据,根据多个预设数据指标,确 定所述融合数据对应于各个预设数据指标的指标值;
    第一计算模块,用于将各个所述指标值与各个所述预设数据指标对应的指 标权重值加权求和,得到所述融合数据的指标得分;
    第一纠错模块,用于当所述指标得分大于预设触发阈值时,对所述融合数 据进行纠错。

    9.  如权利要求8所述的装置,其特征在于,所述装置还包括:
    第二确定模块,用于针对获取的各个样本融合数据,根据所述多个预设数 据指标,确定所述样本融合数据对应于各个预设数据指标的指标值;
    第二计算模块,用于将各个所述指标值与各个所述预设数据指标对应的权 重值变量加权求和,得到所述样本融合数据的指标得分;
    第二纠错模块,用于当所述指标得分大于预设触发阈值时,对所述样本融 合数据进行纠错;
    第三确定模块,用于确定各个预设数据指标对应的权重值变量的最优变量 值,所述最优变量值使各个样本融合数据的纠错成功率最高,将所述最优变量 值作为所述预设数据指标对应的指标权重值。

    10.  如权利要求8所述的装置,其特征在于,所述第一确定模块包括:
    第一计算子模块,用于当所述预设数据指标包括整体相似度指标时,对于 用于融合为所述融合数据的多条数据,计算每两条数据间的相似度,将所述每 两条数据间的相似度的平均值,作为所述融合数据的对应于整体相似度指标的 指标值。

    11.  如权利要求8所述的装置,其特征在于,所述第一确定模块包括:
    第一确定子模块,用于当融合所述融合数据的算法变更时,得出所述融合 数据对应于算法更新指标的指标值为第一预设值,当融合所述融合数据的算法 没有变更时,得出所述融合数据对应于算法更新指标的指标值为第二预设值。

    12.  如权利要求8所述的装置,其特征在于,所述第一确定模块包括:
    第二确定子模块,用于当所述预设数据指标包括时效指标或数据源信任度 指标时,根据用于融合为所述融合数据的多条数据的最近抓取时间与上次抓取 时间的时间差,或者用于融合为所述融合数据的多条数据的信任度变化前后的 差值,确定所述融合数据对应的变化参量Δk;
    第三确定子模块,用于根据所得比值确定所述融合数据对应于时效指 标或数据源信任度指标的指标值;其中,K为与时效指标或数据源信任度指 标对应的常量。

    13.  如权利要求12所述的装置,其特征在于,所述装置还包括:
    迭加模块,用于将时效指标或数据源信任度指标对应的常量K从初始值开 始,按预设步长逐步进行增加;
    第三纠错模块,用于对应于增加后所得的常量K,针对获取的各个样本融 合数据,根据用于融合为所述样本融合数据的多条数据的最近抓取时间与上次 抓取时间的时间差,或者用于融合为所述样本融合数据的多条数据的信任度变 化前后的差值,确定所述样本融合数据对应的变化参量Δk,当所得比值大 于1时,对所述样本融合数据进行纠错;
    第四确定模块,用于统计进行纠错的样本融合数据的纠错成功率,当所述 纠错成功率大于预设成功率阈值时,停止对所述常量K进行增加,确定所述常 量K的取值为当前所得数值。

    14.  如权利要求8-13任一所述的装置,其特征在于,所述第一纠错模块, 包括:
    第二计算子模块,用于对于用于融合为所述融合数据的多条数据,计算每 两条数据间的相似度;
    第一去除子模块,用于当所述每两条数据间的相似度的平均值小于预设相 似度阈值时,按预设策略逐步去除用于融合为所述融合数据的多条数据中部分 数据,直到所述多条数据的剩余的数据中每两条数据间的相似度的平均值大于 预设相似度阈值时为止。

    15.  如权利要求9或13所述的装置,其特征在于,所述第二纠错模块或 第三纠错模块,包括:
    第三计算子模块,用于对于用于融合为所述样本融合数据的多条数据,计 算每两条数据间的相似度;
    第二去除子模块,用于当所述每两条数据间的相似度的平均值小于预设相 似度阈值时,按预设策略逐步去除用于融合为所述样本融合数据的多条数据中 部分数据,直到所述多条数据的剩余的数据中每两条数据间的相似度的平均值 大于预设相似度阈值时为止。

    说明书

    说明书一种融合数据纠错方法及装置
    技术领域
    本发明涉及互联网技术领域,特别涉及一种融合数据纠错方法及装置。
    背景技术
    现有技术中,随着计算机技术、通信技术的快速发展,且日趋紧密地互相 结合,加之军事应用的特殊迫切需求,作为数据处理的新兴技术——数据融合 技术,在近几年得到广泛的应用。目前在决策层融合采用的主要方法有贝叶斯 推断、D-S证据理论、模糊集理论等,通过上述方式进行数据融合之后,融合 数据直接统一进入数据库中。由于用于融合的数据在不断变化,而且进行数据 融合的策略也在不断变化,因此需要对融合数据进行纠错。现有的融合数据纠 错方式为人工判断融合数据是否需要进行纠错,无法实现融合数据纠错的自动 化。
    发明内容
    本发明提供一种融合数据纠错方法及装置,用以实现融合数据纠错的自动 化。
    本发明提供一种融合数据纠错方法,包括:
    针对待纠错的融合数据,根据多个预设数据指标,确定所述融合数据对应 于各个预设数据指标的指标值;
    将各个所述指标值与各个所述预设数据指标对应的指标权重值加权求和, 得到所述融合数据的指标得分;
    当所述指标得分大于预设触发阈值时,对所述融合数据进行纠错。
    在一实施例中,所述方法还包括:
    针对获取的各个样本融合数据,根据所述多个预设数据指标,确定所述样 本融合数据对应于各个预设数据指标的指标值;将各个所述指标值与各个所述 预设数据指标对应的权重值变量加权求和,得到所述样本融合数据的指标得 分;当所述指标得分大于预设触发阈值时,对所述样本融合数据进行纠错;
    确定各个预设数据指标对应的权重值变量的最优变量值,所述最优变量值 使各个样本融合数据的纠错成功率最高,将所述最优变量值作为所述预设数据 指标对应的指标权重值。
    在一实施例中,当所述预设数据指标包括整体相似度指标时,所述针对待 纠错的融合数据,根据多个预设数据指标,确定所述融合数据对应于各个预设 数据指标的指标值,包括:
    对于用于融合为所述融合数据的多条数据,计算每两条数据间的相似度, 将所述每两条数据间的相似度的平均值,作为所述融合数据的对应于整体相似 度指标的指标值。
    在一实施例中,当所述预设数据指标包括算法更新指标时,所述针对待纠 错的融合数据,根据多个预设数据指标,确定所述融合数据对应于各个预设数 据指标的指标值,包括:
    当融合所述融合数据的算法变更时,得出所述融合数据对应于算法更新指 标的指标值为第一预设值,当融合所述融合数据的算法没有变更时,得出所述 融合数据对应于算法更新指标的指标值为第二预设值。
    在一实施例中,当所述预设数据指标包括时效指标或数据源信任度指标 时,所述针对待纠错的融合数据,根据多个预设数据指标,确定所述融合数据 对应于各个预设数据指标的指标值,包括:
    根据用于融合为所述融合数据的多条数据的最近抓取时间与上次抓取时 间的时间差,或者用于融合为所述融合数据的多条数据的信任度变化前后的差 值,确定所述融合数据对应的变化参量Δk;
    根据所得比值确定所述融合数据对应于时效指标或数据源信任度指标 的指标值;
    其中,K为与时效指标或数据源信任度指标对应的常量。
    在一实施例中,所述方法还包括:
    将时效指标或数据源信任度指标对应的常量K从初始值开始,按预设步长 逐步进行增加;
    对应于增加后所得的常量K,针对获取的各个样本融合数据,根据用于融 合为所述样本融合数据的多条数据的最近抓取时间与上次抓取时间的时间差, 或者用于融合为所述样本融合数据的多条数据的信任度变化前后的差值,确定 所述样本融合数据对应的变化参量Δk,当所得比值大于1时,对所述样本 融合数据进行纠错;
    统计进行纠错的样本融合数据的纠错成功率,当所述纠错成功率大于预设 成功率阈值时,停止对所述常量K进行增加,确定所述常量K的取值为当前 所得数值。
    在一实施例中,对所述融合数据或所述样本融合数据进行纠错,包括:
    对于用于融合为所述融合数据或所述样本融合数据的多条数据,计算每两 条数据间的相似度;
    当所述每两条数据间的相似度的平均值小于预设相似度阈值时,按预设策 略逐步去除用于融合为所述融合数据或所述样本融合数据的多条数据中部分 数据,直到所述多条数据的剩余的数据中每两条数据间的相似度的平均值大于 预设相似度阈值时为止。
    本发明提供一种融合数据纠错装置,包括:
    第一确定模块,用于针对待纠错的融合数据,根据多个预设数据指标,确 定所述融合数据对应于各个预设数据指标的指标值;
    第一计算模块,用于将各个所述指标值与各个所述预设数据指标对应的指 标权重值加权求和,得到所述融合数据的指标得分;
    第一纠错模块,用于当所述指标得分大于预设触发阈值时,对所述融合数 据进行纠错。
    在一实施例中,所述装置还包括:
    第二确定模块,用于针对获取的各个样本融合数据,根据所述多个预设数 据指标,确定所述样本融合数据对应于各个预设数据指标的指标值;
    第二计算模块,用于将各个所述指标值与各个所述预设数据指标对应的权 重值变量加权求和,得到所述样本融合数据的指标得分;
    第二纠错模块,用于当所述指标得分大于预设触发阈值时,对所述样本融 合数据进行纠错;
    第三确定模块,用于确定各个预设数据指标对应的权重值变量的最优变量 值,所述最优变量值使各个样本融合数据的纠错成功率最高,将所述最优变量 值作为所述预设数据指标对应的指标权重值。
    在一实施例中,所述第一确定模块包括:
    第一计算子模块,用于当所述预设数据指标包括整体相似度指标时,对于 用于融合为所述融合数据的多条数据,计算每两条数据间的相似度,将所述每 两条数据间的相似度的平均值,作为所述融合数据的对应于整体相似度指标的 指标值。
    在一实施例中,所述第一确定模块包括:
    第一确定子模块,用于当融合所述融合数据的算法变更时,得出所述融合 数据对应于算法更新指标的指标值为第一预设值,当融合所述融合数据的算法 没有变更时,得出所述融合数据对应于算法更新指标的指标值为第二预设值。
    在一实施例中,所述第一确定模块包括:
    第二确定子模块,用于当所述预设数据指标包括时效指标或数据源信任度 指标时,根据用于融合为所述融合数据的多条数据的最近抓取时间与上次抓取 时间的时间差,或者用于融合为所述融合数据的多条数据的信任度变化前后的 差值,确定所述融合数据对应的变化参量Δk;
    第三确定子模块,用于根据所得比值确定所述融合数据对应于时效指 标或数据源信任度指标的指标值;其中,K为与时效指标或数据源信任度指 标对应的常量。
    在一实施例中,所述装置还包括:
    迭加模块,用于将时效指标或数据源信任度指标对应的常量K从初始值开 始,按预设步长逐步进行增加;
    第三纠错模块,用于对应于增加后所得的常量K,针对获取的各个样本融 合数据,根据用于融合为所述样本融合数据的多条数据的最近抓取时间与上次 抓取时间的时间差,或者用于融合为所述样本融合数据的多条数据的信任度变 化前后的差值,确定所述样本融合数据对应的变化参量Δk,当所得比值大 于1时,对所述样本融合数据进行纠错;
    第四确定模块,用于统计进行纠错的样本融合数据的纠错成功率,当所述 纠错成功率大于预设成功率阈值时,停止对所述常量K进行增加,确定所述常 量K的取值为当前所得数值。
    在一实施例中,所述第一纠错模块,包括:
    第二计算子模块,用于对于用于融合为所述融合数据的多条数据,计算每 两条数据间的相似度;
    第一去除子模块,用于当所述每两条数据间的相似度的平均值小于预设相 似度阈值时,按预设策略逐步去除用于融合为所述融合数据的多条数据中部分 数据,直到所述多条数据的剩余的数据中每两条数据间的相似度的平均值大于 预设相似度阈值时为止。
    在一实施例中,所述第二纠错模块或第三纠错模块,包括:
    第三计算子模块,用于对于用于融合为所述样本融合数据的多条数据,计 算每两条数据间的相似度;
    第二去除子模块,用于当所述每两条数据间的相似度的平均值小于预设相 似度阈值时,按预设策略逐步去除用于融合为所述样本融合数据的多条数据中 部分数据,直到所述多条数据的剩余的数据中每两条数据间的相似度的平均值 大于预设相似度阈值时为止。
    本发明的有益效果在于:针对待纠错的融合数据,根据多个预设数据指标, 确定所述融合数据对应于各个预设数据指标的指标值;将各个所述指标值与各 个所述预设数据指标对应的指标权重值加权求和,得到所述融合数据的指标得 分;当所述指标得分大于预设触发阈值时,对所述融合数据进行纠错。这样的 方式,能够应用数据融合过程中的多个指标,并且通过加权求和的方式,将各 指标对数据的影响进行量化,通过与预设触发值对比,根据预设条件触发纠错, 实现了融合数据纠错的自动化。
    本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明 书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可 通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获 得。
    下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
    附图说明
    附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发 明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
    图1为本发明一实施例中融合数据纠错方法的流程图
    图2为本发明一实施例中融合数据纠错装置的结构图。
    图3为本发明另一实施例中融合数据纠错装置的结构图。
    图4为本发明另一实施例中融合数据纠错装置的结构图。
    图5为本发明另一实施例中融合数据纠错装置的结构图。
    图6为本发明另一实施例中融合数据纠错装置的结构图。
    图7为本发明另一实施例中融合数据纠错装置的结构图。
    图8为本发明另一实施例中以第一纠错模块为例的融合数据纠错装置的结 构图。
    图9为本发明另一实施例中以第二纠错模块为例的融合数据纠错装置的结 构图。
    具体实施方式
    以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的 优选实施例仅用于说明和解释本发明,并不用于限定本发明。
    图1为本发明一实施例中融合数据纠错方法的流程图,如图1所示,本发 明中融合数据纠错方法可用于服务器,例如在收集关联信息数据的服务器中、 进行数据处理的服务器中,该方法包括如下步骤:
    在步骤S101中,针对待纠错的融合数据,根据多个预设数据指标,确定 融合数据对应于各个预设数据指标的指标值。
    举例而言,服务器抓取各个数据源网站上的数据,对抓取到的数据与已有 数据通过算法进行融合,得到融合数据。例如,将数据进行原子聚类,采用投 票方法判断新抓取数据所属聚类,将同一聚类中数据融合为融合数据。对融合 数据进行周期检验,将检验的融合数据作为待纠错的融合数据。设置多个预设 数据指标,并根据预设数据指标确定待纠错的融合数据对应于各个预设数据指 标的指标值。
    如此,通过预设数据指标对应的状态,将预设数据指标量化处理,可以直 观的展现待纠错的融合数据的状态。
    在一实施例中,当上述预设数据指标包括整体相似度指标时,上述针对待 纠错的融合数据,根据多个预设数据指标,确定融合数据对应于各个预设数据 指标的指标值,包括:
    对于用于融合为融合数据的多条数据,计算每两条数据间的相似度,将每 两条数据间的相似度的平均值,作为融合数据的对应于整体相似度指标的指标 值。其中,用于融合为融合数据的多条数据可以是融合为融合数据的全部数据, 也可以是从全部数据中采样的部分数据。
    举例而言,di和dj是上述融合为融合数据的多条数据中的任意两条数据, Score(di,dj)为数据di和dj的相似度,将整体相似度指标的指标值用s0表示, 可通过以下公式计算s0的值:
    s 0 = 1 - Σ i = 0 i = n - 2 Σ j = i + 1 j = n - 1 Score ( d i , d j ) C n 2 , ]]>
    s0∈[0,1],Score(di,dj)∈[0,1],
    其中 C n 2 = 1 2 × n × ( n - 1 ) . ]]>
    通过上述公式可以获得用于融合为融合数据的多条数据中任意两条数据 整体相似度。
    在一实施例中,当上述预设数据指标包括算法更新指标时,上述针对待纠 错的融合数据,根据多个预设数据指标,确定融合数据对应于各个预设数据指 标的指标值,包括:
    当融合上述融合数据的算法变更时,得出融合数据对应于算法更新指标的 指标值为第一预设值,当融合上述融合数据的算法没有变更时,得出融合数据 对应于算法更新指标的指标值为第二预设值。
    举例而言,当由于需求的变化、数据库完善、技术进步等原因,需要对算 法进行更新时,会导致既有数据融合算法的变化,当融合数据的算法更新时, 融合数据对应于算法更新指标的指标值s1为第一预设值,例如,上述第一预设 值取1.0,当融合上述融合数据的算法没有变更,融合数据对应于算法更新指 标的指标值s1为第二预设值,例如,上述第二预设值取0.0。
    在一实施例中,当上述预设数据指标包括时效指标或数据源信任度指标 时,上述针对待纠错的融合数据,根据多个预设数据指标,确定融合数据对应 于各个预设数据指标的指标值,包括如下步骤A1和A2:
    在步骤A1中,根据融合数据中的多条数据的最近抓取时间与上次抓取时 间的时间差,或者用于融合为上述融合数据的多条数据的信任度变化前后的差 值,确定融合数据对应的变化参量Δk;
    在步骤A2中:根据所得比值确定融合数据对应于时效指标或数据源信 任度指标的指标值;其中,K为与时效指标或数据源信任度指标对应的常量。
    举例而言,以时效指标为例,由于服务器抓取的数据来自于各个不同数据 源网站,数据源网站会不定期的进行数据更新,当数据源网站的某数据更新时, 之前包含该数据的融合数据可能会需要纠错,因此需要考虑数据的时效指标, 将时效指标的指标值用s2表示,上述数据的时效指标的指标值,可通过下面的 公式计算得到:
    s 2 = Δk K ; ]]>
    根据融合数据中的多条数据的最近一次抓取时间与上次抓取时间的时间 差确定变化参量Δk。这里的多条数据可以是融合数据中的所有数据,也可以是 从融合数据中的所有数据中随机抽样得到的多条数据。同时,这里的Δk可以是 这些数据中,各条数据的最近抓取时间与上次抓取时间的时间差的最大值,也 可以是多条数据中每条数据的最近抓取时间与上次抓取时间的时间差的平均 值。
    K为与时效指标对应的常量,K值可以为预设值。
    若以数据源信任度指标为例,数据源信任度指标值会根据实际情况进行调 整,数据源信任度指标值调整主要针对的是某个数据源信任度变化的大小,实 际应用中数据源信任度的区间为[0,100],0表示不可信,100表示100%可信即 正确数据。将数据源信任度指标用s3表示,上述数据的数据源信任度指标的指 标值通过下面的公式得到:
    s 3 = Δk K ; ]]>
    Δk为融合数据中的多条数据的信任度变化前后的差值,这里的多条数据可 以是融合数据中的所有数据,也可以是从融合数据中的所有数据中随机抽样得 到的多条数据。同时,这里的Δk可以是从上述多条数据中各条数据的信任度变 化前后的差值中取最大值,也可以是多条数据中每条数据的信任度变化前后的 差值的平均值。
    K为与数据源信任度指标对应的常量,K值可以为预设值。
    在一实施例中,上述K值的确定方法还包括如下步骤B1-B3:
    在步骤B1中,将时效指标或数据源信任度指标对应的常量K从初始值开 始,按预设步长逐步进行增加。
    在步骤B2中,对应于增加后所得的常量K,针对获取的各个样本融合数 据,根据用于融合为样本融合数据的多条数据的最近抓取时间与上次抓取时间 的时间差,或者用于融合为样本融合数据的多条数据的信任度变化前后的差 值,确定样本融合数据对应的变化参量Δk,当所得比值大于1时,对样本 融合数据进行纠错。
    在步骤B3中,统计进行纠错的样本融合数据的纠错成功率,当纠错成功 率大于预设成功率阈值时,停止对常量K进行增加,确定常量K的取值为当 前所得数值。
    纠错成功是指对样本融合数据进行纠错操作后,样本融合数据最终发生变 化的情况。纠错成功率是指纠错成功的样本融合数据与进行纠错的样本融合数 据的比值。
    举例而言,以时效指标为例,在上一实施例中,K值可以为预设值,本实 施例中,K值是可调的值,在此可将上一实施例中预设的K值作为初始值,也 可以重新预设K值,例如,预设K值为30(单位为天),然后按照预设步长逐 步增加K值,例如,预设步长为15。也就是说,以30天作为初始值,每次增 加15天。每增加15天,根据对各个样本融合数据的多条数据的最近抓取时间 与上次抓取时间的时间差确定Δk。针对各个样本融合数据,当样本融合数据对 应的的比值大于1时,对样本融合数据进行纠错。统计进行纠错的样本融 合数据的纠错成功率,当纠错成功率大于预设成功率阈值时,停止对常量K进 行增加,确定常量K的取值为当前所得数值,即最后一次步长增加后所得数值。
    当K为与数据源信任度指标对应的常量时,K值的调整方式与上述当K 为时效指标对应的常量时的确定方式类似,在此不再赘述。
    在步骤S102中,将各个指标值与各个预设数据指标对应的指标权重值加 权求和,得到融合数据的指标得分。
    举例而言,可通过将待纠错的融合数据的各个预设数据指标的指标值与相 应的指标权重值相乘,获得每个预设数据指标的子指标得分,再将每个预设数 据指标的子指标得分相加,获得待纠错的融合数据的指标得分。例如,令各个 预设数据指标值对应的指标权重值为wi,令各个预设数据指标的指标值为si, 待纠错的融合数据的指标得分可通过如下公式获得:
    f ( w ) = Σ i = 0 n w i s i ; ]]>
    si∈[0,1];
    上述公式中,具体令整体相似度指标对应的指标权重值为w0,对应于整体 相似度指标的指标值为s0;算法更新指标的指标权重值为w1,对应于算法更新 指标的指标值为s1;时效指标的指标权重值为w2,对应于时效指标的指标值为 s2;数据源信任度指标的指标权重值为w3,对应于数据源信任度指标的指标值 为s3。
    如此,通过上述方式得到融合数据指标的量化参数。
    在步骤S103中,当指标得分大于预设触发阈值时,对融合数据进行纠错。
    举例而言,预设触发阈值thd;当f(w)>thd时,对融合数据进行纠错;当 f(w)≤thd,不触发纠错。
    在一实施例中,对融合数据或样本融合数据进行纠错可以包括如下步骤 C1和C2:
    在步骤C1中,对于用于融合为融合数据或样本融合数据的多条数据,计 算每两条数据间的相似度;
    在步骤C2中,当每两条数据间的相似度的平均值小于预设相似度阈值时, 按预设策略逐步去除用于融合为上述融合数据或上述样本融合数据的多条数 据中部分数据,直到多条数据的剩余的数据中每两条数据间的相似度的平均值 大于预设相似度阈值时为止。
    举例而言,对于融合数据,或者样本融合数据中的多条数据,计算每两条 数据间的相似度,并计算每两条数据间相似度的平均值。当平均值小于预设相 似度阈值时,按照预设策略逐步去除用于融合为上述融合数据或上述样本融合 数据的多条数据中部分数据,直到多条数据的剩余的数据中每两条数据间的相 似度的平均值都大于预设相似度阈值时为止,上述预设策略可以是随机进行去 除,也可以按照升序或者降序进行。
    例如,di和dj是上述用于融合为融合数据的多条数据中的任意两条数据, Score(di,dj)为数据di和dj的相似度,按如下公式计算融合数据的平均相似 度:
    AverageScore ( n ) = Σ i = 0 i = n - 2 Σ j = i + 1 j = n - 1 Score ( d i , d j ) C n 2 , ]]>
    Score(di,dj)∈[0,1],
    其中, C n 2 = 1 2 × n × ( n - 1 ) . ]]>
    预设相似度阈值为CT,CT取值0.9。
    针对每条融合数据,用于融合为融合数据的多条数据数量为n条数据,判 断AverageScore(n)是否大于CT,若小于CT,则判断AverageScore(n-1)是否 大于CT。如此处理,直至AverageScore(m)>CT时,将有n-m条数据被剔除。
    针对样本融合数据的示例性说明,参见上述说明,在此不再赘述。
    另外,需要说明的是,在融合数据所在的系统进行全量更新,所有的数据 库及索引都进行重新建立时,或数据融合算法进行明显策略调整,或数据融合 需求进行颠覆式更新时,会进行强制纠错。强制纠错将强制触发纠错,不管该 数据有没有满足上述方式中的引起触发的条件。
    如此,充分考虑所有数据的相似度,将导致整体相似度低于纠错阈值的数 据剔除掉,得到较好的纠错结果。
    在一实施例中,上述方法还可包括如下步骤D1-D2:
    在步骤D1中,针对获取的各个样本融合数据,根据多个预设数据指标, 确定样本融合数据对应于各个预设数据指标的指标值;将各个指标值与各个预 设数据指标对应的权重值变量加权求和,得到样本融合数据的指标得分;当指 标得分大于预设触发阈值时,对样本融合数据进行纠错。
    在步骤D2中,确定各个预设数据指标对应的权重值变量的最优变量值, 最优变量值使各个样本融合数据的纠错成功率最高,将最优变量值作为预设数 据指标对应的指标权重值。
    举例而言,可以根据枚举法设定多组指标权重值的组合,并将各组权重值 组合代入公式预设触发阈值thd;当f(w)>thd时,对融合数据进 行纠错;统计进行纠错的样本融合数据的纠错成功率,选择使样本融合数据的 纠错成功率最高的指标权重值的组合,作为各个预设数据指标对应的指标权重 值。
    另外,上述指标权重值还可以通过如下方式确定:
    随机抽取n条样本融合数据,对抽取的n条样本融合数据进行纠错,确定 出纠错成功的样本融合数据的条数为m;
    针对该纠错成功的m条样本融合数据,
    最大化(MAX)(S·W-T)T·C,即可确定 w 0 w 1 . . . w i . ]]>
    其中为m条样本融合数据指标的指标值组成的矩阵, s00表示第一条样本融合数据的整体相似度指标的指标值s0;
    向量 W = w 0 w 1 . . . w i , ]]>需要确定的权重值变量,是向量;
    向量T表示预设的阈值向量 t 0 t 1 . . . t i , ]]>其中ti=thd。
    向量C表达纠错状态,按如下方法确定:
    令向量C'=S·W-T,针对C'的每一项c'ij,当c'ij>0,cij=1;否则,cij=0。 C表达即为纠错状态,为1时,表示纠错成功;为0时,表示纠错失败。 (S·W-T)T·C的值表示成功纠错的触发函数值之和,使之最大化,近似表 达纠错成功率最高。
    而最大化(S·W-T)T·C,即为线性规划问题的最优解。
    如此,通过求得线性规划问题的最优解,获得较为客观的权重值结果。
    本发明的有益效果在于:充分考虑了数据融合过程中的各个重要指标,并 且通过加权求和的方式,将各重要指标对数据的影响进行量化,通过与预设触 发值对比,实现了自动纠错。并且,通过线性规划问题,求得数据指标的指标 权重值的最优解,获得较为客观的权重值。
    图2为本发明一实施例中融合数据纠错装置的结构图,如图2所示,本发 明中融合数据纠错装置可用于服务器,例如在收集关联信息数据的服务器中、 进行数据处理的服务器中,该装置包括:
    第一确定模块21,用于针对待纠错的融合数据,根据多个预设数据指标, 确定融合数据对应于各个预设数据指标的指标值;
    第一计算模块22,用于将各个指标值与各个预设数据指标对应的指标权重 值加权求和,得到融合数据的指标得分;
    第一纠错模块23,用于当指标得分大于预设触发阈值时,对融合数据进行 纠错。
    在一实施例中,如图3所示,装置还包括:
    第二确定模块31,用于针对获取的各个样本融合数据,根据多个预设数据 指标,确定样本融合数据对应于各个预设数据指标的指标值;
    第二计算模块32,用于将各个指标值与各个预设数据指标对应的权重值变 量加权求和,得到样本融合数据的指标得分;
    第二纠错模块33,用于当指标得分大于预设触发阈值时,对样本融合数据 进行纠错;
    第三确定模块34,用于确定各个预设数据指标对应的权重值变量的最优变 量值,最优变量值使各个样本融合数据的纠错成功率最高,将最优变量值作为 预设数据指标对应的指标权重值。
    在一实施例中,如图4所示,第一确定模块21包括:
    第一计算子模块41,用于当预设数据指标包括整体相似度指标时,对于用 于融合为融合数据的多条数据,计算每两条数据间的相似度,将每两条数据间 的相似度的平均值,作为融合数据的对应于整体相似度指标的指标值。
    在一实施例中,如图5所示,第一确定模块21包括:
    第一确定子模块51,用于当融合融合数据的算法变更时,得出融合数据对 应于算法更新指标的指标值为第一预设值,当融合融合数据的算法没有变更 时,得出融合数据对应于算法更新指标的指标值为第二预设值。
    在一实施例中,如图6所示,第一确定模块21包括:
    第二确定子模块61,用于当预设数据指标包括时效指标或数据源信任度指 标时,根据用于融合为融合数据的多条数据的最近抓取时间与上次抓取时间的 时间差,或者用于融合为融合数据的多条数据的信任度变化前后的差值,确定 融合数据对应的变化参量Δk;
    第三确定子模块62,用于根据所得比值确定融合数据对应于时效指标 或数据源信任度指标的指标值;其中,K为与时效指标或数据源信任度指标 对应的常量。
    在一实施例中,如图7所示,装置还包括:
    迭加模块71,用于将时效指标或数据源信任度指标对应的常量K从初始 值开始,按预设步长逐步进行增加;
    第三纠错模块72,用于对应于增加后所得的常量K,针对获取的各个样本 融合数据,根据用于融合为样本融合数据的多条数据的最近抓取时间与上次抓 取时间的时间差,或者用于融合为样本融合数据的多条数据的信任度变化前后 的差值,确定样本融合数据对应的变化参量Δk,当所得比值大于1时,对 样本融合数据进行纠错;
    第四确定模块73,用于统计进行纠错的样本融合数据的纠错成功率,当纠 错成功率大于预设成功率阈值时,停止对常量K进行增加,确定常量K的取 值为当前所得数值。
    在一实施例中,如图8所示,第一纠错模块23,包括:
    第二计算子模块81,用于对于用于融合为融合数据的多条数据,计算每两 条数据间的相似度;
    第一去除子模块82,用于当每两条数据间的相似度的平均值小于预设相似 度阈值时,按预设策略逐步去除用于融合为融合数据的多条数据中部分数据, 直到多条数据的剩余的数据中每两条数据间的相似度的平均值大于预设相似 度阈值时为止。
    在一实施例中,如图9所示,第二纠错模块33,包括:
    第三计算子模块91,用于对于用于融合为样本融合数据的多条数据,计算 每两条数据间的相似度;
    第二去除子模块92,用于当每两条数据间的相似度的平均值小于预设相似 度阈值时,按预设策略逐步去除用于融合为样本融合数据的多条数据中部分数 据,直到多条数据的剩余的数据中每两条数据间的相似度的平均值大于预设相 似度阈值时为止。
    在一实施例中,第三纠错模块,也可包括:
    第三计算子模块,用于对于用于融合为样本融合数据的多条数据,计算每 两条数据间的相似度;
    第二去除子模块,用于当每两条数据间的相似度的平均值小于预设相似度 阈值时,按预设策略逐步去除用于融合为样本融合数据的多条数据中部分数 据,直到多条数据的剩余的数据中每两条数据间的相似度的平均值大于预设相 似度阈值时为止。
    本发明的有益效果在于:充分考虑了数据融合过程中的各个重要指标,并 且通过加权求和的方式,将各重要指标对数据的影响进行量化,通过与预设触 发值对比,实现了自动纠错。并且,通过线性规划问题,求得数据指标的指标 权重值的最优解,获得较为客观的权重值。
    本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计 算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结 合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包 含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和 光学存储器等)上实施的计算机程序产品的形式。
    本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产 品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入 式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算 机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一 个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
    这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设 备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中 的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个 流程和/或方框图一个方框或多个方框中指定的功能。
    这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使 得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处 理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个 流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
    显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发 明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及 其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

    关 键  词:
    一种 融合 数据 纠错 方法 装置
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:一种融合数据纠错方法及装置.pdf
    链接地址:https://www.zhuanlichaxun.net/p-1753804.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1