书签 分享 收藏 举报 版权申诉 / 13

基于K近邻的水利普查行业能力数据融合方法.pdf

  • 上传人:GAME****980
  • 文档编号:1639107
  • 上传时间:2018-06-30
  • 格式:PDF
  • 页数:13
  • 大小:830.90KB
  • 摘要
    申请专利号:

    CN201510056780.6

    申请日:

    2015.02.03

    公开号:

    CN104657441A

    公开日:

    2015.05.27

    当前法律状态:

    实审

    有效性:

    审中

    法律详情:

    实质审查的生效IPC(主分类):G06F 17/30申请日:20150203|||公开

    IPC分类号:

    G06F17/30

    主分类号:

    G06F17/30

    申请人:

    河海大学

    发明人:

    王继民; 张新华

    地址:

    210024江苏省南京市鼓楼区西康路1号

    优先权:

    专利代理机构:

    南京苏高专利商标事务所(普通合伙)32204

    代理人:

    柏尚春

    PDF完整版下载: PDF下载
    内容摘要

    本发明公开一种基于k-近邻的水利普查行业能力数据融合方法,包括以下步骤:对水利普查中行业能力单位名称以及水利工程数据中的管理单位名称进行逐级分解,建立精简和非精简单位名称;选择水利普查行业能力和水利工程数据样本,建立样本中行业能力单位和水利工程管理单位的匹配,基于样本训练适合水利普查数据的最优编缉距离权重;以带权重的编缉距离作为相似性度量距离,通过组织机构代码精确匹配、单位名称的k-近邻相似搜索匹配,最后进行人工搜索匹配。本发明能够实现水利普查中行业能力单位与水利工程管理单位的一致匹配,从而完成水利工程和行业能力普查数据的有效衔接,为分析水利发展现状、制定水利及经济社会发展规划提供支撑。

    权利要求书

    权利要求书
    1.  一种基于k-近邻的水利普查行业能力数据融合方法,其特征在于,包括以下步骤:
    (1)对水利普查行业能力数据以及水利工程数据中的单位名称进行逐级分解;
    (2)选择水利普查中行业能力数据和水利工程数据样本,并建立样本中水利工程管理单位和行业能力单位的匹配;
    (3)基于步骤(2)中的样本训练编缉距离权重;
    (4)将步骤(1)中分解出的单位名称信息以带权重的编缉距离作为相似性度量距离,以行业能力单位名称为数据集,以水利工程管理单位名称为查询集,进行k-近邻相似搜索,并结合人工对数据进行匹配。

    2.  根据权利要求1所述的基于k-近邻的水利普查行业能力数据融合方法,其特征在于:所述步骤(1)中的行业能力数据以及水利工程数据中的单位名称被逐级分解成行政地名信息和精简的单位名称;且对不包含行政区划名的单位名称直接分解成非精简单位名。

    3.  根据权利要求1所述的基于k-近邻的水利普查行业能力数据融合方法,其特征在于:所述步骤(2)中选择水利普查中行业能力数据和水利工程数据样本,并通过组织机构代码、普通的编辑距离以及人工匹配等方式,建立样本中水利工程管理单位名称和行业能力单位名称之间的匹配,作为编辑距离权重学习的数据集。

    4.  根据权利要求1所述的基于k-近邻的水利普查行业能力数据融合方法,其特征在于:所述步骤(3)中采用1-近邻方法来训练最优的编缉距离权重,进而获得最优编缉距离中的删除、插入和替换操作的最优权重。

    5.  根据权利要求1所述的基于k-近邻的水利普查行业能力数据融合方法,其特征在于:所述步骤(4)中对单位名称进行k-近邻相似搜索时,对精确单位名称按照水利普查的“在地原则”,在分解出的单位所在级别的县或市或省或全国匹配;对非精简单位名称按照县、市、省以及国家逐级匹配即对一个非精简的水利工程管理单位查询k-近邻时,优先在其所在县级的行业能力单位数据中匹配,然后到市、省以及全国范围的行业能力单位数据中匹配。

    6.  根据权利要求3所述的基于k-近邻的水利普查行业能力数据融合方法, 其特征在于,所述样本选择的过程中,以县级数据为基本单位来选择用于训练最优权重向量的样本数据,即从总体数据涉及的所有县中,首先选择样本县,然后将每个样本县的所有行业能力和水利工程数据作为样本数据。

    说明书

    说明书基于k-近邻的水利普查行业能力数据融合方法
    技术领域
    本发明涉及信息处理技术,具体涉及一种基于k-近邻的水利普查行业能力数据融合方法。
    背景技术
    第一次全国水利普查主要查清了中华人民共和国境内(未含香港、澳门特别行政区和台湾地区)的河流湖泊、水利工程、经济社会用水、河流湖泊治理保护、水土保持、水利行业能力建设、灌区及地下水等8大项基础信息,为加强水利基础设施建设与管理、实行最严格的水资源管理制度等提供了科学权威的数据支撑。
    水利单位是结合水利工程设施特性与行业发展规模等各类管理信息,分析水利单位与水利工程设施、资产、从业人员等发展状况的关键节点。因此,厘清水利单位,通过建立水利工程对象的工程管理单位与行业能力的水利单位之间的匹配关系,实现普查水利工程数据与行业能力数据融合,对科学研判水利管理能力和水平具有重要的意义。
    由于不同专业普查的填报范围规定不同、规范性要求存在差异,因此部分水利单位普查数据存在组织机构代码不完整、重复,以及不同专业填报的水利单位名称不能完全一致等问题,同时由于水利普查数据量大,直接完全通过人工方式建立匹配关系费时费力。
    发明内容
    发明目的:本发明的目的在于解决现有技术中存在的不足,提供一种基于k-近邻的水利普查行业能力数据融合方法。实现水利普查中行业能力单位与水利工程管理单位信息的一致匹配,实现水利工程和行业能力普查数据的有效衔接,为分析水利发展现状,制定水利及经济社会发展规划等提供支撑。所谓数据融合就是利用计算机技术将来自多个传感器或多源的观测信息进行分析、综合处理,从而得出决策和估计任务所需的信息的处理过程。
    其中,数据融合包含三个层次,即,数据层融合、特征层融合以及决策层融合。数据层融合是低层次的融合,直接在采集到的原始数据层上进行的融合,在各种传感器的原始测报未经预处理之前就进行数据的综合与分析。特征层融合属于中间层次的融合,它先对来自传感器的原始信息进行特征提取(特征可以是目标的边缘、方向、速度等),然后对特征信息进行综合分析和处理;特征层融合的优点在于实现了可观的信息压缩,有利于实时处理,并且由于所提取的特征直接与决策分析有关,因而融合结果能最大限度的给出决策分析所需要的特征信息。决策层融合通过不同类型的传感器观测同一个目标,每个传感器在本地完成基本的处理,其中包括预处理、特征抽取、识别或判决,以建立对所观察目标的初步结论。然后通过关联处理进行决策层融合判决,最终获得联合推断结果。
    本发明基于数据挖掘中的k-近邻搜索完成数据融合。所谓k-近邻搜索是指在对象数据集S中查询与指定查询对象q最相似的k个对象。k-近邻是相似性搜索的一种,相似性搜索就是在对象数据集S中查询与指定查询对象q相似的对象。相似性搜索一般包括两类任务:一是k-近邻查询(k Nearest Neighbor Query,kNN);另一种是范围查询(Range Query),即在对象数据集S中查询与指定查询对象q相似距离小于等于ε的所有对象。在相似性查询中,通常使用相似距离度量D来计算两个对象的距离,即对象s与查询对象q的距离被描述为D(s,q)。对于范围查询即是查询所有满足D(s,q)≤ε的对象s。在k-近邻查询过程中,对对象s按照D(s,q)排序,前k个即为q的k-近邻。目前常见的相似距离度量有欧式距离,最长公共子串,编辑距离等。
    技术方案:本发明的一种基于k-近邻的水利普查行业能力数据融合方法,包括以下步骤:
    (1)对水利普查行业能力数据以及水利工程数据中的单位名称进行逐级分解;
    (2)选择水利普查中行业能力数据和水利工程数据样本,并建立样本中水利工程管理单位和行业能力单位的匹配;
    (3)基于步骤(2)中的样本训练编缉距离权重;
    (4)对步骤(1)中分解出的单位名称信息以带权重的编缉距离作为相似性度量距离,以行业能力单位名称为数据集,以水利工程管理单位名称为查询集, 进行k-近邻相似搜索,并结合人工对数据进行匹配。
    进一步的,所述步骤(1)中的行业能力数据以及水利工程数据中的单位名称被逐级分解成行政地名信息和精简的单位名称;且对不包含行政区划名的单位名称直接分解成非精简单位名。
    进一步的,所述步骤(2)中选择水利普查中行业能力数据和水利工程数据样本(例如可以选择10%的水利普查数据作为样本),并通过组织机构代码、普通的编辑距离以及人工匹配等方式,建立样本中水利工程管理单位名称和行业能力单位名称之间的匹配,作为编辑距离权重学习的数据集。
    而在上述样本选择的过程中,以县级数据为基本单位来选择用于训练最优权重向量的样本数据,即从总体数据涉及的所有县中,首先选择样本县,然后每个样本县的所有行业能力和水利工程数据作为样本数据,且选择样本县时需要考虑水利发展现状上的代表性。
    进一步的,所述步骤(3)中采用1-近邻方法训练最优的编缉距离权重,进而获得最优编缉距离中的删除、插入和替换操作的最优权重。
    进一步的,所述步骤(4)中对单位名称进行k-近邻相似搜索时,对精确单位名称按照水利普查的“在地原则”,在分解出的单位所在级别的县或市或省或全国匹配;对非精简单位名称按照县、市、省以及国家逐级匹配即对一个非精简的水利工程管理单位查询k-近邻时,优先在其所在县级的行业能力单位数据中匹配,然后到市、省以及全国范围的行业能力单位数据中匹配。
    有益效果:本发明通过相似性搜索建立行业能力普查单位与水利工程管理单位的一致匹配,实现水利工程和行业能力普查数据的有效衔接,为分析水利发展现状,制定水利及经济社会发展规划等提供支撑。
    附图说明
    图1为本发明实施例中能够行业能力单位名称匹配框架图;
    图2为实施例中省1的样本数据的匹配准确率对比图;
    图3为实施例中省2的样本数据的匹配准确率对比图。
    具体实施方式
    下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发 明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
    本发明针对水利普查数据融合问题,即实现水利普查中行业能力单位和水利工程的管理单位的匹配融合。采用带权重编辑距离作为相似度量,以水利工程的管理单位的单位名称作为查询集,以行业能力单位的单位名称作为数据集,进行k-近邻查询,在k-近邻中人工判断匹配项,对匹配失败的项进行人工搜索,最终实现行业能力单位和水利工程管理单位的匹配。
    如图1所示,首先对行业能力普查单位名称和水利工程管理单位名称进行分级处理,提取单位名称中的行政区划信息,建立分级的单位名称;从水利普查总体数据中选择部分数据作为样本,通过人工等方式建立样本数据中行业能力单位和水利工程管理单位的匹配,基于已匹配的数据,利用1-近邻的启发式权重学习得到编辑距离最优的权重向量;利用带权重的编辑距离实现水利单位名称k-近邻查询,并结合人工识别,实现单位匹配。下面首先介绍利用带权重编辑距离进行水利普查行业能力数据融合的可行性,然后介绍具体的实施步骤。
    首先说明带权重编辑距离在水利普查行业能力单位匹配中的可行性。假设有S1,S2两个字符串,编辑距离定义为:把S1转换成S2需要的最少删除(即删除S1中1个字符)、插入(即在S1中插入1个字符)或替换(即把A中的某个字符替换成另一个字符)的次数。这两个字符串互相转换需要经过的步骤越多,编辑距离就越远。在原始编辑距离计算中,删除、插入和替换3种操作的权重完全相同,然而,由于中文表述的特殊性,在单位名称中插入或者删除字词,有时候不会对名称的含义产生影响,而替换字词则可能会完全改变原字符串的含义。因此,可以对不同操作设定不同权重,以更加准确地度量字符串间的距离。
    而重新设定操作的权重可以在很大程度上提高编辑距离对水利单位匹配处理的适应性。表1和表2显示了在权重向量<wdelete,winsert,wreplace>分别取<1,1,1>和<0.1,0.1,1>下计算“X镇水利管理站”与“X镇水利管理工作站”和“YY镇水利管理站”2个水利单位名称的编辑距离。权重向量<1,1,1>下,“X镇水利管理站”与“X镇镇水利管理工作站”之间的编辑距离3大于其与“YY镇水利管理站”之间的编辑距离2;权重向量<0.1,0.1,1>下,“X镇水利管理站”与“X镇镇水利管理工作站”之间的编辑距离0.3远远小于其与“YY镇水利管理站”之间的编辑距离1.1,判断出“X镇水利管理站”与“X镇镇水利管理工作站” 更为相近,因此可以看出,对编辑操作的权重进行有方向的调整可以提高相似性判断的正确率。
    表1.传统编辑距离计算示例

    表2.调整的编辑权重向量下编辑距离计算示例

    不同数据集可能对编辑距离的3种操作具有不同的敏感性,因此,需要针对不同的数据集,动态调整编辑操作的权重以满足不同特征数据集的实际应用,因此需要从实际的数据集中采集样本进行学习,以获取符合数据集特征的操作权重向量。
    实施例:
    本实施例中,基于k-近邻的水利普查行业能力数据融合的具体步骤如下:
    步骤101:行业能力普查单位名称是指待处理的水利普查数据中所有的行业 能力单位信息中的单位名称。
    步骤102:水利工程管理单位名称是指待处理的水利普查数据中所有的水利工程管理单位信息中的单位名称。
    步骤103:单位名称分级处理是将水利普查中填报的行业能力数据中的原始单位名称以及水利工程的管理单位名称分解成“原始填报单位名称=分级行政地名信息+精简单位名称”的格式。部分单位名称包含行政地名信息,如“常州市北桥区解集乡水利工作站”,包含所在市和区的信息,由于普查对象是按照“在地原则”填报,填报的水利单位名称可能忽略了所在行政地名信息,如写成“解集水利站”,若直接对两者进行相似性匹配,编辑距离较大,容易造成匹配失败。提取单位名称中的行政地名信息,构建分级单位名称,缩小匹配范围将有助于提高匹配的正确率。如,将“常州市北桥区解集乡水利工作站”分解成“江苏省”+“常州市”+“北桥区”+“解集乡水利工作站”,在相同省市县区域内利用“解集水利站”和“解集乡水利工作站”进行字符串相似性查询,则得到的编辑距离变小,容易得到正确的结果。
    提取行政区划信息时,按照从左到右的顺序逐一加字成词的方法,如针对“安徽省滁州市”,先取“安”字在行政区划数据库中比较核对,若未找到对应行政区划名,则依次加1个字并进行比对,即核查“安徽”是否为已录入行政区划,若为,则判定其为1个地名,否则,继续逐一加字继续进行匹配核查,直到超出最大长度。若碰见“省”、“自治区”、“市”、“州”、“区”、“县”、“旗”等地名“后缀词”,则将此后缀词归为紧挨着前面的地名,将核查出的行政区划名从单位名称中去除,在剩余部分中继续提取下级行政区划名。由于水利普查按照县级为单位进行填报,因此名称分解最低只提取到县级。
    部分单位名称不包含行政区划信息,如“长江水利委员会”,还有些单位名称由于进行了简写,无法解析出分级行政区划,这些单位名称可直接保留其原始填报名称,称为非精简单位名称。
    步骤104:精简单位名称和非精简单位名称指步骤103中分解出的单位名称信息。
    步骤105:选择水利普查行业能力和水利工程数据样本,为了得到适合水利普查数据的最优编辑距离权重,需要利用水利普查数据进行学习,但是我们不能 使用全部的水利普查数据。因此选择适量的样本,预先选择样本进行学习,再应用到剩余的数据,提高剩余数据的处理速度,减少处理时间。本发明首先从已有的总体数据中选择部分数据(例如可以是10%的数据)作为样本,然后建立样本数据中水利工程管理单位名称和行业能力单位名称之间的匹配。对于样本的数量,由于需要对样本进行匹配处理,若样本量占总体比例较高,则前期处理的工作量较大;若样本量占总体比例太小,则学习得到的最优权重不能反映总体数据特征,那么当将该权重应用到总体数据后,进行k-近邻搜索时,匹配准确率可能不太高,进而影响后期处理的效率。在数据挖掘领域,10折交叉验证法(10-folds corss validate)被认为是一种比较有效的验证模型准确率的方法,即将总体数据分成10等分,轮流采用其中的90%(即九折)训练,采用剩下的10%(即其中的一折)进行测试。因此,本发明建议选择总体的10%作为训练最优权重的样本。
    以县级数据为基本单位来选择样本,即从总体数据涉及的所有县,首先随机选择样本县,然后所有样本县的所有行业能力和水利工程数据作为样本数据。在随机选择样本县后,有可能样本县的数据不时恰好占总体的10%。可以进行多次随机选择(比如10次),选择样本比重最接近10%的选择。
    步骤106:建立样本数据中的匹配,为了进行编辑距离权重学习,必须要将样本中行业能力单位和水利工程管理单位进行匹配,建立正确的对应关系。本实施从数据挖掘的分类角度来认识行业能力单位和水利工程管理单位的匹配。由于样本中每个行业能力单位是唯一的,可将这些看成是类,有多少个行业能力单位,就有多少个类;每个水利工程的管理单位对应到一个行业能力单位,即,每个水利工程的管理单位都属于一个类。从数据挖掘角度来看,水利普查行业能力数据融合,就是确定每个水利工程的管理单位所属于的行业能力单位类。对样本数据建立水利工程管理单位和行业能力管理单位的匹配与对总体数据建立水利工程管理单位和行业能力管理单位的匹配的处理过程是类似的。首先通过行业能力单位和水利工程管理单位的组织机构代码进行匹配;对失败的匹配项,利用编辑距离进行k-近邻查询,结合人工进行匹配;最后,对剩余的失败匹配项采用人工搜索进行匹配。在样本中的匹配,采用常规的编辑距离,即不带权重。本实施例通过样本学习获得编辑距离的权重,在总体数据处理时,将大大提高k-近邻匹配的准确率,样本数据的匹配具体分为以下几种:
    A、通过组织机构代码匹配
    在行业能力单位和水利工程管理单位信息中,填报了单位的组织机构代码,但是,由于普查时行业能力数据和水利工程数据由不同的专业指导进行普查,同时由于存在数据漏填,造成这些信息大都不一致,甚至匹配不上。因此,首先通过组织机构代码进行行业能力单位和水利工程管理单位的匹配,利用水利管理单位的组织机构代码,在行业能力单位数据中进行查找。对查找到的匹配项,同时计算两个对应单位名称的编辑距离。将所有的匹配项,按照编辑距离从低到高排序,人工识别匹配的正确性。靠前的匹配项正确性是很高的,因为组织机构代码相同,同时单位名称的编辑距离也很低,那么正确匹配的可能性高。
    B、通过基于常规编辑距离的k-近邻匹配
    对通过组织机构匹配失败的水利工程管理单位,即没有在行业能力单位中找到对应的单位,,进一步采用常规的编辑距离(即不带权重)进行k-近邻查询,结合人工判断,最后对仍然然没有匹配的则进行人工搜索。以剩余的水利工程管理单位名称为查询集,以样本中的所有行业能力单位名称为数据集,进行k-近邻查询。针对精简单位名称和非精简单位名称采用不同的策略。针对精简单位名称,因为可以从原始单位名称中提取行政区划信息,因此按照普查的的“在地原则”,该行业能力单位应该在相应的行政区划内填报,因此只到对应的行政区划填报的行业能力单位中查找k-近邻。对非精简单位名称,因为不能提取行政区划信息,则直接到样本的所有数据中查找k-近邻。人工识别k-近邻中的正确匹配。
    C、人工搜索匹配
    对剩余的位匹配的水利工程管理单位名称,利用人工进行查询搜索,建立匹配。
    步骤107:保留所有找到匹配的水利工程管理单位名称信息,以及对应的行业能力单位名称信息作为最终的学习样本。
    步骤108:训练最优编缉距离权重。将样本中水利工程管理单位名称信息设置为训练查询集T1,将样本中行业能力单位名称信息设置为训练数据集T2。T1中每个字符串都和T2中的唯一串匹配,并且已进行标记。若将T2中的每个字符串视为一类标记,则基于数据挖掘中分类思想,可以认为T1中的每个中文字符串所属类知。本实施例采用“留一法”,基于带权重的编辑距离和k-近邻算法在 T2中搜索T1字符串的最相似串,并以该最相似串作为匹配的串,计算整体的匹配错误率。不同的编辑操作权重向量计算得到的匹配错误率可能是不同的,对应错误率最低的权重向量将作为当前数据集的最优权重向量。
    权重调整的策略为,将间隔[0,1]分割成k个等间距的子间隔,使用<0,0,0>作为权重向量起点进行匹配,逐步使用相邻的更大的权重替代,使用训练数据集的匹配错误率作为权重评估函数。在一些情况下,该方法可能产生冗余的权重向量。例如,假设k=5,权重向量<0.2,0.2,0.2>和<0.4,0.4,0.4>将产生相同的匹配错误率。因此,约定权重向量中各分量的和为1时,为有效的权重向量。权重向量中的每个分量逐步从0按照1/k的步长递增到1,并且只有各分量和为1的权重向量才用于评估匹配错误率。
    上述搜索最优编辑操作权重向量的过程如算法1所示。
    算法1.寻找最优编辑操作权重向量
    参数:S,样本集,包括T1和T2两部分;
    d,权重向量变化的步长(1/k)。
    返回值:P,最优的权重向量。


    在算法1中,假设d=0.5,即k=2,算法将产生如表3的权重向量,并使用evaluate_error函数评估每个权重向量对应的匹配错误率;evaluate_distance函数计算查询字符串到最近邻的平均编辑距离dist,在匹配错误率相同时,算法优先选择最小平均距离对应的权重向量。
    表3.算法1产生的有效权重向量(k=2)

    步骤109:最优权重向量指通过样本学习出的,本发明中认为的适合水利普查数据的最优编辑距离权重。
    步骤110:单位名称匹配。总体数据中的水利工程管理单位和行业能力单位匹配的处理方式和步骤106中,样本中的水利工程管理单位和行业能力单位匹配基本类似。也是首先利用组织机构代码进行匹配,然后对匹配失败的水利工程管理单位利用编辑距离进行k-近邻查询进行匹配,最后,对剩余的水利工程管理单位采用人工搜索进行匹配。总体数据的匹配和样本中的匹配不同在于,总体数据的匹配采用带权重的编辑距离,采用步骤109的最优权重。本步骤包括步骤1101、步骤1102和步骤1103:
    步骤1101:通过组织机构代码匹配水利工程管理单位和行业能力单位。操作方法参考步骤106中的“通过组织机构代码匹配”小节。对于不能通过组织机构代码匹配的水利工程管理单位,则进入步骤1102。
    步骤1102:通过基于带权重的编辑距离的k-近邻匹配。本步骤与步骤106中的“通过基于常规编辑距离的k-近邻匹配”类似,不同之处在于,本步骤的 编辑距离考虑各种不同操作的权重,从而提高匹配的准确率,具体可参考步骤106。对精简单位名称按照“在地原则”,到与水利管理单位所在的行政区划填报的行业能力单位中搜索。如水利管理单位分级后为“徐州市+水利局”,则要到徐州市上报的行业能力单位中进行搜索。对非精简单位名称,由于不能确定具体的行政区划,则到所有的行业能力单位名称中搜索。搜索得到k-近邻后,人工识别k-近邻中的正确的匹配名称。对于不能通过k-近邻匹配的水利工程管理单位,则进入步骤1103。
    步骤1103:人工搜索匹配。对通过步骤1101和步骤1102都不能匹配的水利工程管理单位,利用人工,综合水利工程管理单位各种信息进行匹配。
    步骤111:所有的匹配工作到本步骤结束。
    为了说明带权重编辑距离在水利普查行业能力数据融合中的有效性,下面进行相关实验验证。数据来自第一次全国水利普查,选择两个省的部分市级水利普查数据水利工程管理单位信息,去掉未填记录,通过利用组织机构代码始编辑距离进行k-近邻匹配以及人工匹配的方式建立水利工程管理单位和行业能力单位的匹配,并从匹配后的记录中各随机选择2000记录用于实验。由于各省独立开展普查工作,因此数据具有独立性。实验中,针对每个省,以500条为步长,随机选择记录作为每步的实验数据,选择测试数据的30%作为训练数据,计算最优权重向量,剩余70%作为测试数据,计算匹配准确率。
    如图2和图3所示,基于原始编辑距离和带权重编辑距离的匹配准确率的变化情况。基于原始编辑距离直接匹配算法,在数据量较小时,匹配准确率较高,但是随着数据量的增加,准确率降低;基于带权重编辑距离算法的匹配方法匹配准确率可以达到80%-85%之间。图2和图3中显示的准确率是在k-近邻中前三个近邻只要存在正确的匹配就算匹配正确。由于普查数据的数据量巨大,采用本发明中的基于k-近邻的水利普查行业能力数据融合方法进行水利工程和行业能力数据融合可以大大提高工作效率。

    关 键  词:
    基于 近邻 水利 普查 行业 能力 数据 融合 方法
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:基于K近邻的水利普查行业能力数据融合方法.pdf
    链接地址:https://www.zhuanlichaxun.net/p-1639107.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1