书签 分享 收藏 举报 版权申诉 / 11

电力传输设备监控数据处理方法.pdf

  • 上传人:111****11
  • 文档编号:6266943
  • 上传时间:2019-05-27
  • 格式:PDF
  • 页数:11
  • 大小:851.44KB
  • 摘要
    申请专利号:

    CN201510674398.1

    申请日:

    2015.10.16

    公开号:

    CN105303456A

    公开日:

    2016.02.03

    当前法律状态:

    实审

    有效性:

    审中

    法律详情:

    实质审查的生效IPC(主分类):G06Q 50/06申请日:20151016|||公开

    IPC分类号:

    G06Q50/06(2012.01)I; G06F17/30

    主分类号:

    G06Q50/06

    申请人:

    国家电网公司; 国网山东省电力公司泰安供电公司; 国网山东宁阳县供电公司

    发明人:

    耿利; 许海霞; 苗泽玮; 赵娜; 陈迪; 刘泉; 李晨; 李振宇; 胡青学; 张子建

    地址:

    100031北京市西城区西长安大街86号

    优先权:

    专利代理机构:

    北京青松知识产权代理事务所(特殊普通合伙)11384

    代理人:

    郑青松

    PDF完整版下载: PDF下载
    内容摘要

    本发明提供了一种电力传输设备监控数据处理方法,包括:根据监控数据的关联性和时间和空间属性进行多重备份的一致性散列存储,利用并行计算框架对多个监控数据源进行组合检索和并行检索和特征分析。本发明提出了一种电力传输设备监控数据的处理方法,基于云计算技术对监控数据进行高效、可靠地存储,并且实现快速访问和分析。

    权利要求书

    1.一种电力传输设备监控数据处理方法,其特征在于:
    根据监控数据的关联性和时间和空间属性进行多重备份的一致
    性散列存储,利用并行计算框架对多个监控数据源进行组合检索和并
    行检索和特征分析。
    2.根据权利要求1所述的方法,其特征在于,所述根据监控数
    据的关联性和时间和空间属性进行多重备份的一致性散列存储,进
    一步包括:
    获取每个监控设备采集数据的时间和空间特性,即数据对应的
    采集时间和采集地点以及自定义相关系数作为数据检索和分析的关
    键字;在云平台中将数据存储为3个备份版本;利用一致性散列将
    数据的第1备份按照监控设备编号进行散列映射;将数据的第2备
    份按照采集时间数据进行散列映射;将数据的第3备份按照自定义
    相关系数进行散列映射,所述相关系数为监控数据的特定属性,其
    根据上层应用程序的需要来赋值;所述一致性散列存储进一步包括
    以下过程:
    1)通过配置文件预定义监控数据的所述相关系数以及冗余备份
    的数量;
    2)计算云平台中每个存储节点的散列值,并将其配置到预先建
    立的循环散列队列区间上;
    3)根据监控数据的时间和空间属性以及相关系数计算数据的散
    列值,对云平台下存在的数据多个备份的第1备份,根据数据的来源,
    即监控设备编号,计算第一散列值,将其映射到循环散列队列上;对
    第2备份,根据监控数据的时间属性即采集时间数据,计算第二散列
    值,并将其映射到循环散列队列上;对第3备份,根据数据的相关系
    数计算第三散列值,并将其映射到循环散列队列上;如果云平台配置
    有3个以上的备份,则交替按照上述第一至第三备份的方式计算其散
    列值并依次映射到循环散列队列上;
    4)根据数据散列值和存储节点散列值确定数据的存储位置,按
    顺时针将数据映射到距离其最近的存储节点上;
    5)若数据将存储的节点出现空间不足情况,则跳过当前节点以
    寻找下一个存储节点;
    此外,在进行数据读取时,名字节点根据存储节点与客户端之间
    的距离对多个存储节点进行排序后返回给客户端,以从最近的节点读
    取数据,其中,两个节点之间的距离定义为一个节点到达另一个节点
    所经过的节点数。
    3.根据权利要求2所述的方法,其特征在于,所述对多个监控数
    据源进行组合检索,进一步包括:
    根据以下条件进行检索:设备属性数据,即名称、运行时间、安
    装地点、本体参数,监控数据即导线温度、载流量、拉力、环境数据
    即环境温度、湿度和气压、地理信息数据即海拔、经纬度;将不同的
    数据源进行数据连接,所述不同的数据源来自于多个文件;监控设备
    对绝缘端子泄漏电流、导线张力、导线电流、导线温度、微气象数据
    进行统一的数据采集并上传,在绝缘端子异常、导线接头过热或失衡
    的情况下进行相关的信息报警;其中在监控泄漏电流的过程中,利用
    设备属性数据文件、绝缘端子泄漏电流数据文件和环境数据文件这3
    个数据文件进行检索,生成监控设备预定时间内的监控数据,并将3
    个数据文件进行连接处理以进行组合检索;
    在电力传输设备监控数据完成存储之后,对数据进行检索的方法
    是在map端执行的并行查询方法,在map阶段完成数据的过滤及连
    接过程而避免进行reduce阶段,检索包括以下步骤:
    1)根据用户提出的检索条件,对数据进行过滤,去除不满足条
    件的数据;
    2)根据检索需求,设定主键;所述主键为监控设备编号、时间
    数据或者相关系数;
    3)对各数据源的每条记录,采用数据文件名作为标签进行标记;
    4)根据主键将相同属性值的记录切分到一组,并进行数据连接;
    组合检索的map过程中的过滤、标记设定、分组排序、连接操作
    在本地节点进行,然后组合检索的结果输出到分布式文件系统;
    并且,所述对多个监控数据源进行并行检索和特征分析,进一步
    包括:
    基于多通道时间序列的动态相互关系,对多通道同步采集的信号
    数据进行整合特征提取,首先将数据上传至分布式文件系统,由分布
    式文件系统将数据分块,并随机分布到多个存储节点上,多通道时间
    序列的动态相互关系的计算在reduce阶段完成,计算结果输出到分
    布式文件系统中保存,利用数据的时间关联性,将采集时间数据作为
    关键字计算散列存储位置,所述特征提取过程进一步包括:
    1)计算任务时间,对数据进行过滤,去除不满足时间条件的数
    据;2)将时间数据作为主键,对每条记录进行标记;3)根据主键将
    相同属性值的记录切分到一组,并调用多变量样本熵计算过程,将计
    算结果输出到分布式文件系统。

    说明书

    电力传输设备监控数据处理方法

    技术领域

    本发明涉及电网数据处理,特别涉及一种电力传输设备监控数
    据处理方法。

    背景技术

    随着电网规模的快速增长、电网结构日趋复杂,电力企业纷纷
    加大电力传输设备监控的推广和应用力度,获取与传输的各类数据也
    在发生几何级的增长。这些数据不仅包括了设备异常时出现的各类信
    号、运行中的各类设备的状态信息,同时还包含了大量的相关数据,
    如地理信息、天气、现场温度与湿度以及检测视频、图像以及相关文
    档等,逐渐构成电力传输设备监控数据。大量的监控节点不断地向数
    据平台传递采集的数据,形成海量的异构数据流。数据平台不仅需要
    可靠地存储这些数据,而且需要及时地分析和处理这些数据。虽然现
    有技术基于云计算平台处理海量监控数据,但是与互联网领域的云计
    算应用相比,电力传输设备监控无论在数据存储、通信还是计算方面
    都存在很大差异。如何对上述数据进行高效、可靠地存储,并快速访
    问和分析,是当前急需解决的问题。

    发明内容

    为解决上述现有技术所存在的问题,本发明提出了一种电力传
    输设备监控数据处理方法,包括:

    根据监控数据的关联性和时间和空间属性进行多重备份的一致
    性散列存储,利用并行计算框架对多个监控数据源进行组合检索和并
    行检索和特征分析。

    优选地,所述根据监控数据的关联性和时间和空间属性进行多
    重备份的一致性散列存储,进一步包括:

    获取每个监控设备采集数据的时间和空间特性,即数据对应的
    采集时间和采集地点以及自定义相关系数作为数据检索和分析的关
    键字;在云平台中将数据存储为3个备份版本;利用一致性散列将
    数据的第1备份按照监控设备编号进行散列映射;将数据的第2备
    份按照采集时间数据进行散列映射;将数据的第3备份按照自定义
    相关系数进行散列映射,所述相关系数为监控数据的特定属性,其
    根据上层应用程序的需要来赋值;所述一致性散列存储进一步包括
    以下过程:

    1)通过配置文件预定义监控数据的所述相关系数以及冗余备份
    的数量;

    2)计算云平台中每个存储节点的散列值,并将其配置到预先建
    立的循环散列队列区间上;

    3)根据监控数据的时间和空间属性以及相关系数计算数据的散
    列值,对云平台下存在的数据多个备份的第1备份,根据数据的来源,
    即监控设备编号,计算第一散列值,将其映射到循环散列队列上;对
    第2备份,根据监控数据的时间属性即采集时间数据,计算第二散列
    值,并将其映射到循环散列队列上;对第3备份,根据数据的相关系
    数计算第三散列值,并将其映射到循环散列队列上;如果云平台配置
    有3个以上的备份,则交替按照上述第一至第三备份的方式计算其散
    列值并依次映射到循环散列队列上;

    4)根据数据散列值和存储节点散列值确定数据的存储位置,按
    顺时针将数据映射到距离其最近的存储节点上;

    5)若数据将存储的节点出现空间不足情况,则跳过当前节点以
    寻找下一个存储节点;

    此外,在进行数据读取时,名字节点根据存储节点与客户端之间
    的距离对多个存储节点进行排序后返回给客户端,以从最近的节点读
    取数据,其中,两个节点之间的距离定义为一个节点到达另一个节点
    所经过的节点数。

    优选地,所述对多个监控数据源进行组合检索,进一步包括:

    根据以下条件进行检索:设备属性数据,即名称、运行时间、安
    装地点、本体参数,监控数据即导线温度、载流量、拉力、环境数据
    即环境温度、湿度和气压、地理信息数据即海拔、经纬度;将不同的
    数据源进行数据连接,所述不同的数据源来自于多个文件;监控设备
    对绝缘端子泄漏电流、导线张力、导线电流、导线温度、微气象数据
    进行统一的数据采集并上传,在绝缘端子异常、导线接头过热或失衡
    的情况下进行相关的信息报警;其中在监控泄漏电流的过程中,利用
    设备属性数据文件、绝缘端子泄漏电流数据文件和环境数据文件这3
    个数据文件进行检索,生成监控设备预定时间内的监控数据,并将3
    个数据文件进行连接处理以进行组合检索;

    在电力传输设备监控数据完成存储之后,对数据进行检索的方法
    是在map端执行的并行查询方法,在map阶段完成数据的过滤及连
    接过程而避免进行reduce阶段,检索包括以下步骤:

    1)根据用户提出的检索条件,对数据进行过滤,去除不满足条
    件的数据;

    2)根据检索需求,设定主键;所述主键为监控设备编号、时间
    数据或者相关系数;

    3)对各数据源的每条记录,采用数据文件名作为标签进行标记;

    4)根据主键将相同属性值的记录切分到一组,并进行数据连接;

    组合检索的map过程中的过滤、标记设定、分组排序、连接操作
    在本地节点进行,然后组合检索的结果输出到分布式文件系统;

    并且,所述对多个监控数据源进行并行检索和特征分析,进一步
    包括:

    基于多通道时间序列的动态相互关系,对多通道同步采集的信号
    数据进行整合特征提取,首先将数据上传至分布式文件系统,由分布
    式文件系统将数据分块,并随机分布到多个存储节点上,多通道时间
    序列的动态相互关系的计算在reduce阶段完成,计算结果输出到分
    布式文件系统中保存,利用数据的时间关联性,将采集时间数据作为
    关键字计算散列存储位置,所述特征提取过程进一步包括:

    1)计算任务时间,对数据进行过滤,去除不满足时间条件的数
    据;2)将时间数据作为主键,对每条记录进行标记;3)根据主键将
    相同属性值的记录切分到一组,并调用多变量样本熵计算过程,将计
    算结果输出到分布式文件系统。

    本发明相比现有技术,具有以下优点:

    本发明提出了一种电力传输设备监控数据的处理方法,基于云
    计算技术对监控数据进行高效、可靠地存储,并且实现快速访问和分
    析。

    具体实施方式

    下文提供对本发明一个或者多个实施例的详细描述。结合这样的
    实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅
    由权利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下
    文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例
    的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节
    也可以根据权利要求书实现本发明。

    本发明基于云平台进行电力传输设备监控数据存储和并行分析
    处理的研究;考虑数据的关联性和时间和空间属性,提出数据关联性
    的多重备份一致性散列存储方法,并对云平台的数据切分策略以及云
    平台网络架构规划进行优化。在此基础上,基于并行框架实现监控数
    据的数据源并行检索和多通道数据整合特征提取并行计算。

    从电力传输设备监控数据平台的上层应用程序角度考虑,数据的
    分布主要受以下因素的影响:1)数据需要尽量均匀的分布到云平台
    中各节点,以保持负载均衡;2)云平台云平台中节点故障被视为一
    种常态,优化数据分布时需要考虑节点失效问题;3)为保证数据的
    可靠性及检索处理效率,需要采取多重备份方案;4)云平台运行环
    境下,网络传输及磁盘I/O操作是影响整体性能的重要因素,如果能
    减少数据的通信量,将会有效减少数据处理时间。以监控系统中常用
    的数据关联检索为例,在执行并行计算关联检索时,采用标准的云平
    台数据布局方案(未考虑数据关联性),连接操作需要在Reduce阶段
    完成。在Map阶段,所有数据在多个节点上进行分组排序,之后由
    reduce任务的节点通过远程访问的方式进行数据下载。在这个过程
    中,可能有大量与最后连接操作无关的数据也在网络中被复制和传
    输。如果在数据上传时根据数据的设备属性,将同一设备的数据尽量
    存储在相同节点上,则可以在map阶段完成连接操作,省去reduce
    阶段的数据通信,使整体执行效率得到提高。

    根据以上分析,对云平台的数据布局进行优化,利用以下数据存
    储方法:将相关的数据集中存储,在数据检索和分析时,将主要工作
    放在map端执行,以减少由映射到reduce中间过程网络通信负载,
    从而提高整体检索和分析性能。每一种类型监控数据可能具有不同的
    数据类型和格式,但它们的共同特点是均具有时间和空间特性,即每
    个监控设备采集数据均对应于一个具体的采集时间和一个具体的采
    集地点。这构成数据检索和分析时最常用的关键字。由于云平台默认
    将数据存为3个备份版本,方法考虑3方面的关联性:监控设备位置、
    数据采集时间和自定义关联性。利用一致性散列方法,将数据的第1
    备份版本按照监控设备编号进行散列映射;将数据的第2备份版本按
    照采集时间数据进行散列映射;将数据的第3备份版本按照自定义相
    关系数进行散列映射,以满足不同检索和数据分析需求。相关系数可
    作为监控数据的一个属性,根据上层应用程序的需要赋值,以实现自
    定义关联性。方法中需要构建循环散列队列。具体流程描述如下:

    1)监控数据的相关系数以及冗余备份数量通过配置文件预定义,
    这里冗余备份版本数量定义为3;

    2)计算云平台中每个存储节点的散列值,并将其配置到循环散
    列队列区间上;

    3)根据监控数据的时间和空间属性以及相关系数计算数据的散
    列值。在云平台下存在数据的多重备份。对第1备份版本,根据数据
    的来源,即监控设备编号,计算散列值1,将其映射到循环散列队列
    上;对第2备份版本,根据监控数据的时间属性,即采集时间数据,
    计算其散列值2,并将其映射到循环散列队列上。对第3备份版本,
    根据数据的相关系数计算其散列值3,并将其映射到循环散列队列上。
    如果需要更高的存储可靠性,配置了大于3的备份版本数量,则交替
    按照上述3种方式计算其散列值i,并依次映射到循环散列队列上;

    4)根据数据散列值和存储节点散列值确定数据的存储位置。按
    顺时针将数据映射到距离其最近的存储节点上;

    5)若数据将存储的节点出现空间不足等异常情况,则跳过该节
    点以寻找下一个存储节点。

    在进行数据读取时,名字节点会根据存储节点与客户端之间的距
    离对多个存储节点进行排序后返回给客户端,以便从最近的节点读取
    数据。云平台中网络节点呈树状结构,树中每棵子树的根节点通常是
    连接计算机的交换节点,两个节点之间的距离定义为一个节点到达另
    一个节点所经过的节点数。

    云平台的默认配置认为所有的节点均在一个机架中,因此需要根
    据实际云平台的配置情况,将云平台节点的网络架构传递给云平台,
    才能使云平台调度器选择合理的存储节点进行数据读取和写入。网络
    架构结构可采用脚本代码的形式传递给云平台。

    电力传输设备监控需要对在线监控的多种设备以及线路参数根
    据监控设备编号、采集时间等条件进行组合检索。组合检索涉及设备
    属性数据(名称、运行时间、安装地点等)、本体参数,监控数据(导线
    温度、载流量、拉力等)、环境数据(环境温湿度、气压等)、地理信息
    数据(海拔、经纬度等)等数据源,这需要将不同的数据源进行数据连
    接。多源数据通常来自于不同的文件。监控设备对绝缘端子泄漏电流、
    导线张力、导线电流、导线温度、微气象等数据进行统一的数据采集
    并上传。在绝缘端子异常、导线接头过热或失衡的情况下能进行相关
    的信息报警。以泄漏电流检索为例,检索涉及3个数据文件:设备属
    性数据文件;绝缘端子泄漏电流数据文件;环境数据文件。检索需要
    生成监控设备一段时间内的监控数据,即获得带有设备信息和环境信
    息的监控数据列表,这需要将3个数据文件进行连接处理,才能获得
    满足要求的列表。

    在电力传输设备监控数据的完成存储之后,对数据进行检索的方
    法是在map端执行的并行查询方法,方法主要包括在map阶段完成
    数据的过滤及连接过程,避免进行reduce阶段,从而节省网络传输
    开销。方法执行的前提是数据已经按照前文所描述的基于数据关联性
    的多重备份一致性散列方法进行了数据分布,从而使连接时所需要的
    数据聚集到了同一个存储节点。检索流程可描述如下:

    1)根据用户提出的检索条件,对数据进行过滤,去除不满足条
    件的数据;

    2)根据检索需求,设定主键;主键可以是监控设备编号、时间
    数据或者相关系数;

    3)对各数据源的每条记录进行标记,可采用数据文件名作为标
    签进行标记;

    4)根据主键将相同属性值的记录切分到一组,并进行数据连接。

    数据在优化分布后,组合检索的map过程中的过滤、标记设定、
    分组排序、连接等操作在本地节点进行,组合检索的结果输出到分布
    式文件系统。

    随着多传感测量技术广泛应用于各种电力设备监控,同步监控的
    多通道数据序列被采集并保存。这些同步的多通道数据序列内或序列
    间动态相互关系蕴含着丰富的特征信息,能更全面地反映电力设备运
    行状态。本发明基于多通道时间序列的动态相互关系,对6通道同步
    采集的振动监控设备的振动信号数据进行整合特征提取。在云平台
    下,基于一致性散列方法设计并行化的特征提取方法,加快特征提取
    速度。

    同步采集的6通道振动监控信号独立存储于6个文件中,信号分
    段存储,每段信号带有时间数据。为完成对信号的并行分析,首先将
    数据上传至分布式文件系统。分布式文件系统将数据分块,并随机分
    布到多个存储节点上。由于未考虑数据关联性,并行化的数据关系评
    价方法只能采用在map端对数据进行数据过滤,并将各段信号通过
    网络发送给reduce端进行求解的计算模式。每个通道文件被切分成
    多个分段,分布存储于多个存储节点上。多通道时间序列的动态相互
    关系的计算在reduce阶段完成,计算结果输出到分布式文件系统中
    保存。应用上文所述的数据优化分布方法对同步采集的多通道数据进
    行重新分布,利用数据的时间关联性,将采集时间数据作为关键字计
    算散列存储位置。

    优化分布使同步数据聚集,并在map任务中完成计算任务。

    基于一致性散列算法的特征提取流程可描述如下:

    1)计算任务时间,对数据进行过滤,去除不满足时间条件的数
    据;

    2)将时间数据作为主键,对每条记录进行标记;

    3)根据主键将相同属性值的记录切分到一组,并调用多变量样
    本熵的计算过程。计算结果输出到分布式文件系统。

    其中多变量样本熵计算流程可描述如下:

    1)设原始p维(通道)时间序列为{xk,i}i=1N,k=1,2,....,p,其
    中每维序列有N个点。首先对预先给定的尺度因数β,构建多变量时
    间序列{yk,jβ},即 y k , j β = 1 β Σ i = ( j - 1 ) β + 1 j β x k , i , k = 1 , 2 , ... , p , ]]>其中 1 < j < N β . ]]>

    2)预设p维参数嵌入矢量M[m1,m2,,mp],p维时间延迟向量

    [T1,T2,...,Tp],利用多变量时间序列{yk,jβ},构建(N-n)个
    复合延迟向量Ym(i),即:

    3)定义Ym(i)和Ym(j)之间的距离为d[Ym(i),Ym(j)],即:d[Ym(i),
    Ym(j)]=maxl=1,…,m{|x(i+l-1)-x(j+l+1|)}

    4)对于给定的阈值r,对每个i值计算事件Pi:d[Ym(i),Ym(j)]<r(j
    ≠i)出现的概率Bim(r)=Pi/(N-n-1),表示了所有Ym(j)与Ym(i)的关联程
    度。

    5)求Bim(r)对所有i的平均值,即:

    6)扩展步骤2)中的m为m+1,重复步骤3)-5)得到Bm+1(r)。

    7)计算多变量样本熵为 M S E ( M , T , r , N ) = - l n ( B m + 1 ( r ) B m ( r ) ) . ]]>

    优选的,本发明的云平台对小文件提出一种合并策略,一定数量
    的小文件合并后生成新的存储文件,一般对属于同一属性的小文件进
    行合并。在将新的存储文件写入系统的同时更新索引文件。云平台中
    的索引包括,主索引是文件所属的资源集合,如类型等;次索引是具
    体的资源条目。在需要读取文件时,依次在主索引和次索引中査询,
    缩小了查询范围,能够保证较高的读取响应。本发明的云平台的存储
    层设计的核心包括:首先对小文件进行合并生成存储文件,再基于数
    据库的存储特征对合并后的文件建立次索引,通过索引预取提高文件
    读取的响应速度。以下详细介绍存储层具体的细节。

    将文件划分成一个个block即块,块的默认大小是64M。分布式
    文件系统的命名空间被持久化在一个镜像文件中,启动时由名字节点
    将其加载到内存中。大量小文件会造成名字节点内存不足,生成过大
    的镜像文件降低读取文件时文件的查找效率。对每一个文件的读写操
    作,首先在命名空间中查询,查找文件的块地址、文件大小等信息,
    然后再在数据节点空间中进行检索。当读取的文件很小时,读写过程
    中主要时间都消耗在了检索查询中,而不是文件数据的传输,影响服
    务器集群的处理效率。

    云平台利用小文件合并来生成存储文件。首先实现一个过滤器对
    文件按类型和大小进行过滤,选择可以进行全文检索的文档文件,本
    文文件大小设定阈值为10M,当文件大于10M时则视为大文件,不
    需要进行合并。过滤后云平台按照文件条目所属资源集合为单位对过
    滤后的小文件进行合并成为文件块。资源集合是具有一定相关性的资
    源条目的集合,一个资源条目只属于一个资源集合。通常集合按照属
    性范围、时间等划分,文件可以按照属性域来划分。新的文件块内资
    源条目具有很大的关联性,在以后的数据处理中就可以将文件块分配
    给一个MapReduce任务,避免了因任务的计算量太少而浪费任务分
    配和切换的时间,减少数据在集群中的移动。

    小文件合并后名字节点内存是整个文件系统的性能瓶颈,因为所
    有的文件元数据信息需要存储在其内存中,将小文件合并后可以减少
    文件的数量,节省很多内存空间,但是合并后的文件读取效率会很低。
    本发明优选的实施例采用分级索引来建立小文件元数据索引,将大的
    索引文件以合理的规则划分为小的索引文件。以资源集合为主索引,
    每个资源集合下的资源条目内容作为次索引,这样在查找的时候先根
    据资源条目所在集合进行査找,再到相应的次索引文件中进行查找。
    虽然多了一个在主索引中查找的过程,但是由于资源集合数不会太
    多,其查找时间是很小的,经过划分的次索引文件比全局索引文件小
    的多,所以整体上会提高查找效率。同时次索引文件也并非全部加载
    入内存,可根据内存使用情况并结合缓存策略进行灵活调度,解决内
    存不足的问题。

    这里提出的索引预取是指通过用户当前访问的数据预测用户下
    面将会访问的数据,并将其索引调入缓存。若能准确预测,就可提前
    将用户将要访问的数据载入缓存,当用户访问时就能得到较快的系统
    响应。

    用户在下载或浏览资源条目前,通常必须通过检索或目录查找的
    方式得到“中间结果集”,然后才能在其中选择需要的资源条目进一
    步访问。在用户看到结果集页面与执行下载或浏览之间存在一个数秒
    的间隔,在这段时间内通过提前缓存中间结果集中资源条目的索引,
    在用户点击下载或浏览时就不用再执行一系列文件元数据查询,直接
    进行传输文件即可,这样可以很大程度上提高这些文件的请求响应。
    这种响应提升并不需要太多的内存。

    以下详细描述了本发明云平台的存储层构架。云平台除了利用上
    述策略,在实现时,其存储层架构是系统的基础。云平台存储层构建
    在Hadoop集群上的分布式存储系统上,提供基本的文件保存和读取
    服务。

    云平台存储层的架构采用三层结构设计:用户接口层,业务逻辑
    层和存储层,而且为了提高性能,采用将Web服务器和服务器集群
    分离的方式。用户接口层即提供的用户界面,用户通过该层提供的功
    能发送请求和接收反馈信息。业务逻辑层是小文件读取和写入的功能
    实现层,包括文件合并、索引构建和缓存构建等。

    业务逻辑层包括文件合并、检索系统、小文件索引、缓存和分布
    式系统客户端等功能模块。各模块具体实现如下:

    (1)文件合并:文件合并功能包含2个阶段:创建SequenceFile
    对象进行小文件进行合并。通过过滤器的过滤,对符合合并要求的文
    件进行合并,首先根据资源条目所在的资源集合在主索引中查找,查
    找到资源集合对应的文件路径后,创建SequenceFile对象,并获得
    SequenceFile的Writer对象并对其进行配置,准备写入文件。在执行
    文件写入的同时开启一个新的线程,将该资源条目对应的文件位值、
    长度等元数据信息写入资源条目次索引。资源条目写入成功后关闭输
    出流,返回提交成功,否则返回提交失败。

    (2)检索:提供文件检索功能,依靠该模块基于“中间结果集”
    对分布式文件系统进行读取优化。

    (3)小文件索引:构建小文件索引,包括资源集合主索引和资
    源条目次索引,提供索引文件创建、追加和删除记录等功能。

    主索引数据存储在关系数据库中,通过关系数据库访问接口提供
    访问,使用Java中的Map数据结构保存。因为资源集合已经存入数
    据库,根据此索引只需要增加在资源条目添加的时候由系统生成值的
    字段,所以可以保存在关系数据库中,不影响处理效率。主索引中的
    数据采用Key/Value结构,可以使用Java中Map数据结构提高査询
    效率。另外,为保证检索效率,必须在服务启动的时候根据数据库中
    内容初始化该Map对象并一直存在,由于主索引文件数不多,Map
    对象占用内存很小,所以系统开销有限,当有新的资源集合加入或有
    的被删除的时候,需对该Map对象进行更新。

    次索引是通过开源项目Lucene创建的,支持小文件元数据检索。
    Lucene有一套完善的索引构建、更新和查找解决方案,而且在索引
    文件小于1G时查询效率非常高,可用于构建商用搜索引擎。云平台
    要创建的索引需要一些特殊的功能,如每当用户添加资源条目的时候
    需实时更新索引文件;多个用户在一个资源集合下同时添加资源条目
    时,文件写入的并发控制;压缩索引文件以减少内存占用等。

    (4)预取:为了更好地提升响应速度,这里提供对用户感兴趣的“中
    间结果集”的缓存管理,包括缓存空间维护,缓存更新,更新算法维
    护等功能。

    在用户发出检索请求后,Web服务根据用户检索条件査询符合用
    户需要的资源条目结果集,返回给用户,同时创建异步线程更新缓存,
    在返回用户结果集到用户浏览结果集并确定点击下载或浏览操作之
    间的时间间隔内更新缓存内容。当缓存模块接收到更新缓存内容请求
    时,调用索引模块进行检索,将当前结果集条目的元数据载入缓存。
    当用户发送下载或浏览请求时,Web服务调用分布式系统客户端在缓
    存中查找元数据开始读取数据并向客户端传输。

    系统维护一个固定线程数量的线程池在每次接收到更新缓存请
    求的时候调用一个线程去处理,若线程池内没有空闲线程则让该缓存
    任务等待。这样可以将缓存更新任务占的系统资源维持在一个合理的
    范围内,不影响系统整体性能。本发明选择FIFO算法实现缓存模块
    调度功能,以最高效的方式淘汰最久以前的缓存条目。具体实现是:
    建立缓存池,配置缓存池大小,默认为32M,可以保存20万条文件
    元数据信息。缓存池里面存储的是一个个键值对key/value,文件名作
    为key,文件的数据节点ID,起始位置和长度的组合作为value。该
    缓存池提供两个操作put和get。put往缓存池放入数据,如果缓存池
    里面已有的数据达到了上限,则根据缓存替换算法替换相应的数据,
    如果还有空间直接放入就行。Get操作根据key值获取相应的value
    值,如没有则返回空。

    分布式系统客户端封装了操作文件系统与外界交互的API,包括
    读写文件和查询文件位置等。当文件系统接收到文件读取请求时,首
    先经过文件过滤器进行判断,属于被合并了的文件则首先在缓存中查
    找文件的元数据信息,若不存在,则在索引文件中进行查找,若还是
    查找不到则与名字节点通信。査找到文件元数据后构建SequenceFile
    对象然后获得SequenceFile的Reader对象向数据节点发送读取请求,
    将数据传输给用户后关闭输入流,返回完成。

    用户有两种请求方式,一种是提交文件的写入请求,一种是查询、
    浏览或获取资源的读取请求。当Web服务器接收到用户提交资源请
    求时,首先判断是否需要做小文件合并,若需要,则进行文件合并,
    不需要则直接使用分布式文件系统写入接口进行写入即可。文件合并
    后通过分布式文件系统客户端准备将文件写入分布式文件系统,在分
    布式系统客户端写入文件的同时,调用小文件索引更新模块执行小文
    件索引及更新,因为Web服务器主机和服务器集群是分离的,写入
    和更新可以通过不同的线程同时执行,彼此没有影响。当分布式文件
    系统写入成功后Web服务向客户端返回提交成功信息。

    在用户需要浏览文件详细内容或下载文件时发送文件读取请求,
    该请求频次高,耗费系统资源最多。当Web服务器接收到用户的读
    取请求时,首先通过检索系统根据用户提交的条件进行检索,得到用
    户需要的资源条目结果集返回给用户浏览,同时将结果集中显示在用
    户界面中第一页的条目集合(默认20条)发送给缓存模块,并开启一
    个单独的线程更新缓存,当用户浏览完返回的结果集页面请求下载或
    浏览详细时,Web服务调用分布式文件系统客户端准备读取文件内
    容,分布式文件系统客户端首先在缓存中查找文件位置信息,若没有
    查找到则再到小文件索引中查找,查找到位置信息后则直接到数据节
    点读取数据,返回给用户。

    应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明
    或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本
    发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均
    应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵
    盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内
    的全部变化和修改例。

    关 键  词:
    电力 传输 设备 监控 数据处理 方法
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:电力传输设备监控数据处理方法.pdf
    链接地址:https://www.zhuanlichaxun.net/p-6266943.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1