《一种测点数据的补缺系统及补缺方法.pdf》由会员分享,可在线阅读,更多相关《一种测点数据的补缺系统及补缺方法.pdf(12页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103440283 A(43)申请公布日 2013.12.11CN103440283A*CN103440283A*(21)申请号 201310351761.7(22)申请日 2013.08.13G06F 17/30(2006.01)(71)申请人江苏华大天益电力科技有限公司地址 212000 江苏省镇江市句容经济开发区石狮路富达创业园02幢315室(72)发明人吴克河 朱亚运 党芳芳(74)专利代理机构南京苏高专利商标事务所(普通合伙) 32204代理人王云(54) 发明名称一种测点数据的补缺系统及补缺方法(57) 摘要本发明公开了一种测点数据的补缺系统及补缺方法,包。
2、括业务指标数据探测系统以及与业务指标数据探测模块相连接的数据填充系统,所述业务指标数据探测系统包括源业务指标数据库模块、与源业务指标数据库模块相连的数据访问模块、连接于数据访问模块的业务逻辑模块、连接于业务逻辑模块的数据显示模块;所述数据填充系统中设有线性回归填充系统、均值填充系统和人工填充系统。本发明大大提高业务数据的正确性,提高计算统计数据群的精度,使统计分析结果更为可靠,为企业投资评价、效益分析等工作提供更为有利的数据支持。(51)Int.Cl.权利要求书2页 说明书6页 附图3页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书2页 说明书6页 附图3页(10)申请公布。
3、号 CN 103440283 ACN 103440283 A1/2页21.一种测点数据的补缺系统,其特征在于:包括业务指标数据探测系统以及与业务指标数据探测模块相连接的数据填充系统,所述业务指标数据探测系统包括源业务指标数据库模块、与源业务指标数据库模块相连的数据访问模块、连接于数据访问模块的业务逻辑模块、连接于业务逻辑模块的数据显示模块;所述数据填充系统中设有线性回归填充系统、均值填充系统和人工填充系统。2.根据权利要求1所述的测点数据的补缺系统,其特征在于:所述源业务指标数据库模块为设于综合数据系统中的负责存储业务指标定义表和通过实时数据采集平台收集以及人工报送的周期性的源业务指标数据模块。
4、;所述数据访问模块为用于查找和记录缺失数据的模块。3.根据权利要求1所述的测点数据的补缺系统,其特征在于:所述均值填充系统包括横向均值填充系统和纵向均值填充系统。4.基于权利要求1至3任一项所述的测点数据的补缺系统的补缺方法,其特征在于包括以下步骤:(1)使用数据访问模块遍历综合数据系统,查找并记录存在的业务指标数据的缺失项,根据缺失项查找业务指标定义表,确定各指标间的横向关联范围;(2)在数据显示模块中显示数据访问模块所记录的缺失项,并提供针对缺失项的三种数据填充系统的接口;(3)用户根据需求,从线性回归填充系统、均值填充系统和人工填充系统中选择一种系统对业务指标数据的缺失项进行填充处理,业。
5、务逻辑模块接收到用户的指令,开始执行相对应的填充算法,并将计算出的缺失项填充值返回给数据显示模块;其中,所述业务逻辑模块执行包括以下四种的填充算法:a)线性回归填充算法:该算法通过历史数据或横向指标数据对指标数据缺失值进行预测,需通过最小二乘法建立以下线性回归模型来计算填充值:式中,k为自变量的个数,即用来进行填充值估算的样本数据群的容量,Y为所求的填充值,Xi为样本数据群中每一个样本的数值,e为随机参数;相关系数a和bi可采用如下公式进行估算:b)横向均值填充算法:将在业务指标数据探测系统查找到的数据的缺失项标识为INDEX_ID,使用INDEX_ID访问指标分类表,取得其父分类指标的标识记。
6、为PARENTID,通过数据访问模块取得所有父指标ID为PARENTID的指标,并按照以下公式进行计算:权 利 要 求 书CN 103440283 A2/2页3式中,vi为各父指标的数值,n为所有父指标的个数,v即为数据缺失项的横向均值填充值;c)纵向均值填充算法:该算法采取的统计时间为12个月,将在业务指标数据探测系统查找到的数据的缺失项标识为INDEX_ID,再取得缺失项所在记录的时间,记为DATATIME,使用该标识再次访问指标数据表,取DATATIME所标识时间点的前12个月的指标数据记录,然后则按照以下公式进行计算:式中,v即为数据缺失项的纵向均值填充值;d)人工填充算法:由用户在数。
7、据显示模块的填充界面上对数据缺失项进行添加;(4)此时数据显示模块中出现是否保存该填充值的选项,若用户选择保存,则该填充值通过业务逻辑模块和数据访问模块保存至源业务指标数据库模块中。权 利 要 求 书CN 103440283 A1/6页4一种测点数据的补缺系统及补缺方法技术领域0001 本发明涉及一种电网企业数据完整性的维护方法,具体涉及一种对缺失的测点数据的补缺系统及补缺方法。背景技术0002 在现代化企业发展和宏观经济的影响下,电网企业作为主营电网业务的运营商和区域电力市场交易的主体,对企业管理和经营数据及时有效统计的需求越来越高。我国电网企业的业务数据报送手段多数还采用人工方式,这种方式。
8、很容易受到人员素质和部门管理方式的影响,使得数据在创建过程中就可能出现不完整的质量问题,给后期的数据使用、数据传输和数据维护等阶段带来巨大的质量隐患。有的电网公司引入了专业的采集软件系统进行数据采集,但这些系统只松散地完成某些采集功能,人工作业还是占了相当一部分比例。随着电力企业的不断发展,资产积累、部门增加以及专业分工细化等因素,企业内部的业务数据分类越来越多,导致数据缺失情况严重,进而导致计算统计量的精度降低,计算结果不准确,甚至导致某些后续计算过程不能完成,影响企业的统计分析工作。0003 目前,国内的电网企业业务数据收集普遍采用相关的数据采集平台与人工报送相结合的方式进行,在采集过程中。
9、,由于人工操作失误、部门未及时上报相关业务数据等因素,常常会导致指标数据出现缺失。由于电网企业的大部分业务数据之间具有很强的依赖关系,历史数据和某些平行业务数据之间的可追溯性也比较强,且呈正态分布的样本数据比例比较高,同时,电网行业对数据的精度要求较高,在缺失度比较大的情况下,统计数据群的精度会严重受损。此时可采用删除元组的方式对缺失数据进行处理,然后重新通过平台采集或要求相关人员重新报送,然而在缺失度不高的情况下,如果直接删除,将对数据造成极大的浪费,同时也会增加工作复杂度。因此,在这种情况下应采用填充的方法来提高统计数据群的精度,但是某些关键数据却非常孤立,用一般的计算方法很难给出有价值的。
10、填充值。发明内容0004 发明目的:为了克服现有技术中存在的不足,本发明提供一种测点数据的补缺系统及补缺方法。0005 技术方案:为解决上述技术问题,本发明的一种测点数据的补缺系统,包括业务指标数据探测系统以及与业务指标数据探测模块相连接的数据填充系统,所述业务指标数据探测系统包括源业务指标数据库模块、与源业务指标数据库模块相连的数据访问模块、连接于数据访问模块的业务逻辑模块、连接于业务逻辑模块的数据显示模块;所述数据填充系统中设有线性回归填充系统、均值填充系统和人工填充系统。0006 优选的,所述源业务指标数据库模块为设于综合数据系统中的负责存储业务指标定义表和通过实时数据采集平台收集以及人。
11、工报送的周期性的源业务指标数据模块;所述数据访问模块为用于查找和记录缺失数据的模块。说 明 书CN 103440283 A2/6页50007 作为优选,所述均值填充系统包括横向均值填充系统和纵向均值填充系统。0008 本发明还公开了一种测点数据的补缺系统的补缺方法,包括以下步骤:0009 (1)使用数据访问模块遍历综合数据系统,查找并记录存在的业务指标数据的缺失项,根据缺失项查找业务指标定义表,确定各指标间的横向关联范围;0010 (2)在数据显示模块中显示数据访问模块所记录的缺失项,并提供针对缺失项的三种数据填充系统的接口;0011 (3)用户根据需求,从线性回归填充系统、均值填充系统和人工。
12、填充系统中选择一种系统对业务指标数据的缺失项进行填充处理,业务逻辑模块接收到用户的指令,开始执行相对应的填充算法,并将计算出的缺失项填充值返回给数据显示模块;其中,所述业务逻辑模块执行包括以下四种的填充算法:0012 a)线性回归填充算法:该算法通过历史数据或横向指标数据对指标数据缺失值进行预测,需通过最小二乘法建立以下线性回归模型来计算填充值:0013 0014 式中,k为自变量的个数,即用来进行填充值估算的样本数据群的容量,Y为所求的填充值,Xi为样本数据群中每一个样本的数值,e为随机参数;0015 相关系数a和bi可采用如下公式进行估算:0016 0017 b)横向均值填充算法:将在业务。
13、指标数据探测系统查找到的数据的缺失项标识为INDEX_ID,使用INDEX_ID访问指标分类表,取得其父分类指标的标识记为PARENTID,通过数据访问模块取得所有父指标ID为PARENTID的指标,并按照以下公式进行计算:0018 0019 式中,vi为各父指标的数值,n为所有父指标的个数,v即为数据缺失项的横向均值填充值;0020 其中,该算法的适用对象为在横向指标之间具有较大关联性的指标,横向指标指的是具有同一父指标的所有指标;0021 c)纵向均值填充算法:该算法的适用对象为在指标纵向历史数据之间具有较大相似性的指标,纵向数据是指同一指标在连续递增的时间内的历史数据,该算法采取的统计时。
14、间为12个月,将在业务指标数据探测系统查找到的数据的缺失项标识为INDEX_ID,再取得缺失项所在记录的时间,记为DATATIME,使用该标识再次访问指标数据表,取DATATIME所标识时间点的前12个月的指标数据记录,然后则按照以下公式进行计算:说 明 书CN 103440283 A3/6页60022 0023 式中,v即为数据缺失项的纵向均值填充值;0024 d)人工填充算法:由用户在数据显示模块的填充界面上对数据缺失项进行添加;0025 (4)此时数据显示模块中出现是否保存该填充值的选项,若用户选择保存,则该填充值通过业务逻辑模块和数据访问模块保存至源业务指标数据库模块中。0026 有益。
15、效果:本发明的一种测点数据的补缺系统及补缺方法,大大的提高电网企业业务数据的正确性,提高计算统计数据群的精度,使统计分析结果更为可靠,为企业投资评价、效益分析等工作提供更为有利的数据支持。本发明还可应用于医疗、农业等诸多领域,例如,在医疗领域,可以利用本方案涉及到的缺失数据填充方法来估算某些缺失的医疗数据,提高统计分析工作的精度,为后续的医疗服务工作的评估和提升提供完备的数据基础;在农业现代化领域,可通过本发明涉及到填充方法来估算某些农作物产量的缺失值,使农作物产量的统计分析工作更加准确,帮助制定下一步的农业生产计划。因此,本发明具有很高的市场推广价值。附图说明0027 图1为本发明的整体流程。
16、图;0028 图2为图1中选择线性回归填充系统后的流程图;0029 图3为图1中选择均值填充系统后的流程图;0030 图4为图1中选择人工填充系统后的流程图。具体实施方式0031 为方便理解本发明,现做如下解释说明:本发明涉及到的数据表包括指标定义表(DA_INDEXDEF)、指标分类表(DA_INDEXSORT)、指标数据表(DA_INDEXDATA)。其中,指标定义表用来存储指标的基本定义,包括指标数据单位、采集周期、指标编码、所属部门等;指标分类表存储分类后的指标在该分类下的信息,包括指标分类编码、父分类编码等;指标数据表则存储由数据采集平台采集和人工报送的指标数据,也是我们执行填充算法。
17、的数据来源。0032 本发明的一种测点数据的补缺系统,包括业务指标数据探测系统以及与业务指标数据探测模块相连接的数据填充系统,所述业务指标数据探测系统包括源业务指标数据库模块、与源业务指标数据库模块相连的数据访问模块、连接于数据访问模块的业务逻辑模块、连接于业务逻辑模块的数据显示模块;所述数据填充系统中设有线性回归填充系统、均值填充系统和人工填充系统。0033 优选的,所述源业务指标数据库模块为设于综合数据系统中的负责存储业务指标定义表和通过实时数据采集平台收集以及人工报送的周期性的源业务指标数据模块;所述数据访问模块为用于查找和记录缺失数据的模块。0034 作为优选,所述均值填充系统包括横向。
18、均值填充系统和纵向均值填充系统。0035 本发明还公开了一种测点数据的补缺系统的补缺方法,包括以下步骤:0036 (1)使用数据访问模块遍历综合数据系统,查找并记录存在的业务指标数据的缺说 明 书CN 103440283 A4/6页7失项,根据缺失项查找业务指标定义表,确定各指标间的横向关联范围;0037 (2)在数据显示模块中显示数据访问模块所记录的缺失项,并提供针对缺失项的三种数据填充系统的接口;0038 (3)用户根据需求,从线性回归填充系统、均值填充系统和人工填充系统中选择一种系统对业务指标数据的缺失项进行填充处理,业务逻辑模块接收到用户的指令,开始执行相对应的填充算法,并将计算出的缺。
19、失项填充值返回给数据显示模块;其中,所述业务逻辑模块执行包括以下四种的填充算法:0039 a)线性回归填充算法:该算法通过历史数据或横向指标数据对指标数据缺失值进行预测,需通过最小二乘法建立以下线性回归模型来计算填充值:0040 0041 式中,k为自变量的个数,即用来进行填充值估算的样本数据群的容量,Y为所求的填充值,Xi为样本数据群中每一个样本的数值,e为随机参数;0042 相关系数a和bi可采用如下公式进行估算:0043 0044 其中,随机参数e可防止样本扭曲分布,防止得到相同的估计值,构造随机成分e的方法有很多种,最典型的有三种:1)残差(Residuals)估计调整;2)正态变异估。
20、计调整;3)Student t变异;可根据不同指标的特性来选择不同的方式,当然,也可以通过人工经验值来确定e。0045 b)横向均值填充算法:将在业务指标数据探测系统查找到的数据的缺失项标识为INDEX_ID,使用INDEX_ID访问指标分类表,取得其父分类指标的标识记为PARENTID,通过数据访问模块取得所有父指标ID为PARENTID的指标,并按照以下公式进行计算:0046 0047 式中,vi为各父指标的数值,n为所有父指标的个数,v即为数据缺失项的横向均值填充值;0048 c)纵向均值填充算法:该算法采取的统计时间为12个月,将在业务指标数据探测系统查找到的数据的缺失项标识为INDE。
21、X_ID,再取得缺失项所在记录的时间,记为DATATIME,使用该标识再次访问指标数据表,取DATATIME所标识时间点的前12个月的指标数据记录,然后则按照以下公式进行计算:0049 说 明 书CN 103440283 A5/6页80050 式中,v即为数据缺失项的纵向均值填充值;0051 d)人工填充算法:由用户在数据显示模块的填充界面上对数据缺失项进行添加;0052 (4)此时数据显示模块中出现是否保存该填充值的选项,若用户选择保存,则该填充值通过业务逻辑模块和数据访问模块保存至源业务指标数据库模块中。0053 下面结合附图对本发明作更进一步的说明。0054 如图1所示,0055 步骤1。
22、01,开始进行数据缺失项探测操作;0056 步骤102,遍历底层数据库,确定存在缺失数据项的指标,数据访问模块遍历存储业务指标数据的指标数据表,记录下含有数据缺失项的业务指标唯一标识INDEX_ID;0057 步骤103,将存在缺失数据项的指标在数据显示模块中显示出来;用JSON数组的方式将数据传往前台进行展示,方便用户进行填充,在组装JSON的过程中,每条指标被视为一个对象,每个对象中都存在一个标识字段,若该条指标存在数据缺失项,则标识出该缺失项的位置,使用户直观的看到哪些指标存在缺失项以及缺失数据产生的位置,方便填充;0058 步骤104,用户根据其具体需求,选择合适的填充方法进行填充;0。
23、059 步骤105,判断用户是否选择系统推荐使用的缺失数据项填充算法;0060 步骤106,用户不使用系统推荐的填充算法,由用户自己选择填充算法;0061 步骤107,用户使用系统推荐的缺失项填充算法,根据该算法计算出缺失项填充值,并判断是否保存该填充值;0062 步骤108,用户不保存该填充值。0063 步骤109,保存该填充值到源业务指标数据库模块;0064 步骤110,方案执行结束。0065 以上描述了从后台发现数据缺失项到选择缺失项填充方案的基本步骤。数据填充方案的实现与探测过程是相辅相成相互渗透的,不同的指标数据具有不同的特性,因此,应根据指标数据本身的特性选择合适的填充方案。如:指。
24、标“利润总额”的数据随着月份的增长呈递增关系,比较容易建立线性回归模型,因此采用“线性回归填充法”;对于“xx公司购电价”指标,其与平行公司购电价的关联度比较大,因此采用横向的均值填充法。而对于某项设备的参数设置,则对准确度要求比较高,在这种情况下比较适合采用人工经验值填充。因此,在底层数据库中,要对每条指标加以判断,确定最适合它的缺失项填充方式。0066 本实施例中,在指标定义表中定义字段“fill”,字段类型为整型,其中:“1”表示推荐采用“横向均值填充法”、“2”表示推荐采用“纵向均值填充法”、“3”表示推荐采用“线性回归填充法”、“4”表示推荐采用“人工经验值”填充法。虽然已经定义了每。
25、条指标最合适的填充方式,但考虑到填充数据可能出现的偏差以及用户统计分析的现实需要,数据显示模块的界面上除了为用户推荐最合适的填充算法外,也允许用户选择其他的填充算法。用户选择所要填充的指标数据后,根据自身需要选择填充算法,如设横向均值填充法的标识为“1”,纵向均值填充法的标识为“2”,线性回归填充法的标识为“3”,人工经验值填充法的标识为“4”,业务逻辑模块根据数据显示模块传递的算法标识,来执行相应的算法,并将执行结果返回给数据显示模块,用户点击“确定”按钮后,填充值通过业务逻辑模块和数据访问模块保存到源业务指标数据库模块中;填充完毕后,即可执行随后的统计分析运算。下面说 明 书CN 1034。
26、40283 A6/6页9描述各个填充算法的执行过程:0067 如图2所示,0068 步骤201,用户选择了线性回归填充法对缺失数据项进行填充,开始执行方案;0069 步骤202,访问数据库,查找与数据缺失项相关的线性回归方程式;0070 步骤203,判断是否存在这样的线性回归方程式;0071 步骤204,不存在这样的方程式,则根据指标之间的线性约束关系,归纳出线性回归方程式并存入底层数据库中,然后执行步骤202;0072 步骤205,存在这样的方程式,取出该方程式和已知参数,供后续计算使用;0073 步骤206,根据该线性回归方程式,计算出数据缺失项的填充值;0074 步骤207,用户选择是否。
27、保存该填充值;0075 步骤208,保存该填充值到源业务指标数据库模块;0076 步骤209,用户不保存该填充值;0077 步骤210,方案执行结束。0078 如图3所示,0079 步骤301,用户选择了均值填充法对缺失数据项进行填充,开始执行方案;0080 步骤302,选择均值填充类型;0081 步骤303,用户选择横向均值填充法,取所有同类别指标的该数据项,计算其均值作为数据缺失项的填充值;0082 步骤304,用户选择是否保存该填充值;0083 步骤305,保存该填充值到源业务指标数据库模块;0084 步骤306,用户不保存该填充值;0085 步骤307,用户选择纵向均值填充法,取该指标。
28、数据项连续十二个月的数据,计算其均值作为数据缺失项的填充值;0086 步骤308,用户选择是否保存该填充值;0087 步骤309,保存该填充值到源业务指标数据库模块;0088 步骤310,用户不保存该填充值;0089 步骤311,结束。0090 如图4所示,0091 步骤401,用户选择了人工填充法对缺失数据项进行填充,开始执行方案;0092 步骤402,在指定界面对缺失数据项进行人工填充;0093 步骤403,用户选择是否保存该填充值;0094 步骤404,保存该填充值到源业务指标数据库模块;0095 步骤405,用户不保存该填充值;0096 步骤406,结束。0097 以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。说 明 书CN 103440283 A1/3页10图1说 明 书 附 图CN 103440283 A10。