使指标得到简化的输电杆塔塔材实际强度计算方法本申请是申请号201410424393.9、申请日2014.8.26、名称“一种基于数据挖掘的输电杆
塔塔材实际强度计算方法”的分案申请。
技术领域
本发明涉及输电铁塔结构安全评价领域,特别适用于在复杂自然环境下长期运行的输电
杆塔结构安全评价。
背景技术
线路结构安全的本质是一个不确定性、非线性的状态空间演化过程,状态的演化(转移)
过程具有随机性,其中表征杆塔塔材实际机械强度的特征信息具有不精确性,影响因素的作
用效度也不清晰,运行状态的定义及外延具有模糊性,状态评判的专家知识具有不完备性,
所以对线路塔材强度的评价与计算是一个复杂的不确定性问题。
数据挖掘可以从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非
平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统
计学、数据库、可视化技术等,高度自动化地分析数据,做出归纳性的推理,从中挖掘出潜
在的模式,帮助决策者调整策略,减少风险,做出正确的决策。
由于影响塔材强度的因素很多,而传统的评价方法需要对全部评价指标进行计算,所以
计算较复杂,而且可能因为各因素权重小而造成的严重失真现象或多峰值现象。本发明提出
一种首先基于粗糙集理论对指标集进行约简,约简后采用数据挖掘的方法进行塔材实际强度
计算的方法。所提方法可以有效的解决了在复杂自然环境下长期运行的输电杆塔结构安全评
价问题。
发明内容
本发明的目的在于:提出一种基于数据挖掘的输电杆塔塔材实际强度计算方法,可为评
估输电线路铁塔结构安全提供必要判据。
步骤1:指标集约简;
步骤2:数据挖掘学习集的构造;
步骤3:因素集权重确定;
步骤4:实际强度评估。
所述步骤1中的指标集约简,主要对由气象区条件、亚强度损伤、导线应力及机械振动
三大类因素构成的指标集,三类影响因素集表示为U={U1,U2,U3}。其中:
U1={u11,u12,u13,u14,u15},u11为风速(最大风),u12为大气温度(最低温),u13为年平均气温,
u14为覆冰厚度(最厚覆冰),u15为年雷暴日天数。U2={u21,u22,u23,u24,u25,u26},u21为运行时
间,u22为弯曲修复次数,u23为裂痕修复次数,u24为雷电或故障电流损伤次数,u25为重覆冰
疲劳次数,u26为平均运行应力/最大运行应力。U3={u31,u32,u33,u34},u31为导线分裂数,u32
为风向与线路角,u33为地表面粗糙程度,u34为钢材锈蚀量。运用粗糙集进行指标集约简,
属性重要度定义为:
U/R={{1,7},{2,4},{3,6,8},{5}}
U/(R-{u11})={{1,3,5,7,8},{2,4}}
U/(R-{u12})={{1,2,4,5,7},{3,6,8}}
U/(R-{u13})={{1,7},{2,4},{3,6,8},{5}}
U/(R-{u14})={{1,5,7},{2,4},{3,6,8}}
U/(R-{u15})={{1,7},{2,4},{3,6,8},{5}}
U/(R-{u13,u15})={{1,7},{2,4},{3,6,8},{5}}
U/R≠U/(R-{u11})
U/R≠U/(R-{u12})
U/R≠U/(R-{u14})
U/R=U/(R-{u13})=U/(R-{u15})=U/(R-{u13,u15})
其中R为因素的属性值的集合。经过属性重要度约简计算可知指标u13、u15是冗余的,同
理,分别对亚强度损伤因素和导线舞动及微风振动因素进行属性重要度约简,得到最终评价
指标为:U={U1,U2,U3},其中U1={u11,u12,u14},U2={u21,u22,u23,u24,u25},
U3={u31,u32,u33,u34}。
所述步骤2中的数据挖掘学习集的构造,采用K-VNN搜索策略,在系统已有的N组数
据中寻找k组最相似的数据(k<<N),本发明提出的杆塔塔材的实际强度退化率与影响因素
集U呈现非线性关系:
η=f(U)+ε(t)
其中,η为退化率,ε(t)为零均值的白噪声,f(·)为未知的非线性函数。对于已经存在N
组影响因素和退化率的数据在当前t时刻,有影响因素信息U(t),采用K-VNN
搜索策略,在系统已有的N组数据中寻找k组最相似的数据(k<<N),具体如下:
1、当cosβ(U(i),U(t))<0,则认为此U(i)偏离于当前输入U(t),不利于建模,丢弃此数据;
2、否则,以U(i)与U(t)的指数核与夹角余弦加权之和选择准则,即
D(U(i),U(t))=α·e-d(U(i),U(t))+(1-α)·cosβ(U(i),U(t))
式中:
cos β ( U ( i ) , U ( t ) ) = U T ( i ) U ( t ) | | U ( i ) | | 2 · | | U ( t ) | | 2 d ( U ( i ) , U ( t ) ) = | | U ( i ) - U ( t ) | | 2 , α ∈ [ 0,1 ] ]]>
α为加权因子。加权选择准则D(U(i),U(t))直接反映了U(i)与U(t)的相似性。若两个信息向
量越靠近,则d就越小,并且cosβ也就越大,从而D(U(i),U(t))也就越大。这样,在已有的数
据信息中,选用D(·)值最大的k组数据,按降序排列,构造学习集:
{(U(1),η(1)),…,(U(k),η(k))}
D(U(1),U(t))>…>D(U(k),U(t)).
所述步骤3中的因素集权重确定可以得到某种因素对杆塔塔材实际强度退化率的影
响程度,将不确定性的因素清晰化,本发明提出的杆塔塔材的实际强度退化率与影响因
素集U局部线性关系如下:
η=fθ(U)=UTθ
其中:θ表示因素集权重值,T表示转置。由于当前和数据是在不同的工作点,符合当前工作
点U(t)的数据密度可能不一样,用于建模的数据个数也是不定的,亦即:建模邻域值大小可
变,为了获得最佳的因素集权重向量θ,同时减小计算量,可预先设定邻域的变化范围
k∈[km,kM](km<kM),在计算近邻k+1的因素集权重向量θk+1时,直接利用近邻k的因素集权重
向量θk,首先给出一个错误函数,
m i n θ J ( θ ) = 1 2 Σ i = 1 m ( f θ ( U i ) - η i ) 2 ]]>
采用梯度下降法,计算得到因素集权重向量如下,
∂ ∂ θ J ( θ ) = ∂ ∂ θ 1 2 Σ i = 1 m ( f θ ( U i ) - η i ) 2 = ( f θ ( U ) - η ) U i ]]>
θ k + 1 = θ k - α ∂ ∂ θ J ( θ ) = θ i - α ( f θ ( U ) - η ) U i ]]>
得到系近邻k+1的模型θk+1,同时,也可以得到近邻k+1的去一交叉误差值:
e k + 1 , j l o o = η ( j ) - αθ k + 1 - j , j = 1 , 2 ... , k + 1. ]]>
式中:表示在k+1组数据中,用去掉第j个数据所得到的模型;表示实际塔材强度退
化率η(j)与模型得到的预测值之间的误差。
这样,可以得到近邻k+1的去一交叉误差集均方和这些得
E l o o ( k + 1 ) = Σ j = 1 k + 1 w j ( e k + 1 , j l o o ) 2 Σ j = 1 k + 1 w j . ]]>
式中:加权因子直接反映每个U(j)的去一交叉误差对Eloo(k+1)“贡献”大
小。越靠近U(t)的U(j),其“贡献”越大,反之越小。此时,若
Eloo(k+1)>Eloo(k),k+1∈[km,kM].
则认为模型“变差”,停止回归计算,并以模型θk作为系统当前时刻的最佳模型。否则,按
采用梯度下降法得到的模型,从学习集中选取出新的信息向量,继续迭代,直到k=kM为止。
这样,可以及时判断局部模型的优劣,得到符合当前时刻影响因素和退化率关系的最佳局部
线性模型。
所述步骤4中的安全评估,根据建立的影响因素和退化率关系的最佳局部线性模型,
计算塔材实际强度的退化率,本发明提出的计算杆塔塔材实际强度的退化率如下,
η(t)==UT(t)θk。
本发明的技术效果:
本申请相较于传统方法,不仅使指标得到了简化,而且也使得各个因素的权重分配利用
大量的历史采集数据,其评价结果的区分度明显,结果更加切合实际,使评价指标更加切实
有效的反映评价结果。
附图说明
图1是长期运行输电线路塔材的实际强度计算方法的原理图。
图2是退化率计算比较评价结果图。
具体实施方式
本发明一种基于数据挖掘的输电杆塔塔材实际强度计算方法的设计思路如图1所示,该
方法主要包括如下步骤:
步骤1:指标集约简;
步骤2:数据挖掘学习集的构造;
步骤3:因素集权重确定;
步骤4:实际强度评估。
各个步骤的实施过程如下:
输电线路杆塔塔材长期野外运行,承受自然侵袭、放电及人为外力破坏,导线实际机械
强度相对理论值会发生下降。考虑强度影响因素及评判知识呈现非线性关系,基于数据挖掘
方法对杆塔塔材实际强度进行评价和计算。
数据挖掘之一的K-VNN方法基于“相似输入产生相似输出”原则,实现方式一般是将
样本数据记忆在存储器中,然后根据输入点,在样本数据中找到与之相似的数据,根据这些
样本数据得到该输入的相应输出。因此,它也被称为“基于记忆学习”。描述输入数据与样本
数据关联度的准则一般采用距离函数,即与输入点最近的那些数据具有与之较高的关联度。
强度评价的基本过程如图1所示。本发明建立了局部强度评价模型,包括因素集、权重学习
集、评价模型的建立。下文以耐张型杆塔塔材为例,给出其实际强度计算方法。
1)塔材强度评价因素集指标体系建立;
通过在供电企业调研,根据相关技术人员给出的影响塔材强度的各种因素的评价指标,
结合大量实际数据,得出了110kV电压等级线路铁塔强度评价基本指标体系。基本指标体系
主要由气象区条件、亚强度损伤、导线应力及机械振动三大类因素构成。
因素集为:U={U1,U2,U3},其中U1={u11,u12,u13,u14,u15},U2={u21,u22,u23,u24,u25,u26},
U3={u31,u32,u33,u34}。
1.气象区条件U1:
风速(最大风)u11,大气温度(最低温)u12,年平均气温u13,覆冰厚度(最厚覆冰)u14,
年雷暴日天数u15。
2.亚强度损伤U2:
运行时间u21,弯曲修复次数u22,裂痕修复次数u23,雷电或故障电流损伤次数u24,重覆
冰疲劳次数u25,平均运行应力/最大运行应力u26。
3.导线应力及机械振动U3:
导线分裂数u31,风向与线路角u32,地表面粗糙程度u33,钢材锈蚀量u34。
由于各因素的取值不同,且较为复杂,为了后续评估计算的方便,在此对基本指标进行
数据标准化。根据评价因素对塔材强度的影响程度不同分为五个等级,分别为Ⅰ、Ⅱ、Ⅲ、
Ⅳ、Ⅴ,等级Ⅰ表示对塔材实际强度影响很小,等级Ⅱ表示对塔材实际强度影响较小,等级
Ⅲ表示对塔材实际强度影响中等,等级Ⅳ表示对塔材实际强度影响较大,等级Ⅴ表示对塔材
实际强度影响很大。下面以气象区为例建立气象区评价量化标准。
由全国典型气象区库建立气象区条件的评价标准,得出气象区评价量化标准,见表1。
表1气象区评价量化标准
2)粗糙集进行属性约简
基本指标体系的因素较多,可能会存在因素冗余的问题,在不影响评价结果的基础上,
为了不让评价过程复杂化,将对基本指标体系进行约简。样本测试数据如表2所示,为了便于
计算简化,以Ⅱ的指标值作为各最初评价指标的阀值,满足Ⅱ的指标值则为1,否则为0,则
由表2和表3数据进行数据离散化,便可得出最初评价指标信息,见表3。
表2样本测试数据
表3样本数据离散化
根据粗糙集理论,对表4进行属性重要度约简:
U/R={{1,7},{2,4},{3,6,8},{5}}
U/(R-{u11})={{1,3,5,7,8},{2,4}}
U/(R-{u12})={{1,2,4,5,7},{3,6,8}}
U/(R-{u13})={{1,7},{2,4},{3,6,8},{5}}
U/(R-{u14})={{1,5,7},{2,4},{3,6,8}}
U/(R-{u15})={{1,7},{2,4},{3,6,8},{5}}
U/(R-{u13,u15})={{1,7},{2,4},{3,6,8},{5}}
U/R≠U/(R-{u11})
U/R≠U/(R-{u12})
U/R≠U/(R-{u14})
U/R=U/(R-{u13})=U/(R-{u15})=U/(R-{u13,u15})
经过属性重要度约简,计算可知指标u13、u15是冗余的。同理,分别对亚强度损伤因素
和导线应力及机械振动因素进行属性重要度约简,得到最终评价指标为:U={U1,U2,U3},
其中U1={u11,u12,u14},U2={u21,u22,u23,u24,u25},U3={u31,u32,u33,u34}。
3)学习集的构造
考虑一个未知的多入单出非线性映射f:Rn→R,假定可以得到系统可观测的输入输出数
据:并且这组数据存在函数关系:
yi=h(xi)+ε
式中:X∈Rn是自变量;yi∈R是因变量:εi∈R为零均值且方差为σ2的独立随机分布变量。
问题是对于输入空间的任意向量Xq,能否根据系统已有的数据集,建立一个映射,并能通过
该映射,得到系统相应的估计输出此问题可以归结为求解下面的优化问题
m i n Σ ( X i , Y i ) ∈ Ω k ( y i - h ( X i , θ ) ) 2 w i ]]>
式中:Ωk为距离Xk最近的k个样本所构成的局部空间;h(·)为描述输入输出向量的非线
性映射函数;wi为权值,表示局部空间内的样本数据对输出向量的影响程度,局部空间内不
同的样本数据对系统输出的影响(或贡献度)是不同的。从直观上看,距离输入向量最近的
那些样本输入所对应的输出向量值最能反映当前输入量的输出,这实际上也是即时学习算法
的基本原则:相似输入产生相似输出。
运用以上算法原理,采用K-VNN搜索策略,在系统已有的N组数据中寻找k组最相似
的数据(k<<N),本发明提出的杆塔塔材的实际强度退化率与影响因素集U呈现非线性关系:
η=f(U)+ε(t)
其中,η为退化率,ε(t)为零均值的白噪声,f(·)为未知的非线性函数。对于已经存在N
组影响因素和退化率的数据在当前t时刻,有影响因素信息U(t),采用K-VNN
搜索策略,在系统已有的N组数据中寻找k组最相似的数据(k<<N),具体如下:
2、当cosβ(U(i),U(t))<0,则认为此U(i)偏离于当前输入U(t),不利于建模,丢弃此数据;
2、否则,以U(i)与U(t)的指数核与夹角余弦加权之和选择准则,即
D(U(i),U(t))=α·e-d(U(i),U(t))+(1-α)·cosβ(U(i),U(t))
式中:
cos β ( U ( i ) , U ( t ) ) = U T ( i ) U ( t ) | | U ( i ) | | 2 · | | U ( t ) | | 2 d ( U ( i ) , U ( t ) ) = | | U ( i ) - U ( t ) | | 2 , α ∈ [ 0,1 ] ]]>
α为加权因子。加权选择准则D(U(i),U(t))直接反映了U(i)与U(t)的相似性。若两个信息向
量越靠近,则d就越小,并且cosβ也就越大,从而D(U(i),U(t))也就越大。这样,在已有的数
据信息中,选用D(·)值最大的k组数据,按降序排列,构造学习集:
{(U(1),η(1)),…,(U(k),η(k))}
D(U(1),U(t))>…>D(U(k),U(t)).
4)因素集权重确定
杆塔塔材的实际强度退化率与影响因素集U局部线性关系如下:
η=fθ(U)=UTθ
其中:θ表示因素集权重值,T表示转置。由于当前和数据是在不同的工作点,符合当前工作
点U(t)的数据密度可能不一样,用于建模的数据个数也是不定的,亦即:建模邻域值大小可
变,为了获得最佳的因素集权重向量θ,同时减小计算量,可预先设定邻域的变化范围
k∈[km,kM](km<kM),在计算近邻k+1的因素集权重向量θk+1时,直接利用近邻k的因素集权重
向量θk,首先给出一个错误函数,
m i n θ J ( θ ) = 1 2 Σ i = 1 m ( f θ ( U i ) - η i ) 2 ]]>
采用梯度下降法,计算得到因素集权重向量如下,
∂ ∂ θ J ( θ ) = ∂ ∂ θ 1 2 Σ i = 1 m ( f θ ( U i ) - η i ) 2 = ( f θ ( U ) - η ) U i ]]>
θ k + 1 = θ k - α ∂ ∂ θ J ( θ ) = θ i - α ( f θ ( U ) - η ) U i ]]>
得到系近邻k+1的模型θk+1,同时,也可以得到近邻k+1的去一交叉误差值:
e k + 1 , j l o o = η ( j ) - αθ k + 1 - j , j = 1 , 2 ... , k + 1. ]]>
式中:表示在k+1组数据中,用去掉第j个数据所得到的模型;表示实际塔材强度退
化率η(j)与模型得到的预测值之间的误差。
这样,可以得到近邻k+1的去一交叉误差集均方和这些得
E l o o ( k + 1 ) = Σ j = 1 k + 1 w j ( e k + 1 , j l o o ) 2 Σ j = 1 k + 1 w j . ]]>
式中:加权因子直接反映每个U(j)的去一交叉误差对Eloo(k+1)“贡献”大
小。越靠近U(t)的U(j),其“贡献”越大,反之越小。此时,若
Eloo(k+1)>Eloo(k),k+1∈[km,kM].
则认为模型“变差”,停止回归计算,并以模型θk作为系统当前时刻的最佳模型。
否则,按采用梯度下降法得到的模型,从学习集中选取出新的信息向量,继续迭代,直
到k=kM为止。这样,可以及时判断局部模型的优劣,得到符合当前时刻影响因素和退化
率关系的最佳局部线性模型。于是这个局部线性模型可以用于计算杆塔塔材实际强度的
退化率,即η(t)==UT(t)θk。
针对某电力公司的耐张型铁塔,调取了近五年的详细气象数据,及铁塔投运来的详细运
行数据,经本系统重新反演模拟,系统安全评价均为故障危险状态。另外,通过仿真可以看
出由本发明所提方法计算出的铁塔强度退化率和人工分析所得到的结果误差较小,可以用于
取代人工计算,其计算结果如图2所示。
在本说明书中未作详细描述的内容属本领域技术人员的公知技术。