《安全水平位移与水位的滑动可变窗口动态数据拟合方法.pdf》由会员分享,可在线阅读,更多相关《安全水平位移与水位的滑动可变窗口动态数据拟合方法.pdf(12页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 (43)申请公布日 (21)申请号 201410735262.2 (22)申请日 2014.12.04 G06F 19/00(2011.01) (71)申请人 河海大学 地址 211100 江苏省南京市江宁区佛城西路 8 号 (72)发明人 毛莺池 贾必聪 王久龙 朱沥沥 王龙宝 周晓峰 接青 (74)专利代理机构 南京苏高专利商标事务所 ( 普通合伙 ) 32204 代理人 李玉平 (54) 发明名称 安全水平位移与水位的滑动可变窗口动态数 据拟合方法 (57) 摘要 本发明公开了一种基于大坝工程安全水平位 移与水位的滑动可变窗口动态数据拟合方法。所 述方法包括以下步骤 。
2、: 数据导入与预处理, 导入 水平位移与水位数据, 将拟合所需要的数据导入 到工作平台上, 通过剔除空值和利用箱线图模型 处理异常值进行数据预处理 ; 选取最优模型, 根 据样本均方差选择最优模型, 包括选择最优步长 和最优函数模型 ; 预测数据, 用选择的最优函数 模型所需预测当天前一天的值, 与真实值进行比 较得到误差值, 计算出模型的精确程度, 用所得到 的模型对所需预测当天的水平位移进行预测 ; 结 果验证与报表生成, 将已有预测值保存, 与现有真 实数据进行对比, 用于评估当前函数模型和数据 拟合方法, 并对此次拟合方法得到的结果生成报 表上报。 (51)Int.Cl. (19)中华。
3、人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书6页 附图3页 (10)申请公布号 CN 104462808 A (43)申请公布日 2015.03.25 CN 104462808 A 1/2 页 2 1. 一种安全水平位移与水位的滑动可变窗口动态数据拟合方法, 其特征在于, 包括以 下步骤 : (1) 数据导入与预处理, 导入水平位移与水位数据, 将拟合所需要的数据导入到工作平 台上, 通过剔除空值和利用箱线图模型处理异常值进行数据预处理 ; (2) 选取最优模型, 根据样本均方差选择最优模型, 包括选择最优步长和最优函数模 型 ; (3) 预测数据, 用选择的最优函数。
4、模型预测所需预测当天前一天的值, 与真实值进行比 较得到误差值, 计算出模型的精确程度, 用所得到的模型对所需预测当天的水平位移进行 预测 ; (4) 结果验证与报表生成, 将已有预测值保存, 与现有真实数据进行对比, 用于评估当 前函数模型和数据拟合方法, 并对此次拟合方法得到的结果生成报表上报。 2. 根据权利要求 1 所述的安全水平位移与水位的滑动可变窗口动态数据拟合方法, 其 特征在于, 所述步骤 (1) 的具体步骤为 : (1.1) 导入水平位移与水位数据, 从原始数据库中读取需要处理的数据, 主要为坝段测 点、 时间、 水位数据和水平位移数据 ; (1.2) 剔除部分本身有误的数据。
5、, 对读取到的数据进行预处理, 包括对空值的处理和对 异常值的处理 ; 根据条件 “水位数据是否为空” 和 “水平位移数据是否为空” 对水平位移和水 位数据中出现空值的情况进行剔除, 将剔除的数据保存到数据库异常值表中。利用箱线图 原理对数据进行异常值处理, 定义所选数据中水平位移数据的上下四分位数分别为 Q1 和 Q3, 定义四分点间距为IQR, 将Q3+3IQR和Q13IQR之外的数据剔除, 将剔除的数据保存到 数据库异常值表中 ; (1.3) 样本选择, 针对所选择的候选函数模型, 根据拟合方法中步长至少为 4 才能出现 不完全拟合, 符合实践需要, 将步长 ( 即样本量 ) 下限设定为。
6、 4, 拟合步长上限不做规定, 但 应不大于数据总条数。 3. 根据权利要求 1 所述的安全水平位移与水位的滑动可变窗口动态数据拟合方法, 其 特征在于, 所述内容 (2) 根据候选模型进行拟合, 通过对样本均方差的比较确定最优模型 ; (2.1) 从步长下限开始, 使用处在所选步长内的数据对候选模型分别进行拟合, 得到对 应的拟合的方程, 用拟合方程计算所需预测日期的前一天的水平位移作为校验, 得到校验 误差, 校验误差作为对模型的校验, 可以分析模型本身的合理性以及预测的准确性 ; (2.2) 从步长下限开始, 计算使用处在所选步长内的数据对候选模型分别进行拟合 得到的样本均方差, 样本均。
7、方误差 (RMSE) 作为预测模型好坏的评判标准, 其计算公式为 : 其中n为样本的数量, yi为当前的水平位移的估计值, 为估计值的 平均值, n-1 即为计算一元回归分析时样本均方误差的自由度 ; (2.3) 将每次将样本量 ( 即步长加 1), 进行步骤 (2.1) 和 (2.2) 操作 ; 如果增加样本 量, 样本均方误差减小, 则将此时的样本均方误差更新为最新的样本均方误差 RMSE_New 并 继续找最优模型, 如果连续 7 次都没有更新两种方法的样本均方误差, 根据概率学中在出 现局部最优样本均方误差之后更新样本均方误差的概率小于 0.003 且在一次随机试验的 权 利 要 求 。
8、书 CN 104462808 A 2 2/2 页 3 过程中, 这种小概率事件发生的概率近乎于 0, 将此时的 RMSE_New 及其对应的步长选取为 局部最优值。 4. 根据权利要求 1 所述的安全水平位移与水位的滑动可变窗口动态数据拟合方法, 其 特征在于, 所述内容 (3) 的具体过程如下 : (3.1) 将步骤 (2.3) 中得到的不同数学模型下的局部最优值以样本均方误差值作为模 型拟合的衡量指标进行比较, 取均方误差最小的拟合模型为最优模型, 将其作为当日水平 位移数据预测的参考模型 ; (3.2) 在得到当日水位数据的情况下, 使用已经选择的最优模型预测当日水平位移, 根 据实现设。
9、定的阈值标准, 判断该测点当日水平位移是否在正常范围内。 5. 根据权利要求 1 所述的安全水平位移与水位的滑动可变窗口动态数据拟合方法, 其 特征在于, 所述内容 (4) 结果验证与报表生成的具体过程如下 : (4.1) 根据步骤 (2) 和步骤 (3), 对所需预测数据当日之前的水平位移进行处理, 得到 之前所有天数的预测值, 将得到的预测值与已有的实际值进行统计分析, 以评估当前拟合 模型 ; (4.2) 记录拟合结果, 生成报表 ; 报表内容包括预测结果、 不同拟合模型预测结果对比 和异常值。 权 利 要 求 书 CN 104462808 A 3 1/6 页 4 安全水平位移与水位的滑。
10、动可变窗口动态数据拟合方法 技术领域 0001 本发明涉及一种数据拟合方法, 具体涉及一种基于大坝工程安全水平位移与水位 的滑动可变窗口动态数据拟合方法, 属于水库大坝安全监测技术领域。 背景技术 0002 大坝安全监测对于水库能否正常运行至关重要, 水库大坝安全监测要做到定时定 点、 规律系统, 以观测数据的分析结果为主要依据, 为水库安全运行提供服务。大坝的安全 监测主要包括对大坝坝体的固定测点按照一定频率连续地进行仪器测量、 对采集来的数据 进行资料整编和分析, 通过计算和查证原始观测数据来实现监测资料的连续性与准确性。 大坝安全监测的目的是为了更好地节约水库建设维护的投资、 尽可能大地。
11、发挥水库效益。 大坝安全监测不只是为了保证被监测大坝的安全运营, 还要对其他大坝包括待建坝安全运 营、 建设施工提供准确的实验依据和安全鉴定的数据指导。 0003 由此可见, 每座水库的安全运营都离不开大坝安全监测工作, 只有通过连续稳定 的监测和分析才能及时发现各种问题, 保证国家和人民的生命财产安全。大坝安全监测是 对水利建筑工程安全的一种管理, 主要包括了信息的采集、 处理, 结论的得出, 措施的制定 以及信息的反馈, 而其最根本目的就是为了工程效益。 0004 对于大坝安全监测, 安全阈值作为一项重要的参考数据对于监测分析具有重要意 义。 而需要求得精确的安全阈值, 则需要精确的估计值。
12、, 这就需要先进的数据拟合方法进行 拟合计算。 0005 因此, 如何计算出精确的估计值, 选取最优的模型进行计算, 为计算安全阈值数据 支持, 是数据拟合方法必须解决大问题, 也是本发明所要解决的问题。 发明内容 0006 发明目的 : 本发明是基于对大坝安全阈值的分析中得出的。为了计算出大坝的安 全阈值需要对某一点的值进行估计, 因而需要对大量数据进行拟合, 从而得到一个精确的 估计值, 最终得到了一种基于滑动窗口动态的数据拟合方法。 与以往的拟合方法不同, 是基 于滑动窗口的, 可以动态的选取样本容量 ; 同时, 又可以动态的选取函数模型, 根据样本的 均方差值选取最优模型。最终获取到最。
13、优的模型, 获得精确的估计值。 0007 技术方案 : 一种基于大坝工程安全水平位移与水位的滑动可变窗口动态数据拟合 方法, 包括以下四个方面 : 0008 (1) 数据导入与预处理, 导入水平位移与水位数据, 将拟合所需要的数据导入到工 作平台上, 通过剔除空值和利用箱线图模型处理异常值进行数据预处理 ; 0009 (2) 选取最优模型, 根据样本均方差选择最优模型, 包括选择最优步长和最优函数 模型 ; 0010 (3) 预测数据, 用选择的最优函数模型预测所需预测当天前一天的值, 与真实值进 行比较得到误差值, 计算出模型的精确程度, 用选择的最优函数模型对所需预测当天的水 说 明 书 。
14、CN 104462808 A 4 2/6 页 5 平位移进行预测 ; 0011 (4) 结果验证与报表生成, 将已有预测值保存, 与现有真实数据进行对比, 用于评 估当前函数模型和数据拟合方法, 并对此次拟合方法得到的结果生成报表上报。 0012 所述内容 (1) 数据导入与预处理, 导入水平位移与水位数据, 将拟合所需要的数 据导入到工作平台上, 通过剔除空值和利用箱线图模型处理异常值进行数据预处理, 具体 为 : 0013 (1.1) 导入水平位移与水位数据, 从原始数据库中读取需要处理的数据, 主要为坝 段测点、 时间、 水位数据和水平位移数据。 0014 (1.2) 剔除部分本身有误的。
15、数据, 对读取到的数据进行预处理, 包括对空值的处理 和对异常值的处理。根据条件 “水位数据是否为空” 和 “水平位移数据是否为空” 对水平位 移数据和水位数据中出现空值的情况进行剔除, 将剔除的数据保存到数据库异常值表中。 利用箱线图原理对数据进行异常值处理, 定义所选数据中水平位移数据的上下四分位数分 别为 Q1 和 Q3, 定义四分点间距为 IQR, 将 Q3+3IQR 和 Q1 3IQR 之外的数据剔除, 将剔除的 数据保存到数据库异常值表中。 0015 所述内容 (2) 选取最优模型, 根据样本均方差选择最优模型, 包括选择最优步长 和最优函数模型, 具体为 : 0016 (2.1)。
16、 从步长下限开始, 使用处在所选步长内的数据对候选模型分别进行拟合, 得 到对应的拟合的方程, 用拟合方程计算所需预测日期的前一天的水平位移作为校验, 得到 校验误差, 校验误差作为对模型的校验, 可以分析模型本身的合理性以及预测的准确性 ; 0017 (2.2) 从步长下限开始, 计算使用处在所选步长内的数据对候选模型分别进行拟 合得到的样本均方差, 样本均方误差 (RMSE) 作为预测模型好坏的评判标准, 其计算公式 为 :其中 n 为样本的数量, yi为当前的水平位移的估计值, 为估计 值的平均值, n-1 即为计算一元回归分析时样本均方误差的自由度 ; 0018 (2.3) 然后每次将。
17、样本量 ( 即步长加 1), 进行上述操作。如果增加样本量, 样本 均方误差减小, 则将此时的样本均方误差更新为最新的样本均方误差 RMSE_New 并继续找 最优模型, 如果连续 7 次都没有更新两种方法的样本均方误差, 根据概率学中在出现局部 最优样本均方误差之后更新样本均方误差的概率小于 0.003 且在一次随机试验的过程中, 这种小概率事件发生的概率近乎于 0, 将此时的 RMSE_New 及其对应的步长选取为局部最优 值。 0019 所述内容 (3) 预测数据, 用选择的最优函数模型所需预测当天前一天的值, 与真 实值进行比较得到误差值, 计算出模型的精确程度, 用所得到的模型对所需。
18、预测当天的水 平位移进行预测 ; 具体为 : 0020 (3.1) 将步骤 (2.3) 中得到的不同数学模型下的局部最优值以样本均方误差值作 为模型拟合的衡量指标进行比较, 取均方误差最小的拟合模型为最优模型, 将其作为当日 水平位移数据预测的参考模型。 0021 (3.2) 在得到当日水位数据的情况下, 使用已经选择的最优模型预测当日水平位 移, 根据实现设定的阈值标准, 判断该测点当日水平位移是否在正常范围内。 说 明 书 CN 104462808 A 5 3/6 页 6 0022 本发明采用上述技术方案, 具有以下有益效果 : 0023 1. 滑动窗口具有可变性, 可以根据选择的不同的点。
19、动态的选取样本容量 ; 0024 2. 可以动态的选取函数模型, 不同的点根据其数据特征选取更贴合自身的函数模 型, 获得模型更加精确 ; 0025 3. 可以根据需求, 动态加入新的函数模型进行计算。 附图说明 0026 图 1 为基于大坝工程安全水平位移与水位的滑动可变窗口动态数据拟合方法流 程图 ; 0027 图 2 为基于大坝工程安全水平位移与水位的滑动可变窗口动态数据拟合方法的 样本均方误差的点图 ; 0028 图 3 为基于大坝工程安全水平位移与水位的滑动可变窗口动态数据拟合方法的 样本均方误差的直方图 ; 0029 图 4 为基于大坝工程安全水平位移与水位的滑动可变窗口动态数据拟。
20、合方法的 最优模型步长的数据分布图形 ; 0030 图 5 为基于大坝工程安全水平位移与水位的滑动可变窗口动态数据拟合方法的 校验误差图。 具体实施方式 0031 下面结合具体实施例, 进一步阐明本发明, 应理解这些实施例仅用于说明本发明 而不用于限制本发明的范围, 在阅读了本发明之后, 本领域技术人员对本发明的各种等价 形式的修改均落于本申请所附权利要求所限定的范围。 0032 图 1 是基于大坝工程安全水平位移与水位的滑动可变窗口动态数据拟合方法的 流程图。可以看出, 基于滑动可变窗口动态的数据拟合方法的具体流程如下 : 0033 (1) 数据导入与预处理, 导入水平位移与水位数据, 将拟。
21、合所需要的数据导入到工 作平台上, 通过剔除空值和利用箱线图模型处理异常值进行数据预处理 : 0034 (1.1) 导入水平位移与水位数据, 从原始数据库中读取需要处理的数据, 主要为坝 段测点、 时间、 水位数据和水平位移数据 ; 0035 (1.2) 剔除部分本身有误的数据, 对读取到的数据进行预处理, 包括对空值的处理 和对异常值的处理。根据条件 “水位数据是否为空” 和 “水平位移数据是否为空” 对水平位 移和水位数据中出现空值的情况进行剔除, 将剔除的数据保存到数据库异常值表中。利用 箱线图原理对数据进行异常值处理, 定义所选数据中水平位移数据的上下四分位数分别为 Q1 和 Q3, 。
22、定义四分点间距为 IQR, 将 Q3+3IQR 和 Q1 3IQR 之外的数据剔除, 将剔除的数据 保存到数据库异常值表中。 如一组水平位移数据(0.1, 0.2, 0.2, 0.2, 0.2, 0.2, 0.2, 0.3), 其 上四分位数 Q1 0.2, 其下四分位数 Q3 0.2, 其四分点间距 IQR 0, 将 Q3+3IQR 和 Q1 3IQR 之外的数据剔除, 即将数据中值小于 Q1 3IQR 或者大于 Q3+3IQR 的剔除, 在本例中 Q1 3IQR 0.2, Q3+3IQR 0.2, 则应去掉并存入异常值数据库中的水平位移数据为 0.1 和 0.3。就实际情况来看, 0.1 。
23、和 0.3 确实为异常数据。 0036 (1.3) 样本选择, 针对所选择的候选函数模型, 根据拟合方法中步长至少为 4 才能 说 明 书 CN 104462808 A 6 4/6 页 7 出现不完全拟合, 符合实践需要, 将步长 ( 即样本量 ) 下限设定为 4, 拟合步长上限不做规 定, 但应不大于数据总条数。 0037 (2) 选取不同预测模型对应的局部最优模型, 根据样本均方差选择局部最优步长 和局部最优模型 ; 0038 (2.1) 从步长下限开始, 使用处在所选步长内的数据对候选模型分别进行拟合, 得 到对应的拟合的方程, 用拟合方程计算所需预测日期的前一天的水平位移作为校验, 得。
24、到 校验误差, 校验误差作为对模型的校验, 可以分析模型本身的合理性以及预测的准确性。 以 Y 代表水平位移, X 代表水位, 拟合过程描述如下。以步长为 4 为例, 所取样本数据为 (x1, y1), (x2, y2), (x3, y3), (x4, y4), 候选模型为二次多项式 Y aX2+bX+c 和指数函数 Y aX+b。数学中, 三个不相同的点可以确定二次多项式和指数函数的系数, 此时两个函数模 型均通过选取的三点, 为完全拟合的理想情况, 考虑到对于四点不相同的实际工程中的点, 出现完全拟合的理想情况的概率极小, 因此步长最低应选为 4, 数学中在数据已知的情况 下, 可以求出对。
25、应二次多项式和指数函数的系数, 从而确定二次多项式和指数函数模型。 记 为 Y a1X2+b1X+c1和 Y a1X+b1, 则可以将所需预测日期的前一天的水位代入得到的拟合 函数模型, 得到预测到的所需预测日期的前一天的水平位移, 该值与所需预测日期的前一 天的水平位移真实值的插值为校验误差, 作为对模型的校验, 可以分析模型本身的合理性 以及预测的准确性。 0039 (2.2) 从步长下限开始, 使用处在所选步长内的数据对候选模型分别进行拟合 得到的样本均方差, 样本均方误差 (RMSE) 作为预测模型好坏的评判标准, 其计算公式为 : 其中 n 为样本的数量, yi为当前的水平位移的估计。
26、值, 为估计值的平 均值, n-1 即为计算一元回归分析时样本均方误差的自由度 ; 0040 (2.3) 确定局部最优步长和局部最优函数模型。每次将样本量 ( 即步长加 1), 进 行步骤 (2.1) 和 (2.2) 操作。如果增加样本量, 样本均方误差减小, 则将此时的样本均方误 差更新为最新的样本均方误差RMSE_New并继续找最优模型, 如果连续7次都没有更新两种 方法的样本均方误差, 而在这之后更新样本均方误差的概率小于 0.003, 由于在一次随机试 验的过程中, 这种小概率事件发生的概率近乎于 0, 所以有理由找到局部最优值, 将此时的 RMSE_New 选取为局部最优均方误差, 。
27、其对应的步长选取为局部最优步长, 此时确定的函数 模型为预测该点时该方法的局部最优函数模型。 0041 (3) 确定最终动态最优模型并预测数据, 从步骤 (2.3) 中选择的不同预测模型所 对应的局部最优函数模型(每种预测模型均存在一个局部最优函数模型)中选择最终动态 最优模型, 预测所需预测当天前一天的值, 与真实值进行比较得到误差值, 计算出模型的精 确程度, 用所得到的模型对所需预测当天的水平位移进行预测 ; 0042 (3.1) 比较拟合结果, 确定最终的动态最优模型, 仍以样本均方误差值作为模型拟 合的衡量指标, 比较上述两种模型中的样本均方误差的大小来确定最终的动态最优模型 ; 0。
28、043 (3.2) 在得到当日水位数据的情况下, 使用已经选择的最优模型预测当日水平位 移, 根据实现设定的阈值标准, 判断该测点当日水平位移是否在正常范围内。 0044 (4) 结果验证与报表生成, 将已有预测值保存, 与现有真实数据进行对比, 用于评 估当前函数模型和数据拟合方法, 并对此次拟合方法得到的结果生成报表上报 ; 说 明 书 CN 104462808 A 7 5/6 页 8 0045 (4.1) 根据步骤 (2) 和步骤 (3), 对所需预测数据当日之前的水平位移进行处理, 得到之前所有天数的预测值, 将得到的预测值与已有的实际值进行统计分析, 以供大坝工 程安全人员分析当前拟。
29、合模型 ; 0046 (4.2) 记录拟合结果, 生成报表。报表内容包括预测结果、 不同拟合模型预测结果 对比和异常值, 上报到大坝安全管理部门, 供安全决策参考。 0047 图 2、 图 3 和表 1 皆为选取某一个具体测点的数据运用本发明的方法所得到的结 果, 分别是得到样本均方差的点图、 直方图和累积分布表。图 2 和图 3 直观显示 : 0.2、 0.4、 0.6 可以作为该测点下的三个阈值标准。表 1 显示, 样本均方误差小于 0.4mm 的所占比例 达到 95。如果选择 0.4mm 作为所选拟合模型准确性的衡量指标, 那么在某一次的拟合模 型的均方误差大于 0.4。则表明所确定的动。
30、态最优模型在 95的准确率的情况下是不可信 的, 这时应该予以监控。 0048 表 1 基于大坝工程安全水平位移与水位的滑动可变窗口动态数据拟合方法的样 本均方误差累计分布表 0049 0050 图 4 和表 2 同样是选取某一个具体测点的数据运用本发明的方法所得到的结果, 分别是得到最优模型步长的数据的分布图形和累积分布表。如图 4, 样本量在 15 以内所占 的比例达到 95.78 ( 如表 2), 拟合的结果比较理想。这也就说明了步长上限为 115 的合 理性 ( 或许上限远小于 115, 但是动态最优拟合模型并不需要这个最小上限值 )。如果样本 每次增加 1 来求解局部最优看成是一次伯。
31、努利实验, 且认为它是相互独立的 ( 因为每次都 有可能达到最优 ), 并且认为它在每次实验中达到最优或者达不到最优的概率均为 1/2, 那 么经过连续的 7 次实验都不能改善样本均方误差, 那么 7 次以后再次改善样本均方误差值 的概率小于0.00391(即2(-8)为小概率事件, 而小概率事件在一次随机试验中发生的概 率近乎于 0。因此有理由认为所得到的结果是局部最优的。 0051 表 2 基于大坝工程安全水平位移与水位的滑动可变窗口动态数据拟合方法的样 本步长累计分布表 0052 说 明 书 CN 104462808 A 8 6/6 页 9 0053 图 5 和表 3 同样是选取某一个具。
32、体测点的数据运用本发明的方法所得到的结果, 分别是得到校验误差图和校验误差的累积分布表。为进一步探讨动态最优模型的预测能 力, 选取所选择样本紧邻的下一次测点数据进行检验, 得到校验误差图 ( 如图 5) 和其统计 表 ( 表 3), 大约 91.7的值落在 0.4mm 误差范围内。 0054 表 3 基于大坝工程安全水平位移与水位的滑动可变窗口动态数据拟合方法的校 验误差累积分布表 0055 说 明 书 CN 104462808 A 9 1/3 页 10 图 1 说 明 书 附 图 CN 104462808 A 10 2/3 页 11 图 2 图 3 图 4 说 明 书 附 图 CN 104462808 A 11 3/3 页 12 图 5 说 明 书 附 图 CN 104462808 A 12 。