基于DQN算法的能源互联网优化策略方法.pdf
![基于DQN算法的能源互联网优化策略方法.pdf_第1页](https://img.zhuanlichaxun.net/fileroot4/2021-6/2/b61ee6cf-174f-418e-b4c0-bf1a49035294/b61ee6cf-174f-418e-b4c0-bf1a490352941.gif)
![基于DQN算法的能源互联网优化策略方法.pdf_第2页](https://img.zhuanlichaxun.net/fileroot4/2021-6/2/b61ee6cf-174f-418e-b4c0-bf1a49035294/b61ee6cf-174f-418e-b4c0-bf1a490352942.gif)
![基于DQN算法的能源互联网优化策略方法.pdf_第3页](https://img.zhuanlichaxun.net/fileroot4/2021-6/2/b61ee6cf-174f-418e-b4c0-bf1a49035294/b61ee6cf-174f-418e-b4c0-bf1a490352943.gif)
《基于DQN算法的能源互联网优化策略方法.pdf》由会员分享,可在线阅读,更多相关《基于DQN算法的能源互联网优化策略方法.pdf(9页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202011181281.7 (22)申请日 2020.10.29 (66)本国优先权数据 202010910130.4 2020.09.02 CN (71)申请人 沈阳工程学院 地址 110136 辽宁省沈阳市沈北新区蒲昌 路18号 (72)发明人 尤福财赵琰董香栾姜河 胡博王顺江罗金鸣马艳娟 王浩旋璇庄严魏莫杋 辛长庆 (74)专利代理机构 沈阳之华益专利事务所有限 公司 21218 代理人 黄英华 (51)Int.Cl. G06F 30/20(2020.01) G06F 3。
2、0/27(2020.01) G06N 3/04(2006.01) G06Q 50/06(2012.01) H02J 3/00(2006.01) (54)发明名称 一种基于DQN算法的能源互联网优化策略方 法 (57)摘要 一种能源互联网优化策略方法, 所述能源互 联网包括电网单元、 气网单元和分布式冷热电系 统嵌入式能量互联网单元, 所述方法包括: 在保 证系统运营成本最小的前提下, 通过协调优化能 源互联网, 可以进一步挖掘可再生能源利用率, 进行网络优化配置, 使其具有快速动态优化的目 的以及自学习能力, 基于最优输出动作, 可以制 定能源互联网优化策略, 尽可能的减少网络的冗 余度, 减。
3、小系统运营成本。 在设定的控制策略下, 约束条件包括负载供需平衡约束、 发电、 输出功 率平衡约束、 储能元件充放电限制约束和与外电 网交互耗能平衡约束, 采用DQN算法, 该方法使用 马尔科夫决策来确定最佳序列, 并结合卷积神经 网络逐步获得回报值最小的目标集。 权利要求书1页 说明书5页 附图2页 CN 112084680 A 2020.12.15 CN 112084680 A 1.一种基于DQN算法的能源互联网优化策略方法, 其特征在于包括如下步骤: 步骤1: 以考虑惩罚函数的能源互联网运营成本最低为目标, 建立目标函数; 步骤2: 将能源互联网模型构建为MDP, 设置迭代次数i, 离散。
4、时间间隙t, 输入t时刻的状 态变量, stWT(t), PV(t), DG(t),CHP(t),LOAD(t),BES(t), (t), (t), (t); 步骤3: actor网络输出动作变量at; 步骤4: 计算回报值r(at|st)到达下一状态St+1; 步骤5: 得到序列轨迹S1,a1,r1,S1,S2,a2,r2,S2St,at,rt,St; 形成经验池 experience pool; 并将这些轨迹存储到经验池中, 随机抽出数据进行下次迭代; 步骤6: 观察是否迭代完所有变量, 即tT? 步骤7: 将St状态变量输入到critic网络中, 得到输出期望V(s); 步骤8: 计算计。
5、及折扣因子的未来回报值Rtr(at|st)+V(St+1); 步骤9: 构造损失函数AR(t)-V(S)2; 步骤10: 利用神经网络反向传播更新网络参数; 步骤11: 将St状态变量输入到参数为 的actor神经网络中, 利用 -greedy求出网络采 取at的动作概率P(St,at); 步骤12: 同理, 计算参数为 a的actor网络采取at动作的概率P a(St,at); 步骤13: 计算损失函数flossmin(AP,AP a); 步骤14: 由损失函数迭代更新神经网络参数; 步骤15: 查看结果是否收敛到最小回报值, 若是, 则结束, 若不是, 则返回继续迭代。 2.根据权利要求1。
6、所述的一种基于DQN算法的能源互联网优化策略方法, 其特征在于: 设计应用actor-critic网络体系结构; 其中, 神经网络critic估计的价值函数V(s), 其参数 为 c; 两个参数分别为 和 a的神经网络actor用来提出控制策略; 其中actor-critic网络都 是由卷积神经网络CNN构造而成, CNN用于提取EI网络观测序列的特征。 权利要求书 1/1 页 2 CN 112084680 A 2 一种基于DQN算法的能源互联网优化策略方法 技术领域 0001 本发明涉及一种基于能源互联网的优化策略方法, 尤其是涉及一种基于DQN算法 的能源互联网优化策略方法。 背景技术 0。
7、002 目前, 能源系统因发电困难, 其预测准确度在很大程度上取决于外部环境条件。 另 一方面, 能源互联网视为解决传统电力系统面临挑战的有效手段, 但是当能源互联网中广 泛的使用了分布式能源系统, 则很难实现能源互联网中能量供需平衡的可靠性管理。 0003 值得注意的是, 电力系统中的大多数优化问题都是基于各种电气设备的明确数学 模型来解决的。 例如, 常微分方程用于表示光伏发电、 风力发电的动态功率, 而随机微分方 程用于表示能源互联网中负载的动态功率。 尽管随机微分方程可以反映能源互联网系统的 随机特性, 但很难获得其准确的数学模型。 为了表示长时间能源互联网的能量优化问题, 需 建立带。
8、有复杂微分方程的数学模型, 在某种程度上对其优化是非常受限制的。 发明内容 0004 本发明的目的是提出一种基于DQN算法的能源互联网优化策略方法, 是在保证系 统运营成本最小的前提下, 通过协调优化能源互联网, 可以进一步挖掘可再生能源利用率, 进行网络优化配置, 使其具有快速动态优化的目的以及自学习能力, 基于最优输出动作, 可 以制定能源互联网优化策略, 尽可能的减少网络的冗余度, 减小系统运营成本。 0005 为了解决现有技术存在的问题, 本发明采用的技术方案如下: 0006 一种基于DQN算法的能源互联网优化策略方法, 包括如下步骤: 0007 步骤1: 以考虑惩罚函数的能源互联网运。
9、营成本最低为目标, 建立目标函数; 0008 步骤2: 将能源互联网模型构建为MDP(马尔可夫决策过程), 设置迭代次数i, 离散 时间间隙t。 输入t时刻的状态变量, stWT(t), PV(t), DG(t) ,CHP(t) ,LOAD(t) ,BES(t) , (t), (t), (t); 0009 步骤3: actor网络输出动作变量at; 0010 步骤4: 计算回报值r(at|st)到达下一状态St+1; 0011 步骤5: 得到序列轨迹S1,a1,r1,S1,S2,a2,r2,S2St,at,rt,St; 0012 步骤6: 形成经验池experience pool。 并将这些轨。
10、迹存储到经验池中, 随机抽出数 据进行下次迭代; 0013 步骤7: 观察是否迭代完所有变量, 即tT? 0014 步骤8: 将St状态变量输入到critic网络中, 得到输出期望V(s); 0015 步骤9: 构造函数AR(t)-V(S)2; 0016 步骤10: 利用神经网络反向传播更新网络参数; 0017 步骤11: 将St状态变量输入到参数为 的actor神经网络中, 利用 -greedy求出网 络采取at的动作概率P(St,at); 说明书 1/5 页 3 CN 112084680 A 3 0018 步骤12: 同理, 计算参数为 a的actor网络采取动作的概率P a(St,at)。
11、; 0019 步骤13: 计算损失函数flossmin(AP,AP a); 0020 步骤14: 由损失函数迭代更新神经网络参数; 0021 步骤15: 查看结果是否收敛到最小回报值, 若是, 则结束, 若不是, 则返回继续迭 代。 0022 进一步地, 在DQN算法中, 设计应用actor-critic网络体系结构。 其中, 神经网络 critic估计的价值函数V(s), 其参数为 c; 两个参数分别为 和 a的神经网络actor用来提出 控制策略。 其中actor-critic网络都是由CNN(卷积神经网络)构造而成, CNN用于提取EI网 络观测序列的特征。 0023 本发明所具有的优点。
12、和有益效果是: 0024 本发明一种基于DQN算法的能源互联网优化策略方法, 是在保证系统运营成本最 小的前提下, 通过协调优化能源互联网, 可以进一步挖掘可再生能源利用率, 进行网络优化 配置, 使其具有快速动态优化的目的以及自学习能力, 基于最优输出动作, 可以制定能源互 联网优化策略, 尽可能的减少网络的冗余度, 减小系统运营成本。 在设定的控制策略下, 约 束条件包括负载供需平衡约束、 发电、 输出功率平衡约束、 储能元件充放电限制约束和与外 电网交互耗能平衡约束, 采用DQN算法, 该方法使用马尔科夫决策来确定最佳序列, 并结合 卷积神经网络逐步获得回报值最小的目标集。 附图说明 0。
13、025 下面结合附图对本发明作进一步详述: 0026 图1为DQN算法与能源互联网结合图; 0027 图2为各类算法计算速度对比图; 0028 图3为一种基于DQN算法的能源互联网优化策略方法流程图。 具体实施方式 0029 为了使本发明的目的、 技术方案及优点更加清楚明白, 下面结合附图, 对本发明进 行进一步详细说明。 应当理解, 此处所描述的具体实施例仅仅用于解释本发明, 并不用于限 定本发明。 0030 本发明一种基于DQN算法的能源互联网优化策略方法, 考虑了广义能源互联网场 景, 由多个子系统相互连接。 每个系统均假定为由许多电气设备组成, 包括PV(光伏发电 机), WT(风力发。
14、电机), DG(分布式发电价), CHP(热电联产), BES(能源电池), LOAD(负载)、 (t)(用户的电需求)、 (t)(用户的热需求)及 (t)(外网电价)等。 根据能源互联网的能源优 化管理原则, 将能源互联网最小运营成本定义为目标函数。 在此基础上, 再制定一系列惩罚 函数。 接下来, 应用DQN算法, 将能源管理问题转化为最优成本策略问题。 0031 在DQN算法中, 设计应用actor-critic网络体系结构。 其中, 神经网络critic估计 的价值函数V(s), 其参数为 c; 两个参数分别为 和 a的神经网络actor用来提出控制策略。 其中actor-critic。
15、网络都是由CNN(卷积神经网络)构造而成, CNN用于提取EI网络观测序列 的特征。 从这个意义上说, actor神经网络可以在一定时间范围内根据经验情况调整其输 出, 这将有助于改善算法的性能。 DQN算法与能源互联网结合图如附图1所示。 说明书 2/5 页 4 CN 112084680 A 4 0032 如图3所示, 本发明一种基于DQN算法的能源互联网优化策略方法, 所述能源互联 网包括电网单元、 气网单元和分布式冷热电系统嵌入式能量互联网单元, 包括如下步骤: 0033 步骤1: 以考虑惩罚函数的能源互联网运营成本最低为目标, 建立目标函数; 0034 其中包括: 电能传输成本 003。
16、5 0036 其中, Pi为各发电机输出功率。 0037 能源互联网中各系统运行成本: 0038 0039 其中, CCHP(t)代表热电联产的运行成本, PCHP(t)代表热电联产输出的电能, HCHP(t) 代表热电联产输出的热能, CWP(t)代表风力发电机的运行成本, PWP(t)代表力发电机的输出 功率, CPV(t)代表光伏发电机的运行成本, PPV(t)代表光伏发电机的发电成本, CDG(t)代表分 布式发电机的运行成本, PDG(t)代表分布式发电机输出的电能, CLOAD(t)代表负载的运行成 本, PLOAD(t)代表负载输出的电能。 0040 其中, a、 b、 c、 d。
17、、 e、 f、 g、 h、 k、 l、 m、 n、 o、 q为常数成本因子, 分别代表着各系统各项运 行成本和发电功率的系数。 0041 储能系统充放电成本: 0042 0043 其中, CBES(t)代表储能系统的充、 放电成本, SOCi(t)代表电池储能单元。 0044 在本文中, 上面介绍的几种能量单元没有适当考虑EI系统的约束。 为了解决这些 限制, 考虑了以下几种惩罚函数: 0045 0046其中,被定义如下: 0047 0048是BES的累积惩罚函数。 如果其没有超出SOC范围, 则惩罚项记为0, 若其如果 违背了SOC的约束, 则将其计算为如下: 0049 0050 其中, 为。
18、加权因子。 0051 从这个意义上说, 当SOC一直处于正常的范围内, BES的惩罚项将保持为零。 一旦 SOC违反了这种约束, 惩罚将不断累积, 直到所有SOC都返回到适当的范围。 0052 同样, 外部电网和EI之间的电力交换, 惩罚函数考虑如下: 说明书 3/5 页 5 CN 112084680 A 5 0053 grid(t)Pgrid2(t)Pgrid(t)Pgrid(t)maxor Pgrid(t)Pgrid(t)min 0054 将以上所有罚函数按照不同的权重因子进行加权, 在t时刻, 其惩罚函数的计算公 式为: 0055 0056 其中, soc为soc(t)的权重因子, gr。
19、id为 grid(t)与外部电网交换能量的权重因 子。 0057 如上所述, 根据成本函数的表达式和惩罚函数的定义, 每个时间t的综合成本如 下: 0058 folwft+DGCDG+CHPCCHP+WPCWP+PVCPV+LOADCLOAD+BESCBES+socsoc(t)+ grid grid(t) 0059 其中, folw、 DG、 CHP、 WP、 PV、 LOAD、 BES分别为电能传输、 分布式发电机、 热 电联产、 风力发电、 光伏发电、 负载、 能量电池的权重因子。 0060 步骤2: 将能源互联网模型构建为MDP(马尔可夫决策过程), MDP是建立强化学习的 有效方法, 。
20、它描述了系统的当前状态不仅与现在的状态有关, 也与下一个状态有关。 设置迭 代次数i, 离散时间间隙t, 输入t时刻的状态变量, stWT(t), PV(t), DG(t) ,CHP(t) ,LOAD (t),BES(t), (t), (t), (t); 0061 步骤3: actor网络输出动作变量at; 0062 步骤4: 计算回报值r(at|st)到达下一状态St+1; 0063 步骤5: 得到序列轨迹S1,a1,r1,S1,S2,a2,r2,S2St,at,rt,St; 形成经验池 experience p; 并将这些轨迹存储到经验池中, 随机抽出数据进行下次迭代; 0064 步骤6:。
21、 观察是否迭代完所有变量, 即tT? 0065 步骤7: 将St状态变量输入到critic网络中, 得到输出期望V(s); 0066 步骤8: 由于环境的随机性, 如果智能体下次执行相同的操作时, 将永远无法确保 获得相同的奖励。 因此, 增加折扣因子, 随着过程的继续, 使收敛变得更加容易, 计算计及折 扣因子的未来回报值Rtr(at|st)+V(St+1)。 0067 其中, 是折扣因子, 其取值范围为0, 1。 特别地, 当等于0时, 表示系统仅依赖 当前时刻的奖励, 而与未来奖励没有联系。 如果环境是确定性的, 在每个时间段, 则行动所 产生的未来奖励是确定的, 没有随机情况, 并且可。
22、以是认为为1。 考虑当前奖励和未来奖 励, 则将其值设置为介于0和1之间的小数。 0068 步骤9: 构造损失函数AR(t)-V(S)2; 0069 步骤10: 利用神经网络反向传播更新网络参数; 0070 步骤11: 将St状态变量输入到参数为 的actor神经网络中, 利用 -greedy求出网 络采取at的动作概率P(St,at); 0071 步骤12: 同理, 计算参数为 a的actor网络采取at动作的概率P a(St,at); 0072 步骤13: 计算损失函数flossmin(AP,AP a); 说明书 4/5 页 6 CN 112084680 A 6 0073 步骤14: 由损。
23、失函数迭代更新神经网络参数; 0074 步骤15: 查看结果是否收敛到最小回报值, 若是, 则结束, 若不是, 则返回继续迭 代。 0075 如图2所示, 用本发明所述方法与其他方法计算速度对比, 本发明一种基于DQN算 法的能源互联网优化策略方法, 是在保证系统运营成本最小的前提下, 通过协调优化能源 互联网, 可以进一步挖掘可再生能源利用率, 进行网络优化配置, 使其具有快速动态优化的 目的以及自学习能力, 基于最优输出动作, 可以制定能源互联网优化策略, 尽可能的减少网 络的冗余度, 减小系统运营成本。 说明书 5/5 页 7 CN 112084680 A 7 图1 图2 说明书附图 1/2 页 8 CN 112084680 A 8 图3 说明书附图 2/2 页 9 CN 112084680 A 9 。
- 内容关键字: 基于 DQN 算法 能源 互联网 优化 策略 方法
防水接线结构.pdf
在线测量散状物料真密度的装置.pdf
适用于室内装修的工作架.pdf
套管施工辅助装置.pdf
防水开关.pdf
水循环增氧轮虫培养池.pdf
新型的包装袋.pdf
建筑涂料搅拌设备.pdf
薄膜生产用加热定型装置.pdf
电机转子线圈绕线机.pdf
激光器保护电路、激光器驱动电源和电子设备.pdf
养殖场通风管道生产用法兰冲孔机.pdf
分子筛吸附分离能力检测系统.pdf
寄存器、寄存器配置方法及芯片.pdf
信号质量检测方法及信号质量检测电路.pdf
基于自适应卷积核和级联检测头的土地覆盖变化检测方法.pdf
运梁炮车自动化调姿系统和方法.pdf
RPA流程操作异常检测方法、设备及存储设备.pdf
适用于PEEK材料的高温3D打印机高温舱结构.pdf
户用电池储能系统.pdf
空气质量预报评估方法、装置、存储介质及电子设备.pdf
基于环境嵌入的分布式光纤入侵预警方法及系统.pdf
显示模组拆解装置和显示模组拆解方法.pdf
安全检测方法、装置、终端设备及计算机可读存储介质.pdf
自清洁式铝合金门窗及清洁方法.pdf
基于pipeline流程的业务管理方法及装置.pdf
警力资源调度方法、装置、电子设备和计算机可读介质.pdf
离子氮化炉罩自动升降行走机构.pdf
蓝牙耳机及其存储收纳充电装置.pdf
X射线管.pdf
用于飞机蒙皮精密激光焊接工艺的快速冷却装置.pdf
生物资产监控方法、装置、设备及存储介质.pdf
利用数字图像存储和传输信息的方法和装置.pdf
食用菌菇自动生长培育装置.pdf
一种带有无线组网功能的光纤点式测温系统.pdf
两用眼镜.pdf
一种多功能水杯.pdf
具有身份证RFID读取的阅读装置及其应用方法.pdf
一种辣椒的栽培方法.pdf
测试高黏度重质原油静态稳定性的方法.pdf
一种实体结构混凝土取粉设备.pdf
一种基于混响室条件下的织物材料屏蔽效能测试方法.pdf
NDC测量系统的样品取样装置.pdf
自我侦测电荷分享模块.pdf
一种生产清洁汽油的方法.pdf
基于投影梯度的目标高度与反射面高度联合估计方法.pdf
小麦草的种植方法.pdf
聚合性液晶组合物、以及使用其的薄膜.pdf
作业资源调度方法.pdf
考虑三次电压谐波影响的避雷器绝缘性能检测方法.pdf
一种新型收纳盒.pdf
相关文档
更多![系统异常场景下的SOC诊断方法及系统.pdf](/Images/s.gif)
![新型房屋建筑墙体结构.pdf](/Images/s.gif)
![多糖改性水化硅铝酸钙纳米晶核悬浮液及其制备方法.pdf](/Images/s.gif)
![用于仿生机器人的并联腿结构及仿生机器人.pdf](/Images/s.gif)
![绳链组合传动装置.pdf](/Images/s.gif)
![焊接的检测方法和装置.pdf](/Images/s.gif)
![深度学习模型的加速方法及装置.pdf](/Images/s.gif)
![盘式电机协同面凸轮驱动伸缩式无摩擦球阀.pdf](/Images/s.gif)
![林下近野生药蔬复合种植方法.pdf](/Images/s.gif)
![磁悬浮轴承加工用成型设备.pdf](/Images/s.gif)
![碳纤维辐条的制作方法及碳纤维辐条.pdf](/Images/s.gif)
![镂空管件的加工工艺.pdf](/Images/s.gif)
![基于知识模糊学习的膜污染预警方法.pdf](/Images/s.gif)
![防窃电方法.pdf](/Images/s.gif)
![废旧物料压料装置.pdf](/Images/s.gif)
![龙门压力机.pdf](/Images/s.gif)
![LNG船可移动的绝缘箱自动起升装置.pdf](/Images/s.gif)
![铁皮石斛的育苗方法.pdf](/Images/s.gif)
![尾矿库调洪演算系统流程管理器.pdf](/Images/s.gif)
![无人售卖机定制信息方法、装置、存储介质和计算机设备.pdf](/Images/s.gif)