基于DQN算法的能源互联网优化策略方法.pdf

上传人：奻奴文档编号：10165589 上传时间：2021-06-09 格式：PDF 页数：9 大小：555.63KB

收藏版权申诉举报下载

第1页 / 共9页

第2页 / 共9页

第3页 / 共9页

下载文档到电脑，查找使用更方便

30 金币

下载文档

文档描述：

《基于DQN算法的能源互联网优化策略方法.pdf》由会员分享，可在线阅读，更多相关《基于DQN算法的能源互联网优化策略方法.pdf（9页完成版）》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202011181281.7 (22)申请日 2020.10.29 (66)本国优先权数据 202010910130.4 2020.09.02 CN (71)申请人沈阳工程学院地址 110136 辽宁省沈阳市沈北新区蒲昌路18号 (72)发明人尤福财赵琰董香栾姜河胡博王顺江罗金鸣马艳娟王浩旋璇庄严魏莫杋辛长庆 (74)专利代理机构沈阳之华益专利事务所有限公司 21218 代理人黄英华 (51)Int.Cl. G06F 30/20(2020.01) G06F 3。

2、0/27(2020.01) G06N 3/04(2006.01) G06Q 50/06(2012.01) H02J 3/00(2006.01) (54)发明名称一种基于DQN算法的能源互联网优化策略方法 (57)摘要一种能源互联网优化策略方法，所述能源互联网包括电网单元、气网单元和分布式冷热电系统嵌入式能量互联网单元，所述方法包括：在保证系统运营成本最小的前提下，通过协调优化能源互联网，可以进一步挖掘可再生能源利用率，进行网络优化配置，使其具有快速动态优化的目的以及自学习能力，基于最优输出动作，可以制定能源互联网优化策略，尽可能的减少网络的冗余度，减。

3、小系统运营成本。在设定的控制策略下，约束条件包括负载供需平衡约束、发电、输出功率平衡约束、储能元件充放电限制约束和与外电网交互耗能平衡约束，采用DQN算法，该方法使用马尔科夫决策来确定最佳序列，并结合卷积神经网络逐步获得回报值最小的目标集。权利要求书1页说明书5页附图2页 CN 112084680 A 2020.12.15 CN 112084680 A 1.一种基于DQN算法的能源互联网优化策略方法，其特征在于包括如下步骤：步骤1：以考虑惩罚函数的能源互联网运营成本最低为目标，建立目标函数；步骤2：将能源互联网模型构建为MDP，设置迭代次数i，离散。

4、时间间隙t，输入t时刻的状态变量， stWT(t)， PV(t)， DG(t),CHP(t),LOAD(t),BES(t), (t), (t), (t)；步骤3： actor网络输出动作变量at；步骤4：计算回报值r(at|st)到达下一状态St+1；步骤5：得到序列轨迹S1,a1,r1,S1,S2,a2,r2,S2St,at,rt,St；形成经验池 experience pool；并将这些轨迹存储到经验池中，随机抽出数据进行下次迭代；步骤6：观察是否迭代完所有变量，即tT？步骤7：将St状态变量输入到critic网络中，得到输出期望V(s)；步骤8：计算计。

5、及折扣因子的未来回报值Rtr(at|st)+V(St+1)；步骤9：构造损失函数AR(t)-V(S)2；步骤10：利用神经网络反向传播更新网络参数；步骤11：将St状态变量输入到参数为的actor神经网络中，利用 -greedy求出网络采取at的动作概率P(St,at)；步骤12：同理，计算参数为 a的actor网络采取at动作的概率P a(St,at)；步骤13：计算损失函数flossmin(AP,AP a)；步骤14：由损失函数迭代更新神经网络参数；步骤15：查看结果是否收敛到最小回报值，若是，则结束，若不是，则返回继续迭代。 2.根据权利要求1。

6、所述的一种基于DQN算法的能源互联网优化策略方法，其特征在于：设计应用actor-critic网络体系结构；其中，神经网络critic估计的价值函数V(s)，其参数为 c；两个参数分别为和 a的神经网络actor用来提出控制策略；其中actor-critic网络都是由卷积神经网络CNN构造而成， CNN用于提取EI网络观测序列的特征。权利要求书 1/1 页 2 CN 112084680 A 2 一种基于DQN算法的能源互联网优化策略方法技术领域 0001 本发明涉及一种基于能源互联网的优化策略方法，尤其是涉及一种基于DQN算法的能源互联网优化策略方法。背景技术 0。

7、002 目前，能源系统因发电困难，其预测准确度在很大程度上取决于外部环境条件。另一方面，能源互联网视为解决传统电力系统面临挑战的有效手段，但是当能源互联网中广泛的使用了分布式能源系统，则很难实现能源互联网中能量供需平衡的可靠性管理。 0003 值得注意的是，电力系统中的大多数优化问题都是基于各种电气设备的明确数学模型来解决的。例如，常微分方程用于表示光伏发电、风力发电的动态功率，而随机微分方程用于表示能源互联网中负载的动态功率。尽管随机微分方程可以反映能源互联网系统的随机特性，但很难获得其准确的数学模型。为了表示长时间能源互联网的能量优化问题，需建立带。

8、有复杂微分方程的数学模型，在某种程度上对其优化是非常受限制的。发明内容 0004 本发明的目的是提出一种基于DQN算法的能源互联网优化策略方法，是在保证系统运营成本最小的前提下，通过协调优化能源互联网，可以进一步挖掘可再生能源利用率，进行网络优化配置，使其具有快速动态优化的目的以及自学习能力，基于最优输出动作，可以制定能源互联网优化策略，尽可能的减少网络的冗余度，减小系统运营成本。 0005 为了解决现有技术存在的问题，本发明采用的技术方案如下： 0006 一种基于DQN算法的能源互联网优化策略方法，包括如下步骤： 0007 步骤1：以考虑惩罚函数的能源互联网运。

9、营成本最低为目标，建立目标函数； 0008 步骤2：将能源互联网模型构建为MDP(马尔可夫决策过程)，设置迭代次数i，离散时间间隙t。输入t时刻的状态变量， stWT(t)， PV(t)， DG(t) ,CHP(t) ,LOAD(t) ,BES(t) , (t), (t), (t)； 0009 步骤3： actor网络输出动作变量at； 0010 步骤4：计算回报值r(at|st)到达下一状态St+1； 0011 步骤5：得到序列轨迹S1,a1,r1,S1,S2,a2,r2,S2St,at,rt,St； 0012 步骤6：形成经验池experience pool。并将这些轨。

10、迹存储到经验池中，随机抽出数据进行下次迭代； 0013 步骤7：观察是否迭代完所有变量，即tT？ 0014 步骤8：将St状态变量输入到critic网络中，得到输出期望V(s)； 0015 步骤9：构造函数AR(t)-V(S)2； 0016 步骤10：利用神经网络反向传播更新网络参数； 0017 步骤11：将St状态变量输入到参数为的actor神经网络中，利用 -greedy求出网络采取at的动作概率P(St,at)；说明书 1/5 页 3 CN 112084680 A 3 0018 步骤12：同理，计算参数为 a的actor网络采取动作的概率P a(St,at)。

11、； 0019 步骤13：计算损失函数flossmin(AP,AP a)； 0020 步骤14：由损失函数迭代更新神经网络参数； 0021 步骤15：查看结果是否收敛到最小回报值，若是，则结束，若不是，则返回继续迭代。 0022 进一步地，在DQN算法中，设计应用actor-critic网络体系结构。其中，神经网络 critic估计的价值函数V(s)，其参数为 c；两个参数分别为和 a的神经网络actor用来提出控制策略。其中actor-critic网络都是由CNN(卷积神经网络)构造而成， CNN用于提取EI网络观测序列的特征。 0023 本发明所具有的优点。

12、和有益效果是： 0024 本发明一种基于DQN算法的能源互联网优化策略方法，是在保证系统运营成本最小的前提下，通过协调优化能源互联网，可以进一步挖掘可再生能源利用率，进行网络优化配置，使其具有快速动态优化的目的以及自学习能力，基于最优输出动作，可以制定能源互联网优化策略，尽可能的减少网络的冗余度，减小系统运营成本。在设定的控制策略下，约束条件包括负载供需平衡约束、发电、输出功率平衡约束、储能元件充放电限制约束和与外电网交互耗能平衡约束，采用DQN算法，该方法使用马尔科夫决策来确定最佳序列，并结合卷积神经网络逐步获得回报值最小的目标集。附图说明 0。

13、025 下面结合附图对本发明作进一步详述： 0026 图1为DQN算法与能源互联网结合图； 0027 图2为各类算法计算速度对比图； 0028 图3为一种基于DQN算法的能源互联网优化策略方法流程图。具体实施方式 0029 为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。 0030 本发明一种基于DQN算法的能源互联网优化策略方法，考虑了广义能源互联网场景，由多个子系统相互连接。每个系统均假定为由许多电气设备组成，包括PV(光伏发电机)， WT(风力发。

14、电机)， DG(分布式发电价)， CHP(热电联产)， BES(能源电池)， LOAD(负载)、 (t)(用户的电需求)、 (t)(用户的热需求)及 (t)(外网电价)等。根据能源互联网的能源优化管理原则，将能源互联网最小运营成本定义为目标函数。在此基础上，再制定一系列惩罚函数。接下来，应用DQN算法，将能源管理问题转化为最优成本策略问题。 0031 在DQN算法中，设计应用actor-critic网络体系结构。其中，神经网络critic估计的价值函数V(s)，其参数为 c；两个参数分别为和 a的神经网络actor用来提出控制策略。其中actor-critic。

15、网络都是由CNN(卷积神经网络)构造而成， CNN用于提取EI网络观测序列的特征。从这个意义上说， actor神经网络可以在一定时间范围内根据经验情况调整其输出，这将有助于改善算法的性能。 DQN算法与能源互联网结合图如附图1所示。说明书 2/5 页 4 CN 112084680 A 4 0032 如图3所示，本发明一种基于DQN算法的能源互联网优化策略方法，所述能源互联网包括电网单元、气网单元和分布式冷热电系统嵌入式能量互联网单元，包括如下步骤： 0033 步骤1：以考虑惩罚函数的能源互联网运营成本最低为目标，建立目标函数； 0034 其中包括：电能传输成本 003。

16、5 0036 其中， Pi为各发电机输出功率。 0037 能源互联网中各系统运行成本： 0038 0039 其中， CCHP(t)代表热电联产的运行成本， PCHP(t)代表热电联产输出的电能， HCHP(t) 代表热电联产输出的热能， CWP(t)代表风力发电机的运行成本， PWP(t)代表力发电机的输出功率， CPV(t)代表光伏发电机的运行成本， PPV(t)代表光伏发电机的发电成本， CDG(t)代表分布式发电机的运行成本， PDG(t)代表分布式发电机输出的电能， CLOAD(t)代表负载的运行成本， PLOAD(t)代表负载输出的电能。 0040 其中， a、 b、 c、 d。

17、、 e、 f、 g、 h、 k、 l、 m、 n、 o、 q为常数成本因子，分别代表着各系统各项运行成本和发电功率的系数。 0041 储能系统充放电成本： 0042 0043 其中， CBES(t)代表储能系统的充、放电成本， SOCi(t)代表电池储能单元。 0044 在本文中，上面介绍的几种能量单元没有适当考虑EI系统的约束。为了解决这些限制，考虑了以下几种惩罚函数： 0045 0046其中，被定义如下： 0047 0048是BES的累积惩罚函数。如果其没有超出SOC范围，则惩罚项记为0，若其如果违背了SOC的约束，则将其计算为如下： 0049 0050 其中，为。

18、加权因子。 0051 从这个意义上说，当SOC一直处于正常的范围内， BES的惩罚项将保持为零。一旦 SOC违反了这种约束，惩罚将不断累积，直到所有SOC都返回到适当的范围。 0052 同样，外部电网和EI之间的电力交换，惩罚函数考虑如下：说明书 3/5 页 5 CN 112084680 A 5 0053 grid(t)Pgrid2(t)Pgrid(t)Pgrid(t)maxor Pgrid(t)Pgrid(t)min 0054 将以上所有罚函数按照不同的权重因子进行加权，在t时刻，其惩罚函数的计算公式为： 0055 0056 其中， soc为soc(t)的权重因子， gr。

19、id为 grid(t)与外部电网交换能量的权重因子。 0057 如上所述，根据成本函数的表达式和惩罚函数的定义，每个时间t的综合成本如下： 0058 folwft+DGCDG+CHPCCHP+WPCWP+PVCPV+LOADCLOAD+BESCBES+socsoc(t)+ grid grid(t) 0059 其中， folw、 DG、 CHP、 WP、 PV、 LOAD、 BES分别为电能传输、分布式发电机、热电联产、风力发电、光伏发电、负载、能量电池的权重因子。 0060 步骤2：将能源互联网模型构建为MDP(马尔可夫决策过程)， MDP是建立强化学习的有效方法，。

20、它描述了系统的当前状态不仅与现在的状态有关，也与下一个状态有关。设置迭代次数i，离散时间间隙t，输入t时刻的状态变量， stWT(t)， PV(t)， DG(t) ,CHP(t) ,LOAD (t),BES(t), (t), (t), (t)； 0061 步骤3： actor网络输出动作变量at； 0062 步骤4：计算回报值r(at|st)到达下一状态St+1； 0063 步骤5：得到序列轨迹S1,a1,r1,S1,S2,a2,r2,S2St,at,rt,St；形成经验池 experience p；并将这些轨迹存储到经验池中，随机抽出数据进行下次迭代； 0064 步骤6：。

21、观察是否迭代完所有变量，即tT？ 0065 步骤7：将St状态变量输入到critic网络中，得到输出期望V(s)； 0066 步骤8：由于环境的随机性，如果智能体下次执行相同的操作时，将永远无法确保获得相同的奖励。因此，增加折扣因子，随着过程的继续，使收敛变得更加容易，计算计及折扣因子的未来回报值Rtr(at|st)+V(St+1)。 0067 其中，是折扣因子，其取值范围为0， 1。特别地，当等于0时，表示系统仅依赖当前时刻的奖励，而与未来奖励没有联系。如果环境是确定性的，在每个时间段，则行动所产生的未来奖励是确定的，没有随机情况，并且可。

22、以是认为为1。考虑当前奖励和未来奖励，则将其值设置为介于0和1之间的小数。 0068 步骤9：构造损失函数AR(t)-V(S)2； 0069 步骤10：利用神经网络反向传播更新网络参数； 0070 步骤11：将St状态变量输入到参数为的actor神经网络中，利用 -greedy求出网络采取at的动作概率P(St,at)； 0071 步骤12：同理，计算参数为 a的actor网络采取at动作的概率P a(St,at)； 0072 步骤13：计算损失函数flossmin(AP,AP a)；说明书 4/5 页 6 CN 112084680 A 6 0073 步骤14：由损。

23、失函数迭代更新神经网络参数； 0074 步骤15：查看结果是否收敛到最小回报值，若是，则结束，若不是，则返回继续迭代。 0075 如图2所示，用本发明所述方法与其他方法计算速度对比，本发明一种基于DQN算法的能源互联网优化策略方法，是在保证系统运营成本最小的前提下，通过协调优化能源互联网，可以进一步挖掘可再生能源利用率，进行网络优化配置，使其具有快速动态优化的目的以及自学习能力，基于最优输出动作，可以制定能源互联网优化策略，尽可能的减少网络的冗余度，减小系统运营成本。说明书 5/5 页 7 CN 112084680 A 7 图1 图2 说明书附图 1/2 页 8 CN 112084680 A 8 图3 说明书附图 2/2 页 9 CN 112084680 A 9 。

展开阅读全文

内容关键字: 基于 DQN 算法能源互联网优化策略方法