虚拟电厂资源配置方法、装置、设备及介质.pdf

上传人：奶盖文档编号：14525475 上传时间：2024-05-19 格式：PDF 页数：28 大小：2.03MB

收藏版权申诉举报下载

第1页 / 共28页

第2页 / 共28页

第3页 / 共28页

下载文档到电脑，查找使用更方便

30 金币

下载文档

文档描述：

《虚拟电厂资源配置方法、装置、设备及介质.pdf》由会员分享，可在线阅读，更多相关《虚拟电厂资源配置方法、装置、设备及介质.pdf（28页完成版）》请在专利查询网上搜索。

1、(19)国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202410015601.3(22)申请日 2024.01.05(71)申请人中建科工集团有限公司地址 518000 广东省深圳市南山区粤海街道蔚蓝海岸社区中心路3331号中建科工大厦38层3801(72)发明人张欣倪源李任戈屈蓉唐琛捷(74)专利代理机构深圳市精英专利事务所 44242专利代理师迟珊珊(51)Int.Cl.G06Q 10/0631(2023.01)G06Q 30/0201(2023.01)G06Q 50/06(2024.01)G06F 30/27(2020.01)G06N。

2、 5/04(2023.01)H02J 3/38(2006.01)H02J 3/28(2006.01)G06F 111/04(2020.01)G06F 113/04(2020.01)(54)发明名称虚拟电厂资源配置方法、装置、设备及介质(57)摘要本发明涉及人工智能技术领域，提供一种虚拟电厂资源配置方法、装置、设备及介质，一方面，本发明基于SAC算法及DDQN算法构建虚拟电厂的主从智能体深度决策模型，包括主体策略网络及从体Q评估网络，以基于主从协调对抗实现电热售价与用户效用间的动态平衡，使虚拟电厂资源配置更加合理、虚拟电厂系统更加稳定；另一方面，离线训练主从智能体深度决策模型，并在边缘节点部署主。

3、从智能体深度决策模型，这样，可以基于边缘计算方式利用主从智能体深度决策模型进行在线电热价决策及用电用热响应Q值预测，提高了预测的高效性，边缘节点部署的方式也提高了部署的灵活性，进而提高了虚拟电厂资源配置的适应性。权利要求书6页说明书18页附图3页CN 117522087 A2024.02.06CN 117522087 A1.一种虚拟电厂资源配置方法，其特征在于，所述虚拟电厂资源配置方法包括：以热电联产运营商为主体、电热用户聚合商为从体，并构建所述主体的主目标函数及主约束条件，以及构建所述从体的从目标函数及从约束条件，得到主从博弈模型；基于双层马尔科夫决策算法构建所述主从博弈模型对应的五元元。

4、组，基于SAC算法构建所述主体的网络，以及基于DDQN算法构建所述从体的网络，得到待训练模型；获取目标部署区域，并从所述目标部署区域采集数据生成训练样本；利用所述训练样本对所述待训练模型进行离线训练，得到虚拟电厂的主从智能体深度决策模型；其中，所述主从智能体深度决策模型包括主体策略网络及从体Q评估网络；基于所述目标部署区域确定主边缘节点及从边缘节点，并在所述主边缘节点部署所述主体策略网络，及在所述从边缘节点部署所述从体Q评估网络；基于所述主体策略网络在线生成电热价策略，并基于所述从体Q评估网络在线预测用户的用电用热响应Q值。2.如权利要求1所述的虚拟电厂资源配置方法，其特征在于，所述构建所述主。

5、体的主目标函数及主约束条件包括：计算电网交互成本、购气成本、设备运维成本、售电收益、售热收益；根据所述电网交互成本、所述购气成本、所述设备运维成本、所述售电收益、所述售热收益生成所述主目标函数；建立燃气轮机电热联产平衡、热功率平衡、电功率平衡、燃气轮机产电约束、从电网购电约束、余电上网约束、电价约束、热价约束；根据所述燃气轮机电热联产平衡、所述热功率平衡、所述电功率平衡、所述燃气轮机产电约束、所述从电网购电约束、所述余电上网约束、所述电价约束、所述热价约束生成所述主约束条件；其中，所述主目标函数maxE1表示如下：；其中，CE、CG、Cm、Ee和Eh分别表示所述电网交互成本、所述购气成本、所述。

6、设备运维成本、所述售电收益、所述售热收益；、和分别表示t时刻的电网分时电价、余电上权利要求书1/6 页2CN 117522087 A2网电价、天然气价格和单位电能维护成本；和分别表示所述热电联产运营商制定的t时刻售电价和t时刻售热价；、和分别表示t时刻的燃气轮机购电功率、余电功率、产电功率和购气量，和分别表示所述电热用户聚合商的净电负荷和净热负荷；T表示t时刻所属的周期；其中，所述主约束条件表示如下：；其中，表示产热功率；、分别表示燃气轮机的电转化效率和热转化效率；分别表示燃气轮机产电功率上限、从电网购电上限、余电上网上限；分别表示售热价下限及上限。3.如权利要求2所述的虚拟电厂资源配置方法，。

7、其特征在于，所述构建所述从体的从目标函数及从约束条件，得到主从博弈模型包括：计算与储能交互成本、用户电负荷效用函数、因热负荷削减造成舒适度下降的惩罚费用、设备运维成本、余电上网收益；根据所述售电收益、所述售热收益、所述与储能交互成本、所述用户电负荷效用函数、所述因热负荷削减造成舒适度下降的惩罚费用、所述设备运维成本、所述余电上网收益生成所述从目标函数；建立电功率平衡、净电负荷平衡、余电上网电功率平衡、热功率平衡、储能荷电状态平衡、储能荷电状态约束、储能首末能量平衡、充电功率约束、放电功率约束、充放电状态约束、电制热电热功率平衡、电制热热功率约束、光伏出力约束、余电上网约束；根据所述电功率平衡、。

8、所述净电负荷平衡、所述余电上网电功率平衡、所述热功率平衡、所述储能荷电状态平衡、所述储能荷电状态约束、所述储能首末能量平衡、所述充电功率约束、所述放电功率约束、所述充放电状态约束、所述电制热电热功率平衡、所述电制热热功率约束、所述光伏出力约束、所述余电上网约束生成所述从约束条件；权利要求书2/6 页3CN 117522087 A3其中，所述从目标函数maxE2表示如下：；其中，、和分别表示所述与储能交互成本、所述用户电负荷效用函数、所述因热负荷削减造成舒适度下降的惩罚费用、所述设备运维成本和所述余电上网收益；、分别表示t时刻共享储能租赁费服务费、充电电价、放电电价；a、b、c分别表示用户效用函。

9、数参数；、分别表示单位削减热能惩罚价格、单位电能运维成本；、分别表示从共享储能t时刻的充电功率、放电功率；、分别表示t时刻用户需求响应后的电负荷、所述电热用户聚合商的余电上网功率、电制热的输入电功率；表示热负荷削减量；权利要求书3/6 页4CN 117522087 A4其中，所述从约束条件表示如下：；其中，、和分别表示电制热装置的电转热效率、储能的充电效率和放电效率；分别表示储能充电状态及放电状态，为布尔变量；、和分别表示储能的容量、荷电状态、最大充放电功率和电制热装置的最大热功率；表示光伏出力预测值；、分别表示t时刻需求响应后的电负荷削减量、电负荷转移量和总电负荷；表示分布式光伏功率出力；表。

10、示总热负荷；表示电制热的输出热功率；表示时间变化量；表示最小荷电状态，表示最大荷电状态，表示0时刻荷电状态，表示T时刻荷电状态。4.如权利要求3所述的虚拟电厂资源配置方法，其特征在于，所述主从博弈模型为双层Stackelberg博弈模型结构，所述主从博弈模型表示如下：；权利要求书4/6 页5CN 117522087 A5其中，表示所述主从博弈模型，表示作为领导者的所述热电联产运营商，表示作为追随者的所述电热用户聚合商；、分别表示对应参与者的策略集；E1、E2分别表示模型中参与者的收益。5.如权利要求3所述的虚拟电厂资源配置方法，其特征在于，所述基于双层马尔科夫决策算法构建所述主从博弈模型对应的。

11、五元元组包括：构建状态空间、动作空间、状态转移函数、奖励函数、折扣因子作为元素，组成所述五元元组；其中，所述状态空间表示如下：；其中，表示所述主体的状态空间，表示所述从体的状态空间；其中，所述动作空间表示如下：；其中，au表示所述主体的动作空间，ad表示所述从体的动作空间；其中，通过所述状态转移函数，当对应的智能体执行任意动作后，环境状态根据所述状态转移函数从当前状态转移至下一状态；其中，所述奖励函数用于激励对应的智能体；其中，所述折扣因子为用于将未来奖励折算到当前时刻的折算系数。6.如权利要求2所述的虚拟电厂资源配置方法，其特征在于，所述利用所述训练样本对所述待训练模型进行离线训练，得到虚拟。

12、电厂的主从智能体深度决策模型包括：对于所述待训练模型中的SAC网络，初始化所述SAC网络对应的主网络参数及主经验回放池；冻结所述待训练模型中DDQN网络的参数变化，并对所述净电负荷、所述净热负荷进行参数传递以基于SAC算法训练所述SAC网络；在每轮训练过程中，收集当前时刻的第一当前环境状态，基于当前策略选择第一当前动作，并观察第一当前奖励；收集下一时刻的环境状态作为第一目标状态，并基于所述第一目标状态、所述第一当前环境状态、所述第一当前动作及所述第一当前奖励更新所述主经验回放池；从所述主经验回放池中随机抽取第一预设数量的数据训练所述SAC网络在当轮对应的网络；其中，在训练过程中，计算状态动作价。

13、值及状态价值函数取值，并结合贝尔曼方程更新所述当前策略及所述主网络参数；当检测到在指定周期内所有时间段的数据都参与完成训练时，停止训练，得到所述主体策略网络。7.如权利要求6所述的虚拟电厂资源配置方法，其特征在于，所述利用所述训练样本对所述待训练模型进行离线训练，得到虚拟电厂的主从智能体深度决策模型包括：对于所述待训练模型中的DDQN网络，初始化所述DDQN网络对应的从网络参数及从经验权利要求书5/6 页6CN 117522087 A6回放池；冻结所述SAC网络的参数变化，并对所述t时刻售电价、所述t时刻售热价进行参数传递以基于DDQN算法训练所述DDQN网络；在每轮训练过程中，收集当前时刻的。

14、第二当前环境状态，基于策略选择第二当前动作，并观察第二当前奖励；收集下一时刻的环境状态作为第二目标状态，并基于所述第二目标状态、所述第二当前环境状态、所述第二当前动作及所述第二当前奖励更新所述从经验回放池；从所述从经验回放池中随机抽取第二预设数量的数据训练所述DDQN网络在当轮对应的网络；其中，在训练过程中，计算训练中的网络的Q值及目标网络的Q值，以更新所述从网络参数；当检测到在所述指定周期内所有时间段的数据都参与完成训练时，停止训练，得到所述从体Q评估网络。8.一种虚拟电厂资源配置装置，其特征在于，所述虚拟电厂资源配置装置包括：构建单元，用于以热电联产运营商为主体、电热用户聚合商为从体，并构。

15、建所述主体的主目标函数及主约束条件，以及构建所述从体的从目标函数及从约束条件，得到主从博弈模型；所述构建单元，还用于基于双层马尔科夫决策算法构建所述主从博弈模型对应的五元元组，基于SAC算法构建所述主体的网络，以及基于DDQN算法构建所述从体的网络，得到待训练模型；生成单元，用于获取目标部署区域，并从所述目标部署区域采集数据生成训练样本；训练单元，用于利用所述训练样本对所述待训练模型进行离线训练，得到虚拟电厂的主从智能体深度决策模型；其中，所述主从智能体深度决策模型包括主体策略网络及从体Q评估网络；部署单元，用于基于所述目标部署区域确定主边缘节点及从边缘节点，并在所述主边缘节点部署所述主体策略。

16、网络，及在所述从边缘节点部署所述从体Q评估网络；预测单元，用于基于所述主体策略网络在线生成电热价策略，并基于所述从体Q评估网络在线预测用户的用电用热响应Q值。9.一种计算机设备，其特征在于，所述计算机设备包括：存储器，存储至少一个指令；及处理器，执行所述存储器中存储的指令以实现如权利要求1至7中任意一项所述的虚拟电厂资源配置方法。10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被计算机设备中的处理器执行以实现如权利要求1至7中任意一项所述的虚拟电厂资源配置方法。权利要求书6/6 页7CN 117522087 A7虚拟电厂资源配置方法、装置、。

17、设备及介质技术领域0001本发明涉及人工智能技术领域，尤其涉及一种虚拟电厂资源配置方法、装置、设备及介质。背景技术0002随着分布式能源规模化发展，虚拟电厂作为新型电力系统运营主体发挥着日益重要的作用，多个主体（如热电联产运营商、电力用户、共享储能运营商等）都参与到虚拟电厂的运营和交易中。0003当前的虚拟电厂能量管理主要采用传统的数学建模和优化方法。这类方法对复杂动态环境的适应性较差，且多以单一目标出发，难以实现不同主体目标的协调兼顾。此外，现有集中式调度方式也限制了虚拟电厂规模化发展与分布式特性的发挥。因此，如何在复杂的电力市场环境下实现虚拟电厂的稳定高效运行，是一个值得探索的问题。发明内。

18、容0004鉴于以上内容，有必要提供一种虚拟电厂资源配置方法、装置、设备及介质，旨在解决虚拟电厂资源配置不合理、不稳定、效率低，且适应性差的问题。0005一种虚拟电厂资源配置方法，所述虚拟电厂资源配置方法包括：以热电联产运营商为主体、电热用户聚合商为从体，并构建所述主体的主目标函数及主约束条件，以及构建所述从体的从目标函数及从约束条件，得到主从博弈模型；基于双层马尔科夫决策算法构建所述主从博弈模型对应的五元元组，基于SAC算法构建所述主体的网络，以及基于DDQN算法构建所述从体的网络，得到待训练模型；获取目标部署区域，并从所述目标部署区域采集数据生成训练样本；利用所述训练样本对所述待训练模型进行。

19、离线训练，得到虚拟电厂的主从智能体深度决策模型；其中，所述主从智能体深度决策模型包括主体策略网络及从体Q评估网络；基于所述目标部署区域确定主边缘节点及从边缘节点，并在所述主边缘节点部署所述主体策略网络，及在所述从边缘节点部署所述从体Q评估网络；基于所述主体策略网络在线生成电热价策略，并基于所述从体Q评估网络在线预测用户的用电用热响应Q值。0006根据本发明优选实施例，所述构建所述主体的主目标函数及主约束条件包括：计算电网交互成本、购气成本、设备运维成本、售电收益、售热收益；根据所述电网交互成本、所述购气成本、所述设备运维成本、所述售电收益、所述售热收益生成所述主目标函数；建立燃气轮机电热联产平。

20、衡、热功率平衡、电功率平衡、燃气轮机产电约束、从电网购电约束、余电上网约束、电价约束、热价约束；根据所述燃气轮机电热联产平衡、所述热功率平衡、所述电功率平衡、所述燃气轮机产电约束、所述从电网购电约束、所述余电上网约束、所述电价约束、所述热价约束生成说明书1/18 页8CN 117522087 A8所述主约束条件；其中，所述主目标函数maxE1表示如下：；其中，CE、CG、Cm、Ee和Eh分别表示所述电网交互成本、所述购气成本、所述设备运维成本、所述售电收益、所述售热收益；、和分别表示t时刻的电网分时电价、余电上网电价、天然气价格和单位电能维护成本；和分别表示所述热电联产运营商制定的t时刻售电价。

21、和t时刻售热价；、和分别表示t时刻的燃气轮机购电功率、余电功率、产电功率和购气量，和分别表示所述电热用户聚合商的净电负荷和净热负荷；T表示t时刻所属的周期；其中，所述主约束条件表示如下：；其中，表示产热功率；、分别表示燃气轮机的电转化效率和热转化效率；、分别表示燃气轮机产电功率上限、从电网购电上限、余电上网上限；分别表示售热价下限及上限。0007根据本发明优选实施例，所述构建所述从体的从目标函数及从约束条件，得到主从博弈模型包括：计算与储能交互成本、用户电负荷效用函数、因热负荷削减造成舒适度下降的惩罚费用、设备运维成本、余电上网收益；说明书2/18 页9CN 117522087 A9根据所述售。

22、电收益、所述售热收益、所述与储能交互成本、所述用户电负荷效用函数、所述因热负荷削减造成舒适度下降的惩罚费用、所述设备运维成本、所述余电上网收益生成所述从目标函数；建立电功率平衡、净电负荷平衡、余电上网电功率平衡、热功率平衡、储能荷电状态平衡、储能荷电状态约束、储能首末能量平衡、充电功率约束、放电功率约束、充放电状态约束、电制热电热功率平衡、电制热热功率约束、光伏出力约束、余电上网约束；根据所述电功率平衡、所述净电负荷平衡、所述余电上网电功率平衡、所述热功率平衡、所述储能荷电状态平衡、所述储能荷电状态约束、所述储能首末能量平衡、所述充电功率约束、所述放电功率约束、所述充放电状态约束、所述电制热电。

23、热功率平衡、所述电制热热功率约束、所述光伏出力约束、所述余电上网约束生成所述从约束条件；其中，所述从目标函数maxE2表示如下：；其中，、和分别表示所述与储能交互成本、所述用户电负荷效用函数、所述因热负荷削减造成舒适度下降的惩罚费用、所述设备运维成本和所述余电上网收益；、分别表示t时刻共享储能租赁费服务费、充电电价、放电电价；a、b、c分别表示用户效用函数参数；、分别表示单位削减热能惩罚价格、单位电能运维成本；、分别表示从共享储能t时刻的充电功率、放电功率；、分别表示t时刻用户需求响应后的电负荷、所述电热用户聚合商的余电上网功率、电制热的输入电功率；表示热负荷削减量；说明书3/18 页10CN。

24、 117522087 A10其中，所述从约束条件表示如下：；其中，、和分别表示电制热装置的电转热效率、储能的充电效率和放电效率；分别表示储能充电状态及放电状态，为布尔变量；、和分别表示储能的容量、荷电状态、最大充放电功率和电制热装置的最大热功率；表示光伏出力预测值；、分别表示t时刻需求响应后的电负荷削减量、电负荷转移量和总电负荷；表示分布式光伏功率出力；表示总热负荷；表示电制热的输出热功率；表示时间变化量；表示最小荷电状态，表示最大荷电状态，表示0时刻荷电状态，表示T时刻荷电状态。0008根据本发明优选实施例，所述主从博弈模型为双层Stackelberg博弈模型结构，所述主从博弈模型表示如下：。

25、;其中，表示所述主从博弈模型，表示作为领导者的所述热电联产运营商，表示作为追随者的所述电热用户聚合商；、分别表示对应参与者的策略集；E1、E2分别表示模型中参与者的收益。说明书4/18 页11CN 117522087 A110009根据本发明优选实施例，所述基于双层马尔科夫决策算法构建所述主从博弈模型对应的五元元组包括：构建状态空间、动作空间、状态转移函数、奖励函数、折扣因子作为元素，组成所述五元元组；其中，所述状态空间表示如下：；其中，表示所述主体的状态空间，表示所述从体的状态空间；其中，所述动作空间表示如下：；其中，au表示所述主体的动作空间，ad表示所述从体的动作空间；其中，通过所述状态。

26、转移函数，当对应的智能体执行任意动作后，环境状态根据所述状态转移函数从当前状态转移至下一状态；其中，所述奖励函数用于激励对应的智能体；其中，所述折扣因子为用于将未来奖励折算到当前时刻的折算系数。0010根据本发明优选实施例，所述利用所述训练样本对所述待训练模型进行离线训练，得到虚拟电厂的主从智能体深度决策模型包括：对于所述待训练模型中的SAC网络，初始化所述SAC网络对应的主网络参数及主经验回放池；冻结所述待训练模型中DDQN网络的参数变化，并对所述净电负荷、所述净热负荷进行参数传递以基于SAC算法训练所述SAC网络；在每轮训练过程中，收集当前时刻的第一当前环境状态，基于当前策略选择第一当前动。

27、作，并观察第一当前奖励；收集下一时刻的环境状态作为第一目标状态，并基于所述第一目标状态、所述第一当前环境状态、所述第一当前动作及所述第一当前奖励更新所述主经验回放池；从所述主经验回放池中随机抽取第一预设数量的数据训练所述SAC网络在当轮对应的网络；其中，在训练过程中，计算状态动作价值及状态价值函数取值，并结合贝尔曼方程更新所述当前策略及所述主网络参数；当检测到在指定周期内所有时间段的数据都参与完成训练时，停止训练，得到所述主体策略网络。0011根据本发明优选实施例，所述利用所述训练样本对所述待训练模型进行离线训练，得到虚拟电厂的主从智能体深度决策模型包括：对于所述待训练模型中的DDQN网络，初。

28、始化所述DDQN网络对应的从网络参数及从经验回放池；冻结所述SAC网络的参数变化，并对所述t时刻售电价、所述t时刻售热价进行参数传递以基于DDQN算法训练所述DDQN网络；在每轮训练过程中，收集当前时刻的第二当前环境状态，基于策略选择第说明书5/18 页12CN 117522087 A12二当前动作，并观察第二当前奖励；收集下一时刻的环境状态作为第二目标状态，并基于所述第二目标状态、所述第二当前环境状态、所述第二当前动作及所述第二当前奖励更新所述从经验回放池；从所述从经验回放池中随机抽取第二预设数量的数据训练所述DDQN网络在当轮对应的网络；其中，在训练过程中，计算训练中的网络的Q值及目标网络。

29、的Q值，以更新所述从网络参数；当检测到在所述指定周期内所有时间段的数据都参与完成训练时，停止训练，得到所述从体Q评估网络。0012一种虚拟电厂资源配置装置，所述虚拟电厂资源配置装置包括：构建单元，用于以热电联产运营商为主体、电热用户聚合商为从体，并构建所述主体的主目标函数及主约束条件，以及构建所述从体的从目标函数及从约束条件，得到主从博弈模型；所述构建单元，还用于基于双层马尔科夫决策算法构建所述主从博弈模型对应的五元元组，基于SAC算法构建所述主体的网络，以及基于DDQN算法构建所述从体的网络，得到待训练模型；生成单元，用于获取目标部署区域，并从所述目标部署区域采集数据生成训练样本；训练单元，。

30、用于利用所述训练样本对所述待训练模型进行离线训练，得到虚拟电厂的主从智能体深度决策模型；其中，所述主从智能体深度决策模型包括主体策略网络及从体Q评估网络；部署单元，用于基于所述目标部署区域确定主边缘节点及从边缘节点，并在所述主边缘节点部署所述主体策略网络，及在所述从边缘节点部署所述从体Q评估网络；预测单元，用于基于所述主体策略网络在线生成电热价策略，并基于所述从体Q评估网络在线预测用户的用电用热响应Q值。0013一种计算机设备，所述计算机设备包括：存储器，存储至少一个指令；及处理器，执行所述存储器中存储的指令以实现所述虚拟电厂资源配置方法。0014一种计算机可读存储介质，所述计算机可读存储介质。

31、中存储有至少一个指令，所述至少一个指令被计算机设备中的处理器执行以实现所述虚拟电厂资源配置方法。0015由以上技术方案可以看出，一方面，本发明基于SAC算法及DDQN算法构建虚拟电厂的主从智能体深度决策模型，包括主体策略网络及从体Q评估网络，以基于主从协调对抗实现电热售价与用户效用间的动态平衡，使虚拟电厂资源配置更加合理、虚拟电厂系统更加稳定；另一方面，离线训练主从智能体深度决策模型，并在边缘节点部署主从智能体深度决策模型，这样，可以基于边缘计算方式利用主从智能体深度决策模型进行在线电热价决策及用电用热响应Q值预测，提高了预测的高效性，边缘节点部署的方式也提高了部署的灵活性，进而提高了虚拟电厂。

32、资源配置的适应性。附图说明0016图1是本发明虚拟电厂资源配置方法的较佳实施例的流程图。说明书6/18 页13CN 117522087 A130017图2是本发明基于虚拟电厂资源配置方法的电热价策略优化结果示意图。0018图3是本发明基于虚拟电厂资源配置方法的用户的用电用热响应Q值对应的能量优化结果示意图。0019图4是本发明虚拟电厂资源配置方法在不同场景下的收益结果示意图。0020图5是本发明虚拟电厂资源配置装置的较佳实施例的功能模块图。0021图6是本发明实现虚拟电厂资源配置方法的较佳实施例的计算机设备的结构示意图。具体实施方式0022为了使本发明的目的、技术方案和优点更加清楚，下面结合附。

33、图和具体实施例对本发明进行详细描述。0023如图1所示，是本发明虚拟电厂资源配置方法的较佳实施例的流程图。根据不同的需求，该流程图中步骤的顺序可以改变，某些步骤可以省略。0024所述虚拟电厂资源配置方法应用于一个或者多个计算机设备中，所述计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(FieldProgrammable Gate Array，FPGA)、数字处理器(Digital Signal Processor。

34、，DSP)、嵌入式设备等。0025所述计算机设备可以是任何一种可与用户进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、个人数字助理（Personal Digital Assistant，PDA）、游戏机、交互式网络电视（Internet Protocol Television，IPTV）、智能式穿戴式设备等。0026所述计算机设备还可以包括网络设备和/或用户设备。其中，所述网络设备包括，但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络服务器构成的云。0027所述服务器可以是独立的服务器，也可以是提供云服务、云数据。

35、库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。0028其中，人工智能（Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。0029人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、。

36、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。0030所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络（Virtual Private Network，VPN）等。0031S10，以热电联产运营商为主体、电热用户聚合商为从体，并构建所述主体的主目标函数及主约束条件，以及构建所述从体的从目标函数及从约束条件，得到主从博弈模型。0032在本实施例中，虚拟电厂包括所述热电联产运营商、所述电热用户聚合商。说明书7/18 页14CN 117522087 A140033其中，所述热电联产运营商由燃气轮机组成，为用户供应电热能源。0034其中，。

37、所述电热用户聚合商主要由电负荷与热负荷组成，每个用户都装有光伏和电制热装置。0035具体地，所述热电联产运营商在次日电网分时电价日前制定合理的电热能源售价，所述电热用户聚合商针对所述热电联产运营商提供的电价、热价及提供储能服务的另一方提供的租赁费用，优化一天内电、热负荷分布，降低自身运行成本。0036当所述热电联产运营商的价格制定过高或过低时，所述电热用户聚合商将动态调整自身购电量与购热量；反之，所述热电联产运营商也会根据所述电热用户聚合商的购电量及购热量重新制定自身定价策略，直至寻找最优定价策略。显然，所述热电联产运营商与所述电热用户聚合商间存在利益冲突，且双方决策具有先后顺序，因此本实施例。

38、将根据所述热电联产运营商及所述电热用户聚合商构建主从博弈的双层模型。0037在本实施例中，所述构建所述主体的主目标函数及主约束条件包括：计算电网交互成本、购气成本、设备运维成本、售电收益、售热收益；根据所述电网交互成本、所述购气成本、所述设备运维成本、所述售电收益、所述售热收益生成所述主目标函数；建立燃气轮机电热联产平衡、热功率平衡、电功率平衡、燃气轮机产电约束、从电网购电约束、余电上网约束、电价约束、热价约束；根据所述燃气轮机电热联产平衡、所述热功率平衡、所述电功率平衡、所述燃气轮机产电约束、所述从电网购电约束、所述余电上网约束、所述电价约束、所述热价约束生成所述主约束条件；所述主目标函数m。

39、axE1表示如下：；其中，CE、CG、Cm、Ee和Eh分别表示所述电网交互成本、所述购气成本、所述设备运维成本、所述售电收益、所述售热收益；、和分别表示t时刻的电网分时电价、余电上网电价、天然气价格和单位电能维护成本；和分别表示所述热电联产运营商制定的t时刻售电价和t时刻售热价；、和分别表示t时刻的燃气轮机购电功率、余电功率、产电功率和购气量，和分别表示所述电热用户聚合商的净电负荷和净热负荷；T表示t时刻所属的周期；说明书8/18 页15CN 117522087 A15其中，所述主约束条件表示如下：；其中，表示产热功率；、分别表示燃气轮机的电转化效率和热转化效率；、分别表示燃气轮机产电功率上限。

40、、从电网购电上限、余电上网上限；分别表示售热价下限及上限。0038在本实施例中，所述构建所述从体的从目标函数及从约束条件，得到主从博弈模型包括：计算与储能交互成本、用户电负荷效用函数、因热负荷削减造成舒适度下降的惩罚费用、设备运维成本、余电上网收益；根据所述售电收益、所述售热收益、所述与储能交互成本、所述用户电负荷效用函数、所述因热负荷削减造成舒适度下降的惩罚费用、所述设备运维成本、所述余电上网收益生成所述从目标函数；建立电功率平衡、净电负荷平衡、余电上网电功率平衡、热功率平衡、储能荷电状态平衡、储能荷电状态约束、储能首末能量平衡、充电功率约束、放电功率约束、充放电状态约束、电制热电热功率平衡。

41、、电制热热功率约束、光伏出力约束、余电上网约束；根据所述电功率平衡、所述净电负荷平衡、所述余电上网电功率平衡、所述热功率平衡、所述储能荷电状态平衡、所述储能荷电状态约束、所述储能首末能量平衡、所述充电功率约束、所述放电功率约束、所述充放电状态约束、所述电制热电热功率平衡、所述电制热热功率约束、所述光伏出力约束、所述余电上网约束生成所述从约束条件；说明书9/18 页16CN 117522087 A16其中，所述从目标函数maxE2表示如下：；其中，、和分别表示所述与储能交互成本、所述用户电负荷效用函数、所述因热负荷削减造成舒适度下降的惩罚费用、所述设备运维成本和所述余电上网收益；、分别表示t时刻。

42、共享储能租赁费服务费、充电电价、放电电价；a、b、c分别表示用户效用函数参数；、分别表示单位削减热能惩罚价格、单位电能运维成本；、分别表示从共享储能t时刻的充电功率、放电功率；、分别表示t时刻用户需求响应后的电负荷、所述电热用户聚合商的余电上网功率、电制热的输入电功率；表示热负荷削减量；其中，所述从约束条件表示如下：；其中，、和分别表示电制热装置的电转热效率、储能的充电效率和放电效率；分别表示储能充电状态及放电状态，为布尔变量；、说明书10/18 页17CN 117522087 A17和分别表示储能的容量、荷电状态、最大充放电功率和电制热装置的最大热功率；表示光伏出力预测值；、分别表示t时刻需。

43、求响应后的电负荷削减量、电负荷转移量和总电负荷；表示分布式光伏功率出力；表示总热负荷；表示电制热的输出热功率；表示时间变化量；表示最小荷电状态，表示最大荷电状态，表示0时刻荷电状态，表示T时刻荷电状态。0039在本实施例中，所述主从博弈模型为双层Stackelberg博弈模型结构，所述主从博弈模型表示如下：；其中，表示所述主从博弈模型，表示作为领导者的所述热电联产运营商，表示作为追随者的所述电热用户聚合商；、分别表示对应参与者的策略集；E1、E2分别表示模型中参与者的收益。0040在上述实施例中，考虑到热电联产运营商与电热用户聚合商间能源交互的主从关系及热电联产运营商作为利益主体的主动趋利性，。

44、提出了一种基于多智能体的双层Stackelberg博弈电力交易模型，热电联产运营商作为领导者，电热用户聚合商作为追随者，上层以最大化热电联产运营商收益为目标制定电热售价，下层电热用户聚合商以最大化用户效用为目标充分调度区内资源，高效消纳可再生能源，进而实现经济效益、环境效益的双赢。0041S11，基于双层马尔科夫决策算法构建所述主从博弈模型对应的五元元组，基于SAC算法构建所述主体的网络，以及基于DDQN算法构建所述从体的网络，得到待训练模型。0042主从博弈的求解本质上是一个双层规划问题，上层为热电联产运营商最优日前电价策略求解问题，下层为最优日前电价策略下微电网最优经济调度求解问题。004。

45、3具体地，所述基于双层马尔科夫决策算法构建所述主从博弈模型对应的五元元组包括：构建状态空间、动作空间、状态转移函数、奖励函数、折扣因子作为元素，组成所述五元元组；其中，所述状态空间表示如下：；其中，表示所述主体的状态空间，表示所述从体的状态空间；说明书11/18 页18CN 117522087 A18其中，所述动作空间表示如下：；其中，au表示所述主体的动作空间，ad表示所述从体的动作空间；其中，通过所述状态转移函数，当对应的智能体执行任意动作后，环境状态根据所述状态转移函数从当前状态转移至下一状态；其中，所述奖励函数用于激励对应的智能体；其中，所述折扣因子为用于将未来奖励折算到当前时刻的折算。

46、系数。强化学习的目标是最大化整个决策周期内的总奖励，包含了当前时刻的即时奖励及未来时刻的奖励，折扣因子是将未来奖励折算到当前时刻的折算系数，表征了对即时奖励和未来奖励之间的权衡。0044S12，获取目标部署区域，并从所述目标部署区域采集数据生成训练样本。0045其中，所述目标部署区域可以包括需要进行虚拟电厂资源配置的区域。0046其中，采集的数据可以包括所述目标部署区域的符合数据、用户特征等与虚拟电厂资源配置相关联的数据。0047S13，利用所述训练样本对所述待训练模型进行离线训练，得到虚拟电厂的主从智能体深度决策模型；其中，所述主从智能体深度决策模型包括主体策略网络及从体Q评估网络。0048。

47、例如：可以采用云端服务器对所述待训练模型进行离线训练。0049其中，所述主体策略网络用于实现对电价及热价的策略优化。0050其中，所述从体Q评估网络用于实现对用户的用电用热响应Q值的估计。0051在本实施例中，所述利用所述训练样本对所述待训练模型进行离线训练，得到虚拟电厂的主从智能体深度决策模型包括：对于所述待训练模型中的SAC网络，初始化所述SAC网络对应的主网络参数及主经验回放池；冻结所述待训练模型中DDQN网络的参数变化，并对所述净电负荷、所述净热负荷进行参数传递以基于SAC算法训练所述SAC网络；在每轮训练过程中，收集当前时刻的第一当前环境状态，基于当前策略选择第一当前动作，并观察第一。

48、当前奖励；收集下一时刻的环境状态作为第一目标状态，并基于所述第一目标状态、所述第一当前环境状态、所述第一当前动作及所述第一当前奖励更新所述主经验回放池；从所述主经验回放池中随机抽取第一预设数量的数据训练所述SAC网络在当轮对应的网络；其中，在训练过程中，计算状态动作价值及状态价值函数取值，并结合贝尔曼方程更新所述当前策略及所述主网络参数；当检测到在指定周期内所有时间段的数据都参与完成训练时，停止训练，得到所述主体策略网络。0052在本实施例中，所述利用所述训练样本对所述待训练模型进行离线训练，得到虚拟电厂的主从智能体深度决策模型包括：对于所述待训练模型中的DDQN网络，初始化所述DDQN网络对。

49、应的从网络参数及从说明书12/18 页19CN 117522087 A19经验回放池；冻结所述SAC网络的参数变化，并对所述t时刻售电价、所述t时刻售热价进行参数传递以基于DDQN算法训练所述DDQN网络；在每轮训练过程中，收集当前时刻的第二当前环境状态，基于策略选择第二当前动作，并观察第二当前奖励；收集下一时刻的环境状态作为第二目标状态，并基于所述第二目标状态、所述第二当前环境状态、所述第二当前动作及所述第二当前奖励更新所述从经验回放池；从所述从经验回放池中随机抽取第二预设数量的数据训练所述DDQN网络在当轮对应的网络；其中，在训练过程中，计算训练中的网络的Q值及目标网络的Q值，以更新所述从。

50、网络参数；当检测到在所述指定周期内所有时间段的数据都参与完成训练时，停止训练，得到所述从体Q评估网络。0053S14，基于所述目标部署区域确定主边缘节点及从边缘节点，并在所述主边缘节点部署所述主体策略网络，及在所述从边缘节点部署所述从体Q评估网络。0054在上述实施例中，通过对所述主体策略网络及所述从体Q评估网络进行边缘部署，能够便于后续利用对应的模型进行在线边缘计算，就近计算的方式有效提高了运算效率。0055S15，基于所述主体策略网络在线生成电热价策略，并基于所述从体Q评估网络在线预测用户的用电用热响应Q值。0056例如：请参考图2，是本发明基于虚拟电厂资源配置方法的电热价策略优化结果示意。

展开阅读全文

内容关键字: 虚拟电厂资源配置方法装置设备介质