云-雾弹性光网络中的深度强化学习流量疏导方法.pdf

上传人:v**** 文档编号:9318636 上传时间:2021-05-13 格式:PDF 页数:11 大小:693.31KB
收藏 版权申诉 举报 下载
云-雾弹性光网络中的深度强化学习流量疏导方法.pdf_第1页
第1页 / 共11页
云-雾弹性光网络中的深度强化学习流量疏导方法.pdf_第2页
第2页 / 共11页
云-雾弹性光网络中的深度强化学习流量疏导方法.pdf_第3页
第3页 / 共11页
文档描述:

《云-雾弹性光网络中的深度强化学习流量疏导方法.pdf》由会员分享,可在线阅读,更多相关《云-雾弹性光网络中的深度强化学习流量疏导方法.pdf(11页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010016994.1 (22)申请日 2020.01.08 (71)申请人 郑州大学 地址 450001 河南省郑州市高新区科学大 道100号 (72)发明人 朱睿杰李世华李亚飞吕培 徐明亮 (74)专利代理机构 郑州优盾知识产权代理有限 公司 41125 代理人 栗改 (51)Int.Cl. H04Q 11/00(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种云-雾弹性光网络中的深度强化学习流 量疏导。

2、方法 (57)摘要 本发明提出了一种云-雾弹性光网络中的深 度强化学习流量疏导方法, 其步骤为: 通过最短 路径算法计算业务请求最短路径; 将业务路径和 按波长切片的网络拓扑转换为图片的形式; 用卷 积神经网络提取所有图片的特征, 用softmax分 类器进行分类, 将业务请求分配到相应的波长; 如果分配到的波长有可用资源, 业务请求成功分 配, 否则根据首次适应方法遍历所有的波长对业 务请求进行分配; 利用强化学习算法进行评价, 更新拓扑的网络状态, 生成下一个业务请求的最 短路径拓扑图; 每当至少三个业务请求分配完成 后, 更新卷积神经网络。 本发明通过强化学习不 断地更新网络, 使所有业。

3、务能够充分利用网络中 的端口、 收发器和放大器, 从而降低网络的总能 耗。 权利要求书2页 说明书6页 附图2页 CN 111246320 A 2020.06.05 CN 111246320 A 1.一种云-雾弹性光网络中的深度强化学习流量疏导方法, 其特征在于, 其步骤如下: 步骤一: 对于一个业务请求r(s,d,t), 通过最短路径算法计算业务请求r的最短路 径; 将业务请求r的业务路径和按波长切片的网络拓扑转换为图片的形式; 其中, s和d分别 代表源节点和目的节点, t代表业务请求r的带宽需求; 步骤二: 用卷积神经网络提取步骤一中所有图片的特征, 并用softmax分类器进行分 类,。

4、 根据分类结果将业务请求分配到相应的波长; 步骤三: 如果分配到的波长有可用资源, 那么该业务请求成功分配, 如果没有可用资 源, 根据首次适应方法遍历所有的波长对业务请求r进行分配, 根据减少的能耗得到一个奖 励值; 步骤四: 每一个业务请求分配完成后, 利用强化学习算法对步骤三进行评价, 生成一个 value值, 并更新拓扑的网络状态, 生成下一个业务请求的最短路径拓扑图; 步骤五: 重复步骤一-步骤四, 每当至少三个业务请求分配完成后, 根据网络状态、 动 作、 奖励值和value值来更新卷积神经网络。 2.根据权利要求1所述的云-雾弹性光网络中的深度强化学习流量疏导方法, 其特征在 于。

5、, 所述步骤一中从源节点s到目的节点d的每条链路的带宽资源按照波长分为5部分, 当业 务请求来临时, 选择分配到任一波长, 只改变当前波长的状态, 即把该业务请求分配到当前 的波长, 改变相应位置的端口、 收发器、 放大器和带宽占用的情况。 3.根据权利要求2所述的云-雾弹性光网络中的深度强化学习流量疏导方法, 其特征在 于, 所述业务路径和按波长切片的网络拓扑转换为图片的形式的方法是: 根据节点位置和 链路的连通情况画出节点和链路, 根据端口、 收发器和放大器的占用情况用不同颜色和大 小的点分别画出; 按波长切片的网络拓扑的其中一个波长的图片为: 首先根据给定的网络 节点的坐标, 用黑色的实。

6、心圆点画出节点; 然后根据给定的链路的连通情况和当前波长的 网络拓扑中所有链路上带宽的占用情况用不同的颜色画出链路; 最后用较小的圆点表示端 口和收发器, 用较大的圆点表示放大器, 同样地根据不同的占用情况用不同的颜色画出; 业 务路径的拓扑图用相同的方法画出。 4.根据权利要求1或3所述的云-雾弹性光网络中的深度强化学习流量疏导方法, 其特 征在于, 所述步骤二中卷积神经网络采用的是轻量型卷积神经网络MobilenetV3, 轻量型卷 积神经网络MobilenetV3把标准的卷积层分解为深度卷积和点卷积的形式: 第一层卷积层 的卷积核为3、 步长为2、 填充为1; 第二层是15层的输入输出通。

7、道、 卷积核、 步长都已经确定 的block层; 第三层的卷积核为1、 步长为1; 第四层是卷积核为7的平均池化层; 经过两层1 1的卷积层降维。 5.根据权利要求4所述的云-雾弹性光网络中的深度强化学习流量疏导方法, 其特征在 于, 将轻量型卷积神经网络MobilenetV3提取到的特征输入softmax分类器得到动作的概率 分布, 概率分布越高, 选择动作对应的波长的几率就越大。 6.根据权利要求4所述的云-雾弹性光网络中的深度强化学习流量疏导方法, 其特征在 于, 所述轻量型卷积神经网络MobilentV3的激活函数为:其中, x 表示激活函数层的输入, ReLU()是常用的激活函数; 。

8、且轻量型卷积神经网络MobilentV3的 最后一层没有激活函数。 权利要求书 1/2 页 2 CN 111246320 A 2 7.根据权利要求1、 4或5中任意一项所述的云-雾弹性光网络中的深度强化学习流量疏 导方法, 其特征在于, 所述步骤三中可用资源为在该波长的网络拓扑中, 当前业务请求对应 位置的端口、 收发器、 放大器和带宽有空闲资源; 所述首次适应方法按照波长的编号遍历所 有的波长, 寻找第一个有可用资源的波长进行分配; 根据所分配到的波长对网络能耗造成 的影响计算得到一个奖励值。 8.根据权利要求7所述的云-雾弹性光网络中的深度强化学习流量疏导方法, 其特征在 于, 所述步骤四。

9、中强化学习算法采用的是Actor-Critic算法, Actor-Critic算法包括Actor 网络和Critic网络, Actor网络和Critic网络共用一个神经网络, Actor网络负责把业务疏 导到正确的部分, Critic网络用来评判动作的质量, 得到value值; 所述拓扑的网络状态表 示的是轻量型卷积神经网络MobilenetV3提取的网络特征, 动作表示的是选择的波长, 奖励 值对应每一个业务疏导的结果, 业务进入拓扑网络后占用的资源越少, 奖励值越大。 9.根据权利要求8所述的云-雾弹性光网络中的深度强化学习流量疏导方法, 其特征在 于, 所述步骤四中根据业务请求的分配情况。

10、更新拓扑的网络状态, 即对改变的波长重新画 图, 其它波长的拓扑图保持不变, 并用步骤一的方法画出下一个业务请求的拓扑图。 10.根据权利要求1、 8或9中任意一项所述的云-雾弹性光网络中的深度强化学习流量 疏导方法, 其特征在于, 所述步骤五中更新卷积神经网络的方法为: 通过计算出总的损失更 新卷积神经网络: ltlvcv+la+ece, 其中, Ri表示总奖励值, V(s, )表示值函数, s表示网络状态, 表示网络参数, lv是总奖 励值和值函数的均方误差, la是策略函数和总奖励值与值函数的差的交叉熵; e为熵、 评价 动作的可能性差异; lt表示总损失, cv和ce分别表示值损失和熵。

11、的系数; 通过梯度下降法更新网络参数 。 权利要求书 2/2 页 3 CN 111246320 A 3 一种云-雾弹性光网络中的深度强化学习流量疏导方法 技术领域 0001 本发明涉及弹性光网络和云-雾通信的技术领域, 尤其涉及一种云-雾弹性光网络 中的深度强化学习流量疏导方法, 当弹性光网络作为雾节点和云数据中心的通信设施时, 使用深度强化学习进行业务疏导。 背景技术 0002 云计算把所有的数据集运输到同一个中心进行分析、 存储和处理, 擅长提供各种 服务, 但是随着全球物联网设备的爆炸式增长, 这些设备产生的海量数据不适合全部通过 云计算进行处理, 同时冗余的传输过程会造成延迟过高, 给。

12、当前的通信网带来了巨大的挑 战。 为了满足物联网大量低延迟计算的需求, 弥补传统云计算的不足, 雾计算应运而生, 它 的模式是设置众多的 “雾节点” , 将数据、 数据处理和应用程序集中在网络边缘的设备中, 这 样能够让运算处理速度更快, 更高效得出运算结果, 所以雾计算成为处理数据的最佳候选, 其优点是低延迟、 高安全性、 较好的用户体验和较高的功耗效率。 0003 弹性光网络(Elastic Optical Network,EON)是一种很有前途的用于雾节点和云 数据中心之间通信的网络基础设施, 将底层物理网络中的资源抽象到云-雾计算的资源池 中, 在对虚拟网络进行资源分配和管理, 能够提。

13、供灵活、 高效的服务。 为了充分利用这种灵 活性, 同时使底层物理资源得到充分利用, 流量疏导方法应运而生, 它可以通过现有的光路 灵活地将多个细粒度的IP流量汇聚到光层中, 根据业务请求带宽灵活地分配频谱。 特别是 随着可切片光应答器、 可切片光放大器等基片器件的发展, 流量疏导可以实现更高的功耗 效率。 0004 流量疏导将不同的带宽请求引导到相同的波长, 以节省资源和能源。 总能耗主要 由三部分组成: IP端口、 收发器和放大器, 首先对这三部分的能耗进行建模: 0005 IP端口: 认为400Gbps的基础能耗为560W, 总的端口能耗用EIPT(W)表示。 0006 光收发器: 能耗。

14、取决于业务请求的线速度, 对于每一个线速率单位, 能耗为1.683W (参数 1.683W/Gbps), 计算公式如下: 0007 0008 0009其中, TR表示传输速率, NOPT是光收发器的数量,表示第i个收发器的能耗, EOPT 表示收发器的总能耗。 在本发明中考虑了线速率为40Gbps和100Gbps。 0010 光放大器: 每个光放大器的基础能耗 100W, 额外的能耗取决于业务请求的线速 度。 对于40Gbps和100Gbps, 额外的能耗分别为25W和50W。 光放大器的能耗计算公式如下所 示: 0011 说明书 1/6 页 4 CN 111246320 A 4 0012 0。

15、013其中, 是额外的能源消耗, NOPR是光放大器的数量。是第i个放大器的能耗, EOPR表示放大器的总能耗。 0014 因此, 总的能耗计算公式为: ETG(W)EIPT(W)+EOPT(W)+EOPR(W) (5)。 0015 现有的研究中只应用固定的流量疏导策略或依赖于手动提取特征的简单策略, 无 法实现真正的自适应流量疏导策略。 同时, 深度强化学习(Deep Reinforcement Learning, DRL)在解决大规模任务时的有效性也得到了验证。 发明内容 0016 针对现有物联网中海量数据通过云计算处理延迟较高, 弹性光网络能耗较大的技 术问题, 本发明提出一种云-雾弹性。

16、光网络中的深度强化学习流量疏导方法, 采用卷积神经 网络(Convolutional Neural Network, CNN)自动获取特征, 通过强化学习与环境进行交 互, 并对流量疏导进行评分以优化其过程。 0017 为了达到上述目的, 本发明的技术方案是这样实现的: 一种云-雾弹性光网络中的 深度强化学习流量疏导方法, 其步骤如下: 0018 步骤一: 对于一个业务请求r(s,d,t), 通过最短路径算法计算业务请求r的最短 路径; 将业务请求r的业务路径和按波长切片的网络拓扑转换为图片的形式; 其中, s和d分 别代表源节点和目的节点, t代表业务请求r的带宽需求; 0019 步骤二: 。

17、用卷积神经网络提取步骤一中所有图片的特征, 并用softmax分类器进行 分类, 根据分类结果将业务请求分配到相应的波长; 0020 步骤三: 如果分配到的波长有可用资源, 那么该业务请求成功分配, 如果没有可用 资源, 根据首次适应方法遍历所有的波长对业务请求r进行分配, 根据减少的能耗得到一个 奖励值; 0021 步骤四: 每一个业务请求分配完成后, 利用强化学习算法对步骤三进行评价, 生成 一个value值, 并更新拓扑的网络状态, 生成下一个业务请求的最短路径拓扑图; 0022 步骤五: 重复步骤一-步骤四, 每当至少三个业务请求分配完成后, 根据网络状态、 动作、 奖励值和value。

18、值来更新卷积神经网络。 0023 所述步骤一中从源节点s到目的节点d的每条链路的带宽资源按照波长分为5部 分, 当业务请求来临时, 选择分配到任一波长, 只改变当前波长的状态, 即把该业务请求分 配到当前的波长, 改变相应位置的端口、 收发器、 放大器和带宽占用的情况。 0024 所述业务路径和按波长切片的网络拓扑转换为图片的形式的方法是: 根据节点位 置和链路的连通情况画出节点和链路, 根据端口、 收发器和放大器的占用情况用不同颜色 和大小的点分别画出; 按波长切片的网络拓扑的其中一个波长的图片为: 首先根据给定的 网络节点的坐标, 用黑色的实心圆点画出节点; 然后根据给定的链路的连通情况和。

19、当前波 长的网络拓扑中所有链路上带宽的占用情况用不同的颜色画出链路; 最后用较小的圆点表 示端口和收发器, 用较大的圆点表示放大器, 同样地根据不同的占用情况用不同的颜色画 出; 业务路径的拓扑图用相同的方法画出。 0025 所述步骤二中卷积神经网络采用的是轻量型卷积神经网络MobilenetV3, 轻量型 说明书 2/6 页 5 CN 111246320 A 5 卷积神经网络MobilenetV3把标准的卷积层分解为深度卷积和点卷积的形式: 第一层卷积 层的卷积核为3、 步长为2、 填充为1; 第二层是15层的输入输出通道、 卷积核、 步长都已经确 定的block层; 第三层的卷积核为1、 。

20、步长为1; 第四层是卷积核为7的平均池化层; 经过两层1 1的卷积层降维。 0026 将轻量型卷积神经网络MobilenetV3提取到的特征输入softmax分类器得到动作 的概率分布, 概率分布越高, 选择动作对应的波长的几率就越大。 0027所述轻量型卷积神经网络MobilentV3的激活函数为: 其中, x表示激活函数层的输入, ReLU( )是常用的激活函数; 且轻量型卷积神经网络 MobilentV3的最后一层没有激活函数。 0028 所述步骤三中可用资源为在该波长的网络拓扑中, 当前业务请求对应位置的端 口、 收发器、 放大器和带宽有空闲资源; 所述首次适应方法按照波长的编号遍历所。

21、有的波 长, 寻找第一个有可用资源的波长进行分配; 根据所分配到的波长对网络能耗造成的影响 计算得到一个奖励值。 0029 所述步骤四中强化学习算法采用的是Actor-Critic算法, Actor-Critic算法包括 Actor网络和Critic网络, Actor网络和Critic网络共用一个神经网络, Actor网络负责把业 务疏导到正确的部分, Critic网络用来评判动作的质量, 得到value值; 所述拓扑的网络状 态表示的是轻量型卷积神经网络MobilenetV3提取的网络特征, 动作表示的是选择的波长, 奖励值对应每一个业务疏导的结果, 业务进入拓扑网络后占用的资源越少, 奖励。

22、值越大。 0030 所述步骤四中根据业务请求的分配情况更新拓扑的网络状态, 即对改变的波长重 新画图, 其它波长的拓扑图保持不变, 并用步骤一的方法画出下一个业务请求的拓扑图。 0031 所述步骤五中更新卷积神经网络的方法为: 通过计算出总的损失更新卷积神经网 络: 0032 0033 0034 ltlvCv+la+ece, 0035 其中, Ri表示总奖励值, V(s, )表示值函数, s表示网络状态, 表示网络参数, lv是 总奖励值和值函数的均方误差, la是策略函数和总奖励值与值函数的差的交叉熵; e为熵、 评价动作的可能性差异; lt表示总损失, cv和ce分别表示值损失和熵的系数;。

23、 0036 通过梯度下降法更新网络参数 。 0037 本发明的有益效果: 对于一个静态的点到点业务请求, 将业务和按波长切割后的 网络拓扑转换为图片的形式; 通过提取图片的特征把业务分配到某一波长, 如果该波长上 有可用资源, 那么成功分配, 如果无可用资源, 则遍历所有波长直到能够成功分配该业务; 每一次成功分配, 根据降低的能耗的多少都可以得到一个奖励值, 通过强化学习不断地更 新网络; 本发明把每一个业务和网络的每一个波长转换成图片, 用不同的大小、 形状和颜色 表示不同位置端口、 收发器和放大器的占用情况, 用不同颜色的线代表链路带宽的占用情 况, 采用卷积神经网络自动提取网络拓扑的有。

24、效特征; 为了使流量疏导更加智能化, 本发明 采用强化学习的方法将所有的业务成功分配并使总体能耗较少。 说明书 3/6 页 6 CN 111246320 A 6 附图说明 0038 为了更清楚地说明本发明实施例或现有技术中的技术方案, 下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍, 显而易见地, 下面描述中的附图仅仅是本 发明的一些实施例, 对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下, 还可以 根据这些附图获得其他的附图。 0039 图1为本发明的流程示意图。 0040 图2为本发明转换后的网络拓扑图, 其中, (a)为按波长切片的其中一波长的网络 拓扑图, (b。

25、)为业务拓扑图。 0041 图3为算法核心部分的流程示意图。 具体实施方式 0042 下面将结合本发明实施例中的附图, 对本发明实施例中的技术方案进行清楚、 完 整地描述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而不是全部的实施例。 基于 本发明中的实施例, 本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他 实施例, 都属于本发明保护的范围。 0043 如图1所示, 一种云-雾弹性光网络中的深度强化学习流量疏导方法, 其步骤为: 0044 步骤一: 对于一个业务请求r(s,d,t), s和d分别代表源节点和目的节点, t代表 该业务的带宽需求, 通过最短路径算法(Dij。

26、kstra Shortest Path,DSP)计算业务请求r的 最短路径。 然后将业务路径和按波长切片的网络拓扑转换为图片的形式。 0045 把弹性光网络中每条链路的带宽资源按照波长分为5部分, 它们的初始状态是一 样的, 当业务请求来临时, 可以选择分配到任一波长, 只改变当前波长的状态, 即把该业务 分配到当前的波长, 改变相应位置的端口、 收发器、 放大器和带宽占用的情况。 如图2所示, 在描述NSFNET(美国国家科学基金网)网络时, 用黑色的圆点表示节点, 用11种不同颜色的 线来表示链路上带宽使用的不同, 节点附近的彩色的点分别表示端口、 收发器和放大器。 每 个随机生成的业务包。

27、含源节点、 目的节点和所需要占用的带宽, 用DSP算法计算出源节点和 目的节点间的最短路径。 0046 所述按波长切片的网络拓扑和业务路径转换为图片的形式的方法是: 首先根据节 点位置和链路的连通情况画出节点和链路, 然后根据端口、 收发器和放大器的占用情况用 不同颜色和大小的点分别画出。 0047 如图2所示, 在描述NSFNET(美国国家科学基金网)网络时, 图2(a)表示按波长切片 的网络拓扑的其中一个波长的图, 首先根据给定的网络节点的坐标, 用黑色的实心圆点画 出节点, 然后根据给定的链路的连通情况和当前波长的网络拓扑中所有链路上带宽的占用 情况用不同的颜色画出链路。 最后用较小的圆。

28、点表示端口和收发器, 用较大的圆点表示放 大器, 同样地根据不同的占用情况用不同的颜色画出。 对于业务拓扑图来说, 用相同的方法 画出。 0048 步骤二: 用卷积神经网络提取所有图片的特征, 并用softmax分类器进行分类, 决 定将该业务请求分配到哪一个波长。 0049 所述步骤二中卷积神经网络采用的是轻量型卷积神经网络MobilenetV3, 把标准 的卷积层分解为深度卷积和点卷积的形式, 大大提升了运算速度。 如图3所示, 将5个波长的 说明书 4/6 页 7 CN 111246320 A 7 网络拓扑图和业务拓扑图输入轻量型卷积神经网络MobilenetV3, 该卷积神经网络的第一。

29、 层卷积层的卷积核为3、 步长为2、 填充为1; 然后是15层的输入输出通道、 卷积核、 步长都已 经确定的block层。 此时输出的维度为77160, 下一层的卷积核为1、 步长为1。 然后是卷 积核为7的平均池化层, 最后经过两层11的卷积层降维。 需要注意的是最后一层没有激活 函数, 因为降维后激活函数的存在会破坏提取到的特征。 然后将提取到的特征输入softmax 分类器得到动作的概率分布, 概率分布越高, 选择动作对应的波长的几率就越大。 0050使用作为激活函数, 相较于ReLU函数能提高网络的精 度。 其中, x表示激活函数层的输入, ReLU()是另一种激活函数, H-Swis。

30、h是这里采用的对于 激活函数ReLU的改进, 是轻量型卷积神经网络MobilentV3的激活函数。 0051 步骤三: 如果分配到的波长有可用资源, 即检测到在该波长的网络拓扑中, 当前业 务请求对应位置的端口、 收发器、 放大器和带宽有空闲资源, 那么该业务成功分配, 如果没 有可用资源, 根据首次适应(First Fit, FF)的方法遍历所有的波长对业务请求r进行分配。 最后, 无论一个业务请求r用什么方法进行分配, 都会根据减少的能耗得到一个奖励值。 0052 对于此方法决定的波长, 如果该波长上的端口、 收发器、 放大器和带宽均有空闲资 源, 就可以对当前的业务请求r进行分配, 即把。

31、在当前波长中业务请求r对应的位置占用对 应的端口、 收发器、 放大器和带宽资源。 如果有一个无法满足需求, 那么采用FF方法, 即按照 波长的编号遍历所有的波长, 寻找第一个有可用资源的波长进行分配。 最后, 根据所分配到 的波长对网络能耗造成的影响按照表1得到一个奖励值(Reward)。 0053 表1计算奖励值的对应表 0054 0055 步骤四: 每一个业务分配完成后, 利用强化学习算法对步骤三的行为进行评价, 生 成一个value值, 并更新拓扑网络的状态, 生成下一个业务请求的最短路径拓扑图。 0056 本发明的强化学习算法采用的是Actor-Critic(AC)算法, Actor-。

32、Critic算法包括 Actor网络和Critic网络, 强化学习算法的Actor网络和Critic网络共用一个神经网络, Actor网络负责把业务疏导到正确的部分从而减少网络能耗, Critic网络被用来评判动作 的质量。 网络状态表示的是轻量型卷积神经网络MobilenetV3提取的网络特征, 动作表示的 是选择的波长, 奖励值对应每一个业务疏导的结果, 业务进入拓扑网络后占用的资源越少, 说明书 5/6 页 8 CN 111246320 A 8 奖励值越大, 否则奖励值越小甚至是惩罚。 value值是Critic网络对相应的动作做出的评 价。 0057 每一个业务请求分配完成后, 要对当。

33、前选择的动作做出评价, 提取到的特征输入 Critic网络会得到一个value值, 为后面网络更新做准备。 并根据业务的分配情况更新拓扑 网络状态, 即对改变的波长重新画图, 其它波长的拓扑图保持不变, 并用步骤一所述同样的 方法画出下一个业务请求的拓扑图。 0058 步骤五: 重复步骤一-四, 每当五个业务请求分配完成后, 根据网络状态、 动作、 奖 励值和value值来更新神经网络。 0059 下面就是具体的更新方法: 可以根据公式(7)、 (8)、 (9)计算出总的损失从而更新 网络: 0060 0061 0062 ltlvcv+la+ece (9) 0063 其中, Ri表示总奖励值,。

34、 V(s, )表示值函数, s表示网络状态, 表示网络参数, lv是 总奖励值和值函数的均方误差, la是策略函数和总奖励值与值函数的差的交叉熵, 最后通 过梯度下降法更新网络参数 。 引入熵e是为了评价动作的可能性差异, 当熵e收敛到一定的 值时, 说明学习到了一个较好的策略, 能够高效节能地疏导所有的业务。 lt表示总损失, cv、 ce分别表示值损失和熵的系数, 默认为0.5和0.01。 0064 以上所述仅为本发明的较佳实施例而已, 并不用以限制本发明, 凡在本发明的精 神和原则之内, 所作的任何修改、 等同替换、 改进等, 均应包含在本发明的保护范围之内。 说明书 6/6 页 9 CN 111246320 A 9 图1 图2 说明书附图 1/2 页 10 CN 111246320 A 10 图3 说明书附图 2/2 页 11 CN 111246320 A 11 。

展开阅读全文
内容关键字: 弹性 网络 中的 深度 强化 学习 流量 疏导 方法
关于本文
本文标题:云-雾弹性光网络中的深度强化学习流量疏导方法.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/9318636.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1