基于Q学习模型的结果推送方法和系统.pdf
《基于Q学习模型的结果推送方法和系统.pdf》由会员分享,可在线阅读,更多相关《基于Q学习模型的结果推送方法和系统.pdf(13页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010896316.9 (22)申请日 2020.08.31 (71)申请人 中国人民大学 地址 100872 北京市海淀区中关村大街59 号中国人民大学信息学院 申请人 华为技术有限公司 (72)发明人 徐君贾浩男张骁蒋昊 文继荣 (74)专利代理机构 北京纪凯知识产权代理有限 公司 11245 代理人 孙楠 (51)Int.Cl. G06Q 30/02(2012.01) H04L 29/08(2006.01) G06N 3/04(2006.01) G06N 3/08(2。
2、006.01) G06N 20/00(2019.01) (54)发明名称 一种基于Q学习模型的结果推送方法和系统 (57)摘要 本发明涉及一种基于Q学习模型的结果推送 方法和系统, 包括以下步骤: 将状态st、 推送结果 at, 下一状态st+1和奖励值rt+1组成一个数据组, 并将其存储至经验池D中; 从经验池D中提取若干 数据组, 计算网络参数下的全梯度均值, 此时 的网络参数为锚点网络参数; 随机提取上一步骤 中的数据组, 并计算其在当前网络参数下和锚点 网络参数下的目标Q值和梯度值, 将梯度值和全 梯度均值带入方差缩减公式实现梯度更新; 重复 上述步骤直至训练结束, 获得最终的Q学习模。
3、型, 将待测状态输入最终的Q学习模型获得最佳推送 结果。 其通过将方差缩减技术引入到随机梯度下 降的Q学习模型中, 提高了强化学习的训练过程 的稳定性。 权利要求书3页 说明书7页 附图2页 CN 112085524 A 2020.12.15 CN 112085524 A 1.一种基于Q学习模型的结果推送方法, 其特征在于, 包括以下步骤: S1确定当前状态st, 将当前状态st带入初始Q学习模型获得Q值, 根据所述Q值获得原始 推送结果at; S2将所述原始推送结果推送给用户, 并通过记录用户浏览, 获得奖励值rt+1; S3将状态st、 推送结果at, 下一状态st+1和奖励值rt+1组成。
4、一个数据组, 并将其存储至经 验池D中; S4从所述经验池D中提取若干数据组, 并根据提取的数据组计算网络参数下的全梯 度均值, 此时的网络参数为锚点网络参数; S5随机提取一步骤S4中的数据组, 并计算其在当前网络参数下和锚点网络参数下的目 标Q值和梯度值, 将所述梯度值和全梯度均值带入方差缩减公式实现梯度更新; S6重复步骤S4-S5直至训练结束, 获得最终的Q学习模型, 将待测状态输入所述最终的Q 学习模型获得最佳推送结果。 2.如权利要求1所述的基于Q学习模型的结果推送方法, 其特征在于, 所述步骤S5中的 方差缩减公式: 其中,是下一个网络参数;是当前网络参数; 是学习率;是梯度值;。
5、 g是 全梯度均值。 3.如权利要求2所述的基于Q学习模型的结果推送方法, 其特征在于, 所述梯度值的计 算公式为: 当前网络参数下的梯度值: 锚点网络参数下的梯度值: 其中, s,a分别为步骤S5中随机提取的一数据组中的状态和所述状态对应的推送结果, qm是当前网络参数下的目标Q值, q0是锚点网络参数下的目标Q值, 是锚点网络参数, Q() 为Q网络。 4.如权利要求3所述的基于Q学习模型的结果推送方法, 其特征在于, 所述目标Q值的计 算公式为: 当前网络参数下的目标Q值: 锚点网络参数下的目标Q值: 其中, s ,a 分别为步骤S5中随机提取的一数据组中的下一个状态和所述下一个状态 对。
6、应的推送结果, r是奖励值, 是折扣系数。 5.如权利要求4所述的基于Q学习模型的结果推送方法, 其特征在于, 所述全梯度均值 的计算公式为: 其中, N为数据组的数量, l()为损失函数。 6.一种基于Q学习模型的结果推送方法, 其特征在于, 包括以下步骤: 权利要求书 1/3 页 2 CN 112085524 A 2 S1确定当前状态st, 将当前状态st带入初始Q学习模型获得Q值, 根据所述Q值获得原始 推送结果at; S2将所述原始推送结果推送给用户, 并通过记录用户浏览, 获得奖励值rt+1; S3将状态st、 推送结果at, 下一状态st+1和奖励值rt+1组成一个数据组, 并将其。
7、存储至经 验池D中; S4从所述经验池D中提取若干数据组, 并根据提取的数据组计算网络参数下的全梯 度均值, 对所述全梯度均值进行梯度优化: 其中,是下一个网络参数;是当前网络参数;是当前网络参数下的全梯度均 值; S5随机提取一步骤S4中的数据组, 并计算其在当前网络参数下和上一个网络参数下的 目标Q值和梯度值, 将所述梯度值和全梯度均值带入方差缩减公式实现梯度更新; S6重复步骤S4-S5直至训练结束, 获得最终的Q学习模型, 将待测状态输入所述最终的Q 学习模型获得最佳推送结果。 7.如权利要求6所述的基于Q学习模型的结果推送方法, 其特征在于, 所述步骤S5中的 方差缩减公式: 其中,。
8、 l()为损失函数,是上一个网络参数;是当前网络参数;是上一个网 络参数下的全梯度均值。 8.如权利要求7所述的基于Q学习模型的结果推送方法, 其特征在于, 所述梯度值的计 算公式为: 当前网络参数下的梯度值: 上一个网络参数下的梯度值: 其中, s,a分别为步骤S5中随机提取的一数据组中的状态和所述状态对应的推送结果, qm是当前网络参数下的目标Q值, q0是锚点网络参数下的目标Q值, 是锚点网络参数, Q() 为Q网络。 9.如权利要求8所述的基于Q学习模型的结果推送方法, 其特征在于, 所述目标Q值的计 算公式为: 当前网络参数下的目标Q值: 上一个网络参数下的目标Q值: 其中, s ,。
9、a 分别为步骤S5中随机提取的一数据组中的下一个状态和所述下一个状态 对应的推送结果, r是奖励值, 是折扣系数。 10.一种基于Q学习模型的结果推送系统, 其特征在于, 包括: 原始推送结果生成模块, 用于确定当前状态st, 将当前状态st带入初始Q学习模型获得Q 值, 根据所述Q值获得原始推送结果at; 奖励值生成模块, 用于将所述原始推送结果推送给用户, 并通过记录用户浏览, 获得奖 权利要求书 2/3 页 3 CN 112085524 A 3 励值rt+1; 存储模块, 用于将状态st、 推送结果at, 下一状态st+1和奖励值rt+1组成一个数据组, 并将 其存储至经验池D中; 全梯。
10、度均值计算模块, 用于从所述经验池D中提取若干数据组, 并根据提取的数据组计 算网络参数下的全梯度均值, 此时的网络参数为锚点网络参数; 梯度更新模块, 用于随机提取一步骤S4中的数据组, 并计算其在当前网络参数下和锚 点网络参数下的目标Q值和梯度值, 将所述梯度值和全梯度均值带入方差缩减公式实现梯 度更新; 输出模块, 用于重复步骤S4-S5直至训练结束, 获得最终的Q学习模型, 将待测状态输入 所述最终的Q学习模型获得最佳推送结果。 权利要求书 3/3 页 4 CN 112085524 A 4 一种基于Q学习模型的结果推送方法和系统 技术领域 0001 本发明是关于一种基于Q学习模型的结果。
11、推送方法及系统, 属于互联网技术领域。 背景技术 0002 在信息检索中, 采用结果推送方法或者按照结果与检索信息的相关度进行排序可 以大大降低检索者的工作量, 提高信息获取效率。 目前已经有很多将强化学习模型, 例如深 度Q学习模型, 应用到检索结果推送中, 通过使用检索者的历史检索记录对强化学习模型进 行训练, 可以是推送出的结果更加符合检索者的要求, 进一步提高检索效率。 但现有的利用 深度Q学习模型生成的结果推送的方法还存在以下问题: 0003 一方面, 由于深度Q学习模型(DQN)在基于值函数的深度强化学习方面起着绝对的 引领作用, 导致对DQN算法的改进多注重于改进DQN算法的网络。
12、结构以提升其效率; 另一方 面, 由于强化学习算法有着 “试错” 的训练特点, 导致其在训练过程通常很不稳定, 而其不稳 定性主要是由奖励值、 Q值等的方差过高而引起的。 发明内容 0004 针对上述现有技术的不足, 本发明的目的是提供了一种基于Q学习模型的结果推 送方法及系统, 其通过将方差缩减技术引入到随机梯度下降的Q学习模型中, 降低了奖励值 或Q值的方差, 提高了强化学习的训练过程的稳定性。 0005 为实现上述目的, 本发明提供了一种基于Q学习模型的结果推送方法, 包括以下步 骤: S1确定当前状态st, 将当前状态st带入初始Q学习模型获得Q值, 根据Q值获得原始推送结 果at; 。
13、S2将原始推送结果推送给用户, 并通过记录用户浏览, 获得奖励值rt+1; S3将状态st、 推 送结果at, 下一状态st+1和奖励值rt+1组成一个数据组, 并将其存储至经验池D中; S4从经验 池D中提取若干数据组, 并根据提取的数据组计算网络参数下的全梯度均值, 此时的网络 参数为锚点网络参数; S5随机提取一步骤S4中的数据组, 并计算其在当前网络参数下和锚 点网络参数下的目标Q值和梯度值, 将梯度值和全梯度均值带入方差缩减公式实现梯度更 新; S6重复步骤S4-S5直至训练结束, 获得最终的Q学习模型, 将待测状态输入最终的Q学习 模型获得最佳推送结果。 0006 进一步, 步骤S。
14、5中的方差缩减公式: 0007 0008其中,是下一个网络参数;是当前网络参数; 是学习率;是梯度 值; g是全梯度均值。 0009 进一步, 梯度值的计算公式为: 0010当前网络参数下的梯度值: 0011锚点网络参数下的梯度值: 0012 其中, s, a分别为步骤S5中随机提取的一数据组中的状态和状态对应的推送结果, 说明书 1/7 页 5 CN 112085524 A 5 qm是当前网络参数下的目标Q值, q0是锚点网络参数下的目标Q值,是锚点网络参数, Q() 为Q网络。 0013 进一步, 目标Q值的计算公式为: 0014当前网络参数下的目标Q值: 0015锚点网络参数下的目标Q值。
15、: 0016 其中, s , a 分别为步骤S5中随机提取的一数据组中的下一个状态和下一个状态 对应的推送结果, r是奖励值, 是折扣系数。 0017 进一步, 全梯度均值的计算公式为: 0018 0019 其中, N为数据组的数量, l()为损失函数。 0020 本发明还公开了另一种基于Q学习模型的结果推送方法, 包括以下步骤: S1确定当 前状态st, 将当前状态st带入初始Q学习模型获得Q值, 根据Q值获得原始推送结果at; S2将原 始推送结果推送给用户, 并通过记录用户浏览, 获得奖励值rt+1; S3将状态st、 推送结果at, 下 一状态st+1和奖励值rt+1组成一个数据组, 。
16、并将其存储至经验池D中; S4从经验池D中提取若 干数据组, 并根据提取的数据组计算网络参数下的全梯度均值, 对全梯度均值进行梯度 优化: 0021 0022其中,是下一个网络参数;是当前网络参数;是当前网络参数下的全 梯度均值; S5随机提取一步骤S4中的数据组, 并计算其在当前网络参数下和上一个网络参 数下的目标Q值和梯度值, 将梯度值和全梯度均值带入方差缩减公式实现梯度更新; S6重复 步骤S4-S5直至训练结束, 获得最终的Q学习模型, 将待测状态输入最终的Q学习模型获得最 佳推送结果。 0023 进一步, 步骤S5中的方差缩减公式: 0024 0025其中, l()为损失函数,是上一。
17、个网络参数;是当前网络参数;是上一 个网络参数下的全梯度均值。 0026 进一步, 梯度值的计算公式为: 0027当前网络参数下的梯度值: 0028 上一个网络参数下的梯度值: 0029 其中, s, a分别为步骤S5中随机提取的一数据组中的状态和状态对应的推送结果, qm是当前网络参数下的目标Q值, q0是锚点网络参数下的目标Q值,是锚点网络参数, Q() 为Q网络。 0030 进一步, 目标Q值的计算公式为: 说明书 2/7 页 6 CN 112085524 A 6 0031当前网络参数下的目标Q值: 0032上一个网络参数下的目标Q值: 0033 其中, s , a 分别为步骤S5中随机。
18、提取的一数据组中的下一个状态和下一个状态 对应的推送结果, r是奖励值, 是折扣系数。 0034 本发明还公开了一种基于Q学习模型的结果推送系统, 包括: 原始推送结果生成模 块, 用于确定当前状态st, 将当前状态st带入初始Q学习模型获得Q值, 根据Q值获得原始推送 结果at; 奖励值生成模块, 用于将原始推送结果推送给用户, 并通过记录用户浏览, 获得奖 励值rt+1; 存储模块, 用于将状态st、 推送结果at, 下一状态st+1和奖励值rt+1组成一个数据组, 并将其存储至经验池D中; 全梯度均值计算模块, 用于从经验池D中提取若干数据组, 并根据 提取的数据组计算网络参数下的全梯度。
19、均值, 此时的网络参数为锚点网络参数; 梯度更 新模块, 用于随机提取一步骤S4中的数据组, 并计算其在当前网络参数下和锚点网络参数 下的目标Q值和梯度值, 将梯度值和全梯度均值带入方差缩减公式实现梯度更新; 输出模 块, 用于重复步骤S4-S5直至训练结束, 获得最终的Q学习模型, 将待测状态输入最终的Q学 习模型获得最佳推送结果。 0035 本发明由于采取以上技术方案, 其具有以下优点: 0036 1、 通过将方差缩减技术引入到随机梯度下降的Q学习模型中, 降低了奖励值或Q值 的方差, 提高了强化学习的训练过程的精度、 稳定性。 0037 2、 采用随机递归梯度算法(Stochastic 。
20、recursive gradient algorithm, SARAH) 解决了随机方差缩减梯度下降技术(Stochastic Variance Reduced Gradient Descent, SVRG)在训练时网络的参数不固定的且可能会逐渐偏移采样时的参数, 从而造成信息差越 来越大的问题, 使模型计算更加准确。 附图说明 0038 图1是本发明一实施例中基于深度学习模型的地震数据不连续性检测方法的示意 图; 0039 图2是本发明一实施例中梯度优化算法的示意图, 图2(a)是传统的梯度优化算法 的示意图, 图2(b)是随机梯度下降的梯度优化算法的示意图; 0040 图3是本发明一实施例。
21、中基于方差缩减的的深度Q学习模型训练框架的逻辑示意 图。 具体实施方式 0041 为了使本领域技术人员更好的理解本发明的技术方向, 通过具体实施例对本发明 进行详细的描绘。 然而应当理解, 具体实施方式的提供仅为了更好地理解本发明, 它们不应 该理解成对本发明的限制。 在本发明的描述中, 需要理解的是, 所用到的术语仅仅是用于描 述的目的, 而不能理解为指示或暗示相对重要性。 0042 实施例一 0043 本实施例公开了一种基于Q学习模型的结果推送方法, 如图1所示, 包括以下步骤: 0044 S1首先, 设定初始Q学习模型, 确定当前状态st, 其中, 初始化状态s0通过用户当前 说明书 3。
22、/7 页 7 CN 112085524 A 7 浏览记录活动; 随后的状况通过用户上一次交互后的浏览历史获得; 将当前状态st带入初 始Q学习模型获得Q值, 根据Q值获得原始推送结果at; 其中, 推送结果包括推送内容和推送 内容的位置。 0045 S2将原始推送结果推送给用户, 并通过记录用户浏览, 获得奖励值rt+1; 0046 S3将状态st、 推送结果at, 下一状态st+1和奖励值rt+1组成一个数据组, 并将其存储 至经验池D中; 0047S4从经验池D中提取若干数据组, 并根据提取的数据组计算网络参数下的全梯 度均值, 此时的网络参数为锚点网络参数; 0048 全梯度均值的计算公。
23、式为: 0049 0050 其中, N为数据组的数量, l()为损失函数。 0051 S5随机提取一步骤S4中的数据组, 并计算其在当前网络参数下和锚点网络参数下 的目标Q值和梯度值, 将梯度值和全梯度均值带入方差缩减公式实现梯度更新; 0052 其中, 目标Q值的计算公式为: 0053当前网络参数下的目标Q值: 0054锚点网络参数下的目标Q值: 0055 其中, s , a 分别为步骤S5中随机提取的一数据组中的下一个状态和下一个状态 对应的推送结果, r是奖励值, 是折扣系数。 0056 若引入目标网络Q (s, a; ), 目标Q值的计算公式为: 0057 当前网络参数下的目标Q值: 。
24、0058 qmr+maxa Q (s , a ; -) 0059 锚点网络参数下的目标Q值: 0060 q0r+maxa Q (s , a ; -) 0061 其中, 参数 -代表上一次训练网络Q(s, a; )向目标网络Q (s, a; )的参数值, 而目 标网络Q 是与训练网络Q结构相同但网络参数不同的网络。 0062 梯度值的计算公式为: 0063当前网络参数下的梯度值: 0064锚点网络参数下的梯度值: 0065 其中, s, a分别为步骤S5中随机提取的一数据组中的状态和状态对应的推送结果, qm是当前网络参数下的目标Q值, q0是锚点网络参数下的目标Q值,是锚点网络参数, Q() 。
25、为Q网络。 0066 方差缩减公式为: 0067 0068其中,是下一个网络参数;是当前网络参数; 是学习率;是梯度 值; g是全梯度均值。 说明书 4/7 页 8 CN 112085524 A 8 0069 S6重复步骤S4-S5直至训练结束, 获得最终的Q学习模型, 将待测状态输入最终的Q 学习模型获得最佳推送结果。 0070 本实施例主要采用基于随机方差缩减梯度下降技术(Stochastic Variance Reduced Gradient Descent, SVRG)的Q学习模型实现。 如图2所示, 在传统的梯度优化算法 中, 以梯度下降(GD)为主体的算法能保证待优化参数达到一个全。
26、局最优点, 但由于其每一 步都涉及到全梯度的计算, 这在数据量过大的问题背景下通常会造成大计算量消耗, 从而 使训练过程变得迟缓。 随机梯度下降(SGD)算法为避免每一步训练的大计算量消耗, 其放弃 了全梯度的计算, 通过每一步采样一个(或一小批)数据来训练模型, 虽然同样能保证优化 目标的收敛, 但由于其随机采样的特点, 在优化层面上仍然有着因梯度方差过高引起收敛 速度慢的局限性。 0071 为解决上述问题, 通过在随机梯度下降的过程中引入方差缩减技术进行优化。 方 差缩减的数学定义为: 0072 Z (X-Y)+EY 0073 其中, X代表需要被缩减方差的随机变量, Y代表另一个与X有正。
27、相关关系的随机变 量, EY代表随机变量Y的数学期望, Z代表被方差缩减优化后的随机变量。 0074 随机方差缩减梯度下降技术将原始的参数更新步骤改为了形如上Z的方差缩减 形式, 通过定期采样批量训练数据充当方差缩减定义中的Y, 其梯度更新公式为: 0075 0076其中 t为训练至第t步时的待优化参数, old代表计算全梯度时的参数值, 代表 批量数据损失函数的全梯度值的期望,代表单个数据样本损失函数的梯度值, 代表学 习率。 0077本发明将损失函数l(s, a; )对网络各层参数的梯度作为待缩减方差的随机变 量X。 如图3所示, 基于方差缩减的深度Q-learning训练框架, 其中当前。
28、网络Q代表学习模型, 环境代表与网络Q交互的对象, 网络Q接受环境的当前状态s作为输入, 并且根据当前的网络 参数 m评估在状态s下执行各个动作的Q值, 根据Q值选出最优动作a输出至环境, 环境接收 该动作并转入下一状态s 。 该框架以当前网络Q作为输入, 以方差优化后的网络作为输出, 具体而言, 输入该网络的参数 0, 输出经过方差缩减训练过的优化网络参数 0078 在训练过程中, 环境与当前网络不断交互产生转移数据组(s, a, r, s ), 容量有限 的经验池D负责存储这些产生的数据并定期送入网络进行训练。 由SVRG算法的特性可知, 首 先需要在经验池中采样一批数据, 同时需要根据采。
29、样批数据时的网络计算出这批数 据的全梯度均值g, 用于充当SVRG优化过程中的期望EY。 批数据中的单个样本在采样批数 据时的网络下的梯度值则充当了优化过程中的辅助变量Y。 0079 实施例二 0080 基于相同的发明构思, 本实施例公开了另一种基于Q学习模型的结果推送方法, 包 括以下步骤: 0081 S1首先, 设定初始Q学习模型, 确定当前状态st, 其中, 初始化状态s0通过用户当前 说明书 5/7 页 9 CN 112085524 A 9 浏览记录活动; 随后的状况通过用户上一次交互后的浏览历史获得; 将当前状态st带入初 始Q学习模型获得Q值, 根据Q值获得原始推送结果at; 其中。
30、, 推送结果包括推送内容和推送 内容的位置。 0082 S2将原始推送结果推送给用户, 并通过记录用户浏览, 获得奖励值rt+1; 0083 S3将状态st、 推送结果at, 下一状态st+1和奖励值rt+1组成一个数据组, 并将其存储 至经验池D中; S4从经验池D中提取若干数据组, 并根据提取的数据组计算网络参数下的 全梯度均值, 对全梯度均值进行梯度优化: 0084 0085其中,是下一个网络参数;是当前网络参数;是当前网络参数下的全 梯度均值; 0086 S5随机提取一步骤S4中的数据组, 并计算其在当前网络参数下和上一个网络参数 下的目标Q值和梯度值, 将梯度值和全梯度均值带入方差缩。
31、减公式实现梯度更新; 0087 其中, 目标Q值的计算公式为: 0088当前网络参数下的目标Q值: 0089上一个网络参数下的目标Q值: 0090 其中, s , a 分别为步骤S5中随机提取的一数据组中的下一个状态和下一个状态 对应的推送结果, r是奖励值, 是折扣系数。 0091 步骤S5中的方差缩减公式: 0092 0093其中, l()为损失函数,是上一个网络参数;是当前网络参数;是上一 个网络参数下的全梯度均值。 0094 梯度值的计算公式为: 0095当前网络参数下的梯度值: 0096 上一个网络参数下的梯度值: 0097 其中, s, a分别为步骤S5中随机提取的一数据组中的状态。
32、和状态对应的推送结果, qm是当前网络参数下的目标Q值, q0是锚点网络参数下的目标Q值,是锚点网络参数, Q() 为Q网络。 0098 步骤S5中的方差缩减公式: 0099 0100其中, l()为损失函数,是上一个网络参数;是当前网络参数;是上一 个网络参数下的全梯度均值。 0101 S6重复步骤S4-S5直至训练结束, 获得最终的Q学习模型, 将待测状态输入最终的Q 学习模型获得最佳推送结果。 说明书 6/7 页 10 CN 112085524 A 10 0102 本实施例主要采用基于随机递归梯度算法(Stochastic recursive gradient algorithm, SA。
33、RAH)的Q学习模型实现。 SVRG算法中使用一个固定的批数据全梯度均值g作为 修正量EY, 并且使用固定的网络(批数据采样时网络)去计算单个样本的梯度值来 充当Y, 而在训练时网络的参数是不固定的且可能会逐渐偏移采样时的参数 0, 从而造成信 息差越来越大的问题。 0103 为了解决这一问题, SARAH提出使用循环更新或适应性更新的方法来处理梯度和 全梯度的估计值, 放弃使用固定的批数据全梯度均值g和固定的采样参数 old, 而在训练过 程中对全梯度均值g进行逐步更新, 并且使用上一步的参数 t-1来代替 old, 综上可以得出, 在SARAH算法中, 带有方差缩减效用梯度更新步骤如下: 。
34、0104 0105 t+1 t- gt 0106 相对图3中SVRG算法, 本实施例中将SVRG操作单元替换为上述的SARAH更新单元, 并且在更新参数的同时保持对全梯度均值g的更新, 此外本实施例采用固定的采样时网络 替换为上一步训练时的网络、 即 0107 实施例三 0108 基于相同的发明构思, 本实施例公开了一种基于Q学习模型的结果推送系统, 包 括: 0109 原始推送结果生成模块, 用于确定当前状态st, 将当前状态st带入初始Q学习模型 获得Q值, 根据Q值获得原始推送结果at; 0110 奖励值生成模块, 用于将原始推送结果推送给用户, 并通过记录用户浏览, 获得奖 励值rt+。
35、1; 0111 存储模块, 用于将状态st、 推送结果at, 下一状态st+1和奖励值rt+1组成一个数据组, 并将其存储至经验池D中; 0112 全梯度均值计算模块, 用于从经验池D中提取若干数据组, 并根据提取的数据组计 算网络参数下的全梯度均值, 此时的网络参数为锚点网络参数; 0113 梯度更新模块, 用于随机提取一步骤S4中的数据组, 并计算其在当前网络参数下 和锚点网络参数下的目标Q值和梯度值, 将梯度值和全梯度均值带入方差缩减公式实现梯 度更新; 0114 输出模块, 用于重复步骤S4-S5直至训练结束, 获得最终的Q学习模型, 将待测状态 输入最终的Q学习模型获得最佳推送结果。。
36、 0115 最后应当说明的是: 以上实施例仅用以说明本发明的技术方案而非对其限制, 尽 管参照上述实施例对本发明进行了详细的说明, 所属领域的普通技术人员应当理解: 依然 可以对本发明的具体实施方式进行修改或者等同替换, 而未脱离本发明精神和范围的任何 修改或者等同替换, 其均应涵盖在本发明的权利要求保护范围之内。 上述内容仅为本申请 的具体实施方式, 但本申请的保护范围并不局限于此, 任何熟悉本技术领域的技术人员在 本申请揭露的技术范围内, 可轻易想到变化或替换, 都应涵盖在本申请的保护范围之内。 因 此, 本申请的保护范围应以权利要求的保护范围。 说明书 7/7 页 11 CN 112085524 A 11 图1 图2 说明书附图 1/2 页 12 CN 112085524 A 12 图3 说明书附图 2/2 页 13 CN 112085524 A 13 。
- 内容关键字: 基于 学习 模型 结果 推送 方法 系统
一体式安全吊钳.pdf
漂浮电缆.pdf
线缆托架.pdf
防腐防潮的海洋监测设备固定装置.pdf
超声波布面预湿分解设备.pdf
道路边坡结构.pdf
多工位伺服系统.pdf
智慧采油装备.pdf
油气分离滤芯.pdf
公路裂缝修补装置.pdf
电解槽的极距测量装置.pdf
混凝土抗裂检测装置.pdf
多相流泵.pdf
高电压高倍率球形锰酸锂球磨混料机.pdf
卷扬机卷筒结构.pdf
防尘防砂式排气嘴结构.pdf
外科临床管路固定装置.pdf
免维护激振器.pdf
流延机自动对刀装置.pdf
全氢强对流罩式炉.pdf
表演机器人模型控制系统.pdf
亚跨超声速流场可控喷管的设计方法、装置、设备和介质.pdf
区块链协助搜索的物联网数据共享方法.pdf
油侧膜头装置及隔膜式压缩机.pdf
自动化PCB板测试系统.pdf
海洋藻类污染治理作业装备.pdf
抗鸡PML单克隆抗体及其应用.pdf
矿用液压油缸的定时养护装置.pdf
射频复电容率测量装置及方法.pdf
便携式一体化海水淡化器.pdf
快速定位及自动退料的冲压模具.pdf
基于灰水足迹的减污降碳协同度分析方法.pdf
鞋子内撑修型装置.pdf
声纹识别方法、系统、移动终端及存储介质.pdf
基于代理辅助进化算法的翼型优化方法及装置.pdf
低复杂度单载波频域均衡系统自适应速率传输方法.pdf
废弃矿山边坡稳定性检测方法.pdf
处理器芯片安全依赖的动态识别及维护方法.pdf
适配多类大数据库的多维分析方法.pdf
辐射防护材料及其制备方法、护肤品.pdf
无人机应急降落装置及其收纳和弹射方法.pdf
环形窄带光纤光栅随机激光器及产生随机激光的方法.pdf
共聚改性热固性聚酰亚胺材料的制备方法.pdf
文本增量方法、装置及终端设备.pdf
低压配电网拓扑识别系统的拓扑识别方法.pdf
海洋牧场饲养多重放流运苗撒播漂浮平台.pdf
侧铣加工用长形圆柱件手动夹持模具机构.pdf
红外对管检测方法.pdf
具有改善睡眠质量的药酒及其制备方法.pdf
用于焚烧装置的燃烧用燃料供应装置.pdf
抑制主声源的多声源跟踪方法.pdf