基于行为数据的理财推荐方法及装置、设备.pdf

上传人:00062****4422 文档编号:10985854 上传时间:2021-08-29 格式:PDF 页数:16 大小:790.56KB
收藏 版权申诉 举报 下载
基于行为数据的理财推荐方法及装置、设备.pdf_第1页
第1页 / 共16页
基于行为数据的理财推荐方法及装置、设备.pdf_第2页
第2页 / 共16页
基于行为数据的理财推荐方法及装置、设备.pdf_第3页
第3页 / 共16页
文档描述:

《基于行为数据的理财推荐方法及装置、设备.pdf》由会员分享,可在线阅读,更多相关《基于行为数据的理财推荐方法及装置、设备.pdf(16页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910983508.0 (22)申请日 2019.10.16 (71)申请人 信雅达系统工程股份有限公司 地址 310000 浙江省杭州市滨江区江南大 道3888号信雅达科技大厦 (72)发明人 魏爽林路郏维强 (74)专利代理机构 杭州裕阳联合专利代理有限 公司 33289 代理人 姚宇吉 (51)Int.Cl. G06F 16/9535(2019.01) G06Q 40/06(2012.01) G06N 3/08(2006.01) G06F 16/28(2019.01)。

2、 G06F 16/215(2019.01) (54)发明名称 基于行为数据的理财推荐方法及装置、 设备 (57)摘要 本发明实施例公开一种基于行为数据的理 财推荐方法及装置、 设备, 其中方法包括如下步 骤: 获取多维属性信息和历史行为数据, 多维属 性信息包括理财产品多维属性信息及其对应的 用户多维属性信息; 对多维属性信息和历史行为 数据进行预处理, 预处理包括筛选、 清晰、 缺失值 处理和奇异值处理中的一个或多个; 将预处理后 的多维属性信息输入所构建的强化学习模型网 络中进行训练得到推荐知识; 根据推荐知识向目 标用户推荐理财产品。 采用本发明, 通过使用强 化学习模型捕获用户的历史浏。

3、览行为序列信息, 可使理财推荐的结果更加精准, 用户的点击率与 购买率得到较大幅度提高。 权利要求书2页 说明书9页 附图4页 CN 110598120 A 2019.12.20 CN 110598120 A 1.一种基于行为数据的理财推荐方法, 其特征在于, 包括: 获取多维属性信息和历史行为数据, 所述多维属性信息包括理财产品多维属性信息及 其对应的用户多维属性信息; 对所述多维属性信息和所述历史行为数据进行预处理, 所述预处理包括筛选、 清晰、 缺 失值处理和奇异值处理中的一个或多个; 将预处理后的多维属性信息输入所构建的强化学习模型网络中进行训练得到推荐知 识; 根据所述推荐知识向目标。

4、用户推荐理财产品。 2.根据权利要求1所述的方法, 其特征在于, 所述方法还包括: 定义强化学习模型中的状态模块、 动作模块和奖励模块; 对所述强化学习模型中的策略函数、 策略梯度和值函数模块进行算法优化设计; 按照设计的算法构建强化学习模型网络。 3.根据权利要求1所述的方法, 其特征在于, 所述方法还包括: 对所述多维属性信息进行规范化处理, 得到符合预设格式的量化数据。 4.根据权利要求3所述的方法, 其特征在于, 所述规范化处理为布尔型规范化处理。 5.根据权利要求2所述的方法, 其特征在于, 所述定义强化学习模型中的状态模块, 包 括: 基于所述历史行为数据抽取状态特征; 将预设时间。

5、段内所述历史行为数据对应的理财产品多维属性信息作为当前模型所处 的状态; 基于所述状态特征和所述状态构建所述定义强化学习模型中的状态模块。 6.根据权利要求2所述的方法, 其特征在于, 所述定义强化学习模型中的动作模块, 包 括: 构建排序向量, 以所述排序向量定义强化学习模型中的动作模块。 7.根据权利要求2所述的方法, 其特征在于, 所述定义强化学习模型中的奖励模块, 包 括: 结合所述多维属性信息和系统排序策略对理财产品进行排序; 为所述强化学习模型中的奖赏函数引入先验知识; 基于引入先验知识的奖赏函数定义强化学习模型中的奖励模块。 8.根据权利要求2所述的方法, 其特征在于, 所述对所。

6、述强化学习模型中的策略函数、 策略梯度和值函数模块进行算法优化设计, 包括: 采用参数化的函数对策略进行表达, 通过优化参数完成策略函数的学习; 基于确定的策略在所有状态上获得目标函数, 并根据梯度策略优化更新所述目标函 数, 所述目标函数为长期积累奖赏期望之和; 引入优势函数, 基于所述优势函数设计所述强化学习模型中的值函数。 9.一种基于行为数据的理财推荐装置, 其特征在于, 包括: 数据获取单元, 用于获取多维属性信息和历史行为数据, 所述多维属性信息包括理财 产品多维属性信息及其对应的用户多维属性信息; 数据预处理单元, 用于对所述多维属性信息和所述历史行为数据进行预处理, 所述预 权。

7、利要求书 1/2 页 2 CN 110598120 A 2 处理包括筛选、 清晰、 缺失值处理和奇异值处理中的一个或多个; 模型训练单元, 用于将预处理后的多维属性信息输入所构建的强化学习模型网络中进 行训练得到推荐知识; 产品推荐单元, 用于根据所述推荐知识向目标用户推荐理财产品。 10.一种计算机设备, 其特征在于, 所述计算机设备包括处理器和存储器, 所述存储器 中存储有至少一条指令、 至少一段程序、 代码集或指令集, 所述至少一条指令、 所述至少一 段程序、 所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至8任一项所述 的基于深度学习的文本摘要自动生成方法。 权利要求书 2。

8、/2 页 3 CN 110598120 A 3 基于行为数据的理财推荐方法及装置、 设备 技术领域 0001 本发明涉及理财智能推荐技术领域, 尤其涉及一种基于行为数据的理财推荐方法 及装置、 设备。 背景技术 0002 随着普惠金融的更加深入, 智能理财推荐市场日趋成熟, 理财的用户不仅数量巨 大, 其行为特点以及对理财产品的偏好也呈现出丰富性与多样性。 因此, 要让推荐系统对不 同特点的用户做出针对性的产品排序推荐策略, 并以此带动引导理财产品的购买率的提 升。 目前的推荐系统大多是或者基于固定的规则、 或者基于商品维度的学习、 或者基于用户 与理财产品的相似性等这些静态指标来设计理财产品。

9、的推荐排序策略, 但它没有考虑到用 户购买理财产品是一个连续的过程。 这一连续过程的不同阶段之间不是孤立的, 而是有着 紧密的联系。 所以, 目前的推荐策略存在如下不足之处: 0003 1、 实践中的最后结果推荐理财产品的购买率远不能令人满意 0004 2、 无法利用用户的历史浏览行为的动态信息, 对用户进行用户画像的刻画。 0005 3、 用户的喜好会随着时间的推移而发生变化, 传统的推荐系统只能得到最大化的 当前受益, 无法跟踪建模用户兴趣、 行为的动态变化而获得长期收益。 发明内容 0006 本发明实施例提供一种基于行为数据的理财推荐方法及装置、 设备, 通过使用强 化学习模型捕获用户的。

10、历史浏览行为序列信息, 可使理财推荐的结果更加精准, 用户的点 击率与购买率得到较大幅度提高。 0007 本发明实施例第一方面提供了一种基于行为数据的理财推荐方法, 可包括: 0008 获取多维属性信息和历史行为数据, 多维属性信息包括理财产品多维属性信息及 其对应的用户多维属性信息; 0009 对多维属性信息和历史行为数据进行预处理, 预处理包括筛选、 清晰、 缺失值处理 和奇异值处理中的一个或多个; 0010 将预处理后的多维属性信息输入所构建的强化学习模型网络中进行训练得到推 荐知识; 0011 根据推荐知识向目标用户推荐理财产品。 0012 本发明实施例第二方面提供了一种基于行为数据的。

11、理财推荐装置, 可包括: 0013 数据获取单元, 用于获取多维属性信息和历史行为数据, 多维属性信息包括理财 产品多维属性信息及其对应的用户多维属性信息; 0014 数据预处理单元, 用于对多维属性信息和历史行为数据进行预处理, 预处理包括 筛选、 清晰、 缺失值处理和奇异值处理中的一个或多个; 0015 模型训练单元, 用于将预处理后的多维属性信息输入所构建的强化学习模型网络 中进行训练得到推荐知识; 说明书 1/9 页 4 CN 110598120 A 4 0016 产品推荐单元, 用于根据推荐知识向目标用户推荐理财产品。 0017 本发明实施例第三方面提供了一种计算机设备, 该设备包括。

12、处理器和存储器, 存 储器中存储有至少一条指令、 至少一段程序、 代码集或指令集, 至少一条指令、 至少一段程 序、 代码集或指令集由处理器加载并执行以实现上述方面的基于行为数据的理财推荐方 法。 0018 本发明实施例第四方面提供了一种计算机存储介质, 该计算机存储介质中存储有 至少一条指令、 至少一段程序、 代码集或指令集, 所述至少一条指令、 所述至少一段程序、 所 述代码集或指令集由处理器加载并执行以实现上述方面所述的基于行为数据的理财推荐 方法。 0019 在本发明实施例中, 考虑了用户的行为序列信息, 采用了强化学习模型, 让推荐系 统挖掘出用户的历史浏览信息与理财产品信息之间的关。

13、系, 实现精准的个性化推荐, 提升 了推荐理财产品的精准性与转化率, 并且能够使得推荐系统可以捕捉、 跟踪建模用户兴趣、 行为的动态变化, 从而提升了推荐的动态性并获得了更为长期的收益。 附图说明 0020 为了更清楚地说明本发明实施例或现有技术中的技术方案, 下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍, 显而易见地, 下面描述中的附图仅仅是本 发明的一些实施例, 对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下, 还可以 根据这些附图获得其他的附图。 0021 图1是本发明实施例提供的一种基于行为数据的理财推荐方法的流程示意图; 0022 图2是本发明实施例提供的强。

14、化学习模型网络构建的流程示意图; 0023 图3是本发明实施例提供的一种基于行为数据的理财推荐装置的结构示意图; 0024 图4是本发明实施例提供的强化学习模型网络构建装置的结构示意图; 0025 图5是本发明实施例提供的模块定义单元的结构示意图; 0026 图6是本发明实施例提供的函数设计单元的结构示意图; 0027 图7是本发明实施例提供的一种计算机设备的结构示意图。 具体实施方式 0028 下面将结合本发明实施例中的附图, 对本发明实施例中的技术方案进行清楚、 完 整地描述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而不是全部的实施例。 基于 本发明中的实施例, 本领域普通技术。

15、人员在没有做出创造性劳动前提下所获得的所有其他 实施例, 都属于本发明保护的范围。 0029 本发明的说明书和权利要求书及上述附图中的术语 “包括” 和 “具有” 以及它们任 何变形, 意图在于覆盖不排他的包含, 术语 “第一” 和 “第二” 仅是为了区别命名, 并不代表数 字的大小或者排序。 例如包含了一系列步骤或单元的过程、 方法、 系统、 产品或设备没有限 定于已列出的步骤或单元, 而是可选地还包括没有列出的步骤或单元, 或可选地还包括对 于这些过程、 方法、 产品或设备固有的其他步骤或单元。 0030 需要说明的是, 本申请提供的基于行为数据的理财推荐方法可以应用于为新用户 智能推荐理。

16、财产品的应用场景。 说明书 2/9 页 5 CN 110598120 A 5 0031 本发明实施例中, 基于行为数据的理财推荐方法可以应用于计算机设备中, 该计 算机设备可以是智能手机、 平板电脑、 PC(Personal Computer, 个人计算机)等终端, 也可以 是其它具备计算处理能力的电子设备。 0032 如图1所示, 基于行为数据的理财推荐方法至少可以包括以下几个步骤: 0033 S101, 获取多维属性信息和历史行为数据。 0034 可以理解的是, 上述多为属性信息可以包括理财产品多维属性信息及其对应的用 户多维属性信息, 其中, 用户多为属性信息可以包括性别、 年龄、 城市。

17、等, 理财产品多维属性 信息可以包括类别、 标签、 售卖点等信息; 上述历史行为数据可以是用户对理财产品点击购 买的历史行为数据, 可以包括用户对各个理财产品历史上的点击与购买的时间序列。 0035 在可选实施例中, 设备可以对多维属性信息进行规范化处理, 得到符合预设格式 的量化数据, 优选的, 可以采用布尔型规范化处理。 0036 S102, 对多维属性信息和历史行为数据进行预处理。 0037 具体实现中, 设备可以对多维属性信息和历史行为数据进行预处理, 具体包括筛 选、 清晰、 缺失值处理和奇异值处理中的一个或多个。 0038 例如, 可以对空数据补齐, 做插值平滑处理, 使数据保持一。

18、致。 针对奇异值数据处 理方式为: 若为异常高点或者异常低点, 可剔除该条数据。 0039 S103, 将预处理后的多维属性信息输入所构建的强化学习模型网络中进行训练得 到推荐知识。 0040 可以理解的是, 设备需要先构建强化学习模型网络, 具体的构建过程如下: 0041 首先, 设备可以定义强化学习模型中的状态模块、 动作模块和奖励模块, 再对强化 学习模型中的策略函数、 策略梯度和值函数模块进行算法优化设计, 然后按照设计的算法 构建强化学习模型网络。 0042 进一步的, 设备可以将预处理后的多维属性信息输入所构建的强化学习模型网络 中进行训练, 最终推荐理财系统将习得推荐知识。 00。

19、43 S104, 根据推荐知识向目标用户推荐理财产品。 0044 可以理解的是, 新的用户样本进来系统将自动给出用户最合适点击和购买的理财 产品, 并推荐给目标客户, 该目标用户即新的用户样本对应的用户。 0045 可选的, 设备可以通过短信和/或电话的方式想目标用户推荐理财产品, 并获得用 户的反馈信息。 0046 在本发明实施例中, 考虑了用户的行为序列信息, 采用了强化学习模型, 让推荐系 统挖掘出用户的历史浏览信息与理财产品信息之间的关系, 实现精准的个性化推荐, 提升 了推荐理财产品的精准性与转化率, 并且能够使得推荐系统可以捕捉、 跟踪建模用户兴趣、 行为的动态变化, 从而提升了推。

20、荐的动态性并获得了更为长期的收益。 0047 在本发明实施例的一种具体实现方式中, 设备构建强化学习模型网络的过程可以 如图2所示, 包括以下几个步骤: 0048 S201, 定义强化学习模型中的状态模块。 0049 具体实现中, 设备可以基于历史行为数据抽取状态特征, 将预设时间段内历史行 为数据对应的理财产品多维属性信息作为当前模型所处的状态, 基于状态特征和状态构建 定义强化学习模型中的状态模块。 说明书 3/9 页 6 CN 110598120 A 6 0050 在本申请实施例中, 用户被视为响应推荐系统动作的环境, 推荐系统需要感知环 境的状态进行决策。 基于假设用户在理财产品序列中。

21、倾向于点击他感兴趣的产品, 并且较 少点击他不感兴趣的产品, 将用户的历史点击行为作为抽取状态特征的数据来源。 在每一 次推荐前, 将用户在最近一段时间内点击的理财产品特征(包括利率、 转化率、 销量等)作为 当前推荐系统所处的状态, 另外, 为了区别不同群体的用户, 将用户的长期特征加入到状态 中, 最终状态s定义为: 0051 s(rate1,cvr1,sale1,raten,cvrn,salen,power,item) 0052 其中n表示历史点击理财产品的个数, 为可变参数, ratei,cvri,salei,power,item 分别表示理财产品i的利率、 转化率和销量以及用户的购买。

22、力、 偏好产品的标签。 在具体实 现时, 由于状态特征不同维度的尺度不同, 将所有维度的特征值归一化到0,1区间后在进 行处理。 0053 S202, 定义强化学习模型中的动作模块。 0054 具体的, 设备可以构建排序向量, 以排序向量定义强化学习模型中的动作模块。 例 如, 排序向量 ( 1, 2, m), 排序次序是由其特征分数和排序权重向量 的内积所决定 的。 0055 S203, 定义强化学习模型中的奖励模块。 0056 具体的, 设备可以结合多维属性信息和系统排序策略对理财产品进行排序, 为强 化学习模型中的奖赏函数引入先验知识, 基于引入先验知识的奖赏函数定义强化学习模型 中的奖。

23、励模块。 0057 在本申请实施例中, 根据推荐系统给出理财产品的排序结果, 用户对其进行点击 和购买等行为都可以看成对推荐系统排序策略的直接反馈。 奖励规则定义如下: 0058 (1)在推荐序列中如果仅发生产品的点击行为, 则奖励值为用户点击产品的数量。 0059 (2)在推荐序列中如果发生理财产品的购买行为, 则奖励值为产品被购买的金额。 0060 (3)其他情况, 奖赏值为0。 0061 为了提高不同排序策略在反馈信号上的区分度, 可以在原有的奖赏函数中引入一 些先验的知识, 加速强化学习模型的收敛, 将 “在状态s上选择动作a, 并转移到状态s ” 的奖 赏值定义为: 0062 R(s。

24、,a,s)R0(s,a,s)+(s) 0063 其中, R0(s,a,s)为原始定义的奖赏函数, (s)为包含先验知识的函数, 将每个 状态对应的推荐理财产品列表信息纳入到奖赏的定义中去, 定义为: 0064 0065 其中, K为状态s对应推荐理财产品列表中产品的个数, i表示第i个产品, (s)为 推荐系统在状态s执行的动作, ML(i| (s)表示排序策略 (s)为时对理财产品的点击或成 交的极大似然估计, 令理财产品i的特征向量(即利率、 销量、 人气分、 实时分等特征)为 则为理财产品i在状态s下的最终排序分数。 令yi0,1为理 财产品i实际被点击或成交的标签, 假定理财产品i的实。

25、际点击成交概率pi与其排序分数 满足 说明书 4/9 页 7 CN 110598120 A 7 0066 0067 则理财产品i的似然概率为: 0068 0069 对其取对数, 并将所有理财产品对数似然概率综合起来: 0070 0071 将点击和成交的效果纳入其中考虑, 对于只有点击的理财产品推荐列表, 其对应 的为: 0072 0073其中, 是理财产品i被点击与否的标签。 对于有成交发生的样本, 将商品价格因 素加入其中, 得到 0074 0075其中,和Pr icei分别是理财产品i被购买与否的标签和它的价格。 0076 S204, 对强化学习模型中的策略函数、 策略梯度和值函数模块进行。

26、算法优化设计。 0077 具体实现中, 设备可以采用参数化的函数对策略进行表达, 通过优化参数完成策 略函数的学习。 优选的, 设备可以采用策略逼近方法, 即用参数化的函数对策略进行表达, 通过优化参数来完成策略的学习。 用确定性策略梯度算法来进行排序的实时调控优化。 以 状态特征为输入, 以最终生效的排序权重分为输出, 对于任意状态s, 动作输出 0078 0079其中, ( 1, 2, m)为动作的参数向量,为第i维的排序权重分, 具体有 0080 0081 其中(s)为状态s的特征向量, Ci为第i维排序权重分的常数。 0082 进一步的, 设备可以基于确定的策略在所有状态上获得目标函数。

27、, 并根据梯度策 略优化更新该目标函数, 其中, 目标函数为长期积累奖赏期望之和。 需要说明的是, 强化学 习模型的目标是最大化长期累积奖赏, 即在确定性策略 的作用下, 推荐系统在所有状态 上所能够获得的长期累积奖赏期望之和: 0083 0084 通过求取目标函数J( )关于参数 的梯度来使得J( )最大化, 使 往梯度方向进 行更新。 根据策略梯度定理, 其梯度为 0085 说明书 5/9 页 8 CN 110598120 A 8 0086 其中, Q (s,a)为策略 下状态动作对(s,a)对应的长期累积奖赏。 因此, 参数 的更 新公式为 0087 0088其中, 为学习率,为一个雅克。

28、比矩阵, Q (s,a)需用值函数估计方法进行 近似计算, 采用线性函数估计方法, 将Q函数用参数向量w表达: 0089 Q (s,a)Qw(s,a)(s,a)Tw 0090其中, (s,a)为状态动作对(s,a)的特征向量, 可以选择令则 可以得到 0091 0092因此, 策略函数的参数向量的更新公式为: 0093 进一步的, 设备可以引入优势函数, 基于优势函数设计强化学习模型中的值函数。 可以理解的是, 值函数Qw的参数向量w也需要进行更新, 可以参照Q-learning算法, 对于样 本(st,at,rt,st+1)有: 0094 0095 0096 其中, st,at,rt,st+。

29、1分别为推荐系统在t时刻感知的状态、 所做的动作、 从获得的奖 赏反馈和在t+1时刻感知的状态, t+1被称作差分误差, w为w的学习率。 引入优势函数, 将Q 函数用状态值函数V(s)和优势函数A(s, a)的和进行表达, 用V(s)从全局角度估计状态s的 值, 用A(s, a)从局部角度估计动作a在状态s中的相对于其他动作的优势: 0097 0098 其中, w和v分别为A和V的参数向量。 最后, 所有参数的更新方式如下: 0099 0100 0101 0102 vt+1vt+ vt+1(st) 0103 S205, 按照设计的算法构建强化学习模型网络。 0104 在本实施例中, 通过构建。

30、强化学习模型网络, 进一步增加了个性化推荐的精准度。 0105 下面将结合附图3-附图6, 对本发明实施例提供的基于行为数据的理财推荐装置 和强化学习模型网络构建装置进行详细介绍。 需要说明的是, 附图3-附图6所示的理财推荐 装置, 用于执行本发明图1和图2所示实施例的方法, 为了便于说明, 仅示出了与本发明实施 例相关的部分, 具体技术细节未揭示的, 请参照本发明图1和图2所示的实施例。 0106 请参见图3, 为本发明实施例提供了一种基于行为数据的理财推荐装置的结构示 说明书 6/9 页 9 CN 110598120 A 9 意图。 如图3所示, 本发明实施例的理财推荐装置10可以包括:。

31、 数据获取单元101、 数据预处 理单元102、 模型训练单元103、 产品推荐单元104和数据规范单元105。 如图4所示, 网络构建 装置20可以包括模块定义单元201、 函数设计单元202和模型构建单元203。 其中, 模块定义 单元201如图5所示, 包括特征抽取子单元2011、 状态确定子单元2012、 状态定义子单元 2013、 动作定义子单元2014、 产品排序子单元2015、 知识引入子单元2016和奖励定义子单元 2017, 函数设计单元202如图6所示, 包括策略函数设计子单元2021、 策略梯度设计子单元 2022和值函数设计子单元2023。 0107 数据获取单元101。

32、, 用于获取多维属性信息和历史行为数据, 多维属性信息包括理 财产品多维属性信息及其对应的用户多维属性信息。 0108 可选的, 数据规范单元105, 用于对多维属性信息进行规范化处理, 得到符合预设 格式的量化数据。 0109 数据预处理单元102, 用于对多维属性信息和历史行为数据进行预处理, 预处理包 括筛选、 清晰、 缺失值处理和奇异值处理中的一个或多个。 0110 模型训练单元103, 用于将预处理后的多维属性信息输入所构建的强化学习模型 网络中进行训练得到推荐知识。 0111 产品推荐单元104, 用于根据推荐知识向目标用户推荐理财产品。 0112 在另一种实施例中: 0113 模。

33、块定义单元201, 用于定义强化学习模型中的状态模块、 动作模块和奖励模块。 0114 在可选实施例中, 模块定义单元201包括: 0115 特征抽取子单元2011, 用于基于历史行为数据抽取状态特征。 0116 状态确定子单元2012, 用于将预设时间段内历史行为数据对应的理财产品多维属 性信息作为当前模型所处的状态。 0117 状态定义子单元2013, 用于基于状态特征和状态构建定义强化学习模型中的状态 模块。 0118 动作定义子单元2014, 用于构建排序向量, 以排序向量定义强化学习模型中的动 作模块。 0119 产品排序子单元2015, 用于结合多维属性信息和系统排序策略对理财产品。

34、进行排 序。 0120 知识引入子单元2016, 用于为强化学习模型中的奖赏函数引入先验知识。 0121 奖励定义子单元2017, 用于基于引入先验知识的奖赏函数定义强化学习模型中的 奖励模块。 0122 函数设计单元202, 用于对强化学习模型中的策略函数、 策略梯度和值函数模块进 行算法优化设计。 0123 在可选实施例中, 函数设计单元202包括: 0124 策略函数设计子单元2021, 用于采用参数化的函数对策略进行表达, 通过优化参 数完成策略函数的学习。 0125 策略梯度设计子单元2022, 用于基于确定的策略在所有状态上获得目标函数, 并 根据梯度策略优化更新目标函数, 目标函。

35、数为长期积累奖赏期望之和。 0126 值函数设计子单元2023, 用于引入优势函数, 基于优势函数设计强化学习模型中 说明书 7/9 页 10 CN 110598120 A 10 的值函数。 0127 模型构建单元203, 用于按照设计的算法构建强化学习模型网络。 0128 需要说明的是, 本实施例中各单元和子单元的详细执行过程可以参将上述方法实 施例中的描述, 此处不再赘述。 0129 在本发明实施例中, 考虑了用户的行为序列信息, 采用了强化学习模型, 让推荐系 统挖掘出用户的历史浏览信息与理财产品信息之间的关系, 实现精准的个性化推荐, 提升 了推荐理财产品的精准性与转化率, 并且能够使。

36、得推荐系统可以捕捉、 跟踪建模用户兴趣、 行为的动态变化, 从而提升了推荐的动态性并获得了更为长期的收益。 0130 本发明实施例还提供了一种计算机存储介质, 所述计算机存储介质可以存储有多 条指令, 所述指令适于由处理器加载并执行如上述图1和图2所示实施例的方法步骤, 具体 执行过程可以参见图1和图2所示实施例的具体说明, 在此不进行赘述。 0131 本申请实施例还提供了一种计算机设备。 如图7所示, 计算机设备30可以包括: 至 少一个处理器301, 例如CPU, 至少一个网络接口304, 用户接口303, 存储器305, 至少一个通 信总线302, 可选地, 还可以包括显示屏306。 其。

37、中, 通信总线302用于实现这些组件之间的连 接通信。 其中, 用户接口303可以包括触摸屏、 键盘或鼠标等等。 网络接口304可选的可以包 括标准的有线接口、 无线接口(如WI-FI接口), 通过网络接口304可以与服务器建立通信连 接。 存储器305可以是高速RAM存储器, 也可以是非不稳定的存储器(non-volatile memory), 例如至少一个磁盘存储器, 存储器305包括本发明实施例中的flash。 存储器305可 选的还可以是至少一个位于远离前述处理器301的存储系统。 如图7所示, 作为一种计算机 存储介质的存储器305中可以包括操作系统、 网络通信模块、 用户接口模块以。

38、及程序指令。 0132 需要说明的是, 网络接口304可以连接接收器、 发射器或其他通信模块, 其他通信 模块可以包括但不限于WiFi模块、 蓝牙模块等, 可以理解, 本发明实施例中计算机设备也可 以包括接收器、 发射器和其他通信模块等。 0133 处理器301可以用于调用存储器305中存储的程序指令, 并使计算机设备30执行以 下操作: 0134 获取多维属性信息和历史行为数据, 多维属性信息包括理财产品多维属性信息及 其对应的用户多维属性信息; 0135 对多维属性信息和历史行为数据进行预处理, 预处理包括筛选、 清晰、 缺失值处理 和奇异值处理中的一个或多个; 0136 将预处理后的多维。

39、属性信息输入所构建的强化学习模型网络中进行训练得到推 荐知识; 0137 根据推荐知识向目标用户推荐理财产品。 0138 在一些实施例中, 设备30还用于: 0139 定义强化学习模型中的状态模块、 动作模块和奖励模块; 0140 对强化学习模型中的策略函数、 策略梯度和值函数模块进行算法优化设计; 0141 按照设计的算法构建强化学习模型网络。 0142 在一些实施例中, 设备30还用于: 0143 对多维属性信息进行规范化处理, 得到符合预设格式的量化数据。 0144 在一些实施例中, 规范化处理为布尔型规范化处理。 说明书 8/9 页 11 CN 110598120 A 11 0145 。

40、在一些实施例中, 设备30在定义强化学习模型中的状态模块时, 具体用于: 0146 基于历史行为数据抽取状态特征; 0147 将预设时间段内历史行为数据对应的理财产品多维属性信息作为当前模型所处 的状态; 0148 基于状态特征和状态构建定义强化学习模型中的状态模块。 0149 在一些实施例中, 设备30在定义强化学习模型中的动作模块时, 具体用于: 0150 构建排序向量, 以排序向量定义强化学习模型中的动作模块。 0151 在一些实施例中, 设备30在定义强化学习模型中的奖励模块时, 具体用于: 0152 结合多维属性信息和系统排序策略对理财产品进行排序; 0153 为强化学习模型中的奖赏。

41、函数引入先验知识; 0154 基于引入先验知识的奖赏函数定义强化学习模型中的奖励模块。 0155 在一些实施例中, 设备30在对强化学习模型中的策略函数、 策略梯度和值函数模 块进行算法优化设计时, 具体用于: 0156 采用参数化的函数对策略进行表达, 通过优化参数完成策略函数的学习; 0157 基于确定的策略在所有状态上获得目标函数, 并根据梯度策略优化更新目标函 数, 目标函数为长期积累奖赏期望之和; 0158 引入优势函数, 基于优势函数设计强化学习模型中的值函数。 0159 在本发明实施例中, 考虑了用户的行为序列信息, 采用了强化学习模型, 让推荐系 统挖掘出用户的历史浏览信息与理。

42、财产品信息之间的关系, 实现精准的个性化推荐, 提升 了推荐理财产品的精准性与转化率, 并且能够使得推荐系统可以捕捉、 跟踪建模用户兴趣、 行为的动态变化, 从而提升了推荐的动态性并获得了更为长期的收益。 0160 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以 通过计算机程序来指令相关的硬件来完成, 所述的程序可存储于计算机可读取存储介质 中, 该程序在执行时, 可包括如上述各方法的实施例的流程。 其中, 所述的存储介质可为磁 碟、 光盘、 只读存储记忆体(Read-Only Memory, ROM)或随机存储记忆体(Random Access Memory, RAM)等。 0161 以上所揭露的仅为本发明较佳实施例而已, 当然不能以此来限定本发明之权利范 围, 因此依本发明权利要求所作的等同变化, 仍属本发明所涵盖的范围。 说明书 9/9 页 12 CN 110598120 A 12 图1 图2 说明书附图 1/4 页 13 CN 110598120 A 13 图3 图4 说明书附图 2/4 页 14 CN 110598120 A 14 图5 说明书附图 3/4 页 15 CN 110598120 A 15 图6 图7 说明书附图 4/4 页 16 CN 110598120 A 16 。

展开阅读全文
内容关键字: 基于 行为 数据 理财 推荐 方法 装置 设备
关于本文
本文标题:基于行为数据的理财推荐方法及装置、设备.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10985854.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1