微信文章真实阅读率的预测方法、装置及设备.pdf
《微信文章真实阅读率的预测方法、装置及设备.pdf》由会员分享,可在线阅读,更多相关《微信文章真实阅读率的预测方法、装置及设备.pdf(18页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910770567.X (22)申请日 2019.08.20 (71)申请人 精硕科技 (北京) 股份有限公司 地址 100080 北京市海淀区中关村东升科 技园B区2号楼3层C区 (72)发明人 王新乐薛睿蓉 (74)专利代理机构 北京安信方达知识产权代理 有限公司 11262 代理人 王康栗若木 (51)Int.Cl. G06Q 10/04(2012.01) G06F 16/2458(2019.01) G06N 20/00(2019.01) (54)发明名称 一种微信文。
2、章真实阅读率的预测方法、 装置 及设备 (57)摘要 一种微信文章真实阅读率的预测方法、 装置 及设备, 其中, 所述方法包括: 根据微信文章的静 态数据和时间序列数据提取特征数据; 根据所述 特征数据构建机器学习模型; 采用所述机器学习 模型对微信文章真实阅读率进行预测。 本申请实 施例结合静态数据和时间序列数据, 即利用了静 态数据, 又使用时间序列数据扩充了特征, 弥补 了静态数据对监测时间敏感的缺点; 而且使用了 一套特征工程化方法, 提取了大量特征, 扩充了 数据维度, 即降低了人工筛选特征的成本, 又提 高了模型的泛化性, 通过特征工程提取海量特征 数据, 用机器学习模型进行特征筛。
3、选, 减少人为 经验的判断, 有效提高真实阅读率的预测精度。 权利要求书2页 说明书10页 附图5页 CN 110570025 A 2019.12.13 CN 110570025 A 1.一种微信文章真实阅读率的预测方法, 其特征在于, 包括: 根据微信文章的静态数据和时间序列数据提取特征数据; 根据所述特征数据构建机器学习模型; 采用所述机器学习模型对微信文章真实阅读率进行预测。 2.根据权利要求1所述的方法, 其特征在于, 所述根据微信文章的静态数据提取特征数 据, 包括如下至少之一: 对所述静态数据中的分类变量进行独热编码, 将所述分类变量转换为数值向量, 将所 述数值向量作为特征数据;。
4、 提取所述静态数据中的数值变量, 将所述数值变量作为特征数据; 提取所述静态数据中的数值变量, 根据所述数值变量构造特征数据。 3.根据权利要求1所述的方法, 其特征在于, 所述根据微信文章的时间序列数据提取特 征数据, 包括: 采用高通HP滤波的方式对所述时间序列数据进行处理; 基于HP滤波处理的结果构造特征数据。 4.根据权利要求3所述的方法, 其特征在于, 所述采用HP滤波的方式对所述时间序列数 据进行处理, 包括: 将所述时间序列数据按照时间顺序进行排序, 采用插值法将所述时间序列数据处理成 预设时间间隔的时间序列数据; 计算所述预设时间间隔的时间序列数据的差分序列; 对所述差分序列进。
5、行HP滤波处理, 得到异常值及对应的时间位置; 采用平均值法消除异常值, 得到HP滤波处理后的时间序列数据。 5.根据权利要求4所述的方法, 其特征在于, 所述基于HP滤波处理的结果构造特征数 据, 包括: 基于不同时间段异常值个数、 不同时间段峰值个数和基于指定时间段是否出现峰值或 异常值中的至少之一构建特征数据。 6.根据权利要求3所述的方法, 其特征在于, 所述方法还包括: 调整HP滤波的参数, 重新基于HP滤波处理的结果构造特征数据。 7.根据权利要求1所述的方法, 其特征在于, 所述根据所述特征数据构建机器学习模 型, 包括: 对所述特征数据进行数据预处理; 根据微信文章的标签数据和。
6、经过数据预处理的特征数据构建分类模型; 按照分类模型对所述特征数据进行分组, 对每组特征数据分别构建回归模型。 8.根据权利要求7所述的方法, 其特征在于, 所述根据微信文章的标签数据和经过数据 预处理的特征数据构建分类模型, 包括: 获取微信文章的标签数据, 根据所述标签数据的分布特性生成分类标签数据; 根据所述特征数据和分类标签数据训练LightGBM分类模型。 9.根据权利要求8所述的方法, 其特征在于, 所述按照分类模型对所述特征数据进行分 组, 对每组特征数据分别构建回归模型, 包括: 按照分类模型的分类标签数据将所述特征数据划分为两组; 权利要求书 1/2 页 2 CN 11057。
7、0025 A 2 分别针对两组特征数据训练LightGBM回归模型。 10.根据权利要求1所述的方法, 其特征在于, 所述机器学习模型包括分类模型和回归 模型, 所述采用所述机器学习模型对微信文章真实阅读率进行预测, 包括: 对微信文章进行数据预处理; 将经过数据预处理的数据输入所述分类模型确定类别; 根据所述类别确定对应的回归模型, 将所述经过数据预处理的特征数据输入对应的回 归模型, 输出微信文章真实阅读率。 11.一种微信文章真实阅读率的预测装置, 其特征在于, 包括: 特征提取模块, 用于根据微信文章的静态数据和时间序列数据提取特征数据; 模型构建模块, 用于根据所述特征数据构建机器学。
8、习模型; 预测模块, 用于采用所述机器学习模型对微信文章真实阅读率进行预测。 12.一种微信文章真实阅读率的预测设备, 包括: 存储器、 处理器及存储在存储器上并 可在处理器上运行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要 求110中任意一项所述的方法。 13.一种计算机可读存储介质, 存储有计算机可执行指令, 所述计算机可执行指令用于 执行权利要求110中任意一项所述的方法。 权利要求书 2/2 页 3 CN 110570025 A 3 一种微信文章真实阅读率的预测方法、 装置及设备 技术领域 0001 本文涉及社交平台领域, 尤指一种微信文章真实阅读率的预测方法、 。
9、装置、 设备和 计算机可读存储介质。 背景技术 0002 随着网络的飞速发展, 把生活建立在数据流量基础上的人越来越多。 流量的影子 无处不在, 数据流量成为社会信息流的重要支撑。 对于广告主而言流量更是具有极大的商 业价值。 而在社交平台上进行商业化投放, 如何识别KOL(Key Opinion Leader, 关键意见领 袖)的流量引导能力, 是广告主进行商业化投放所要解决的重要难题。 0003 流量具有的巨大价值也诱发各种流量造假的行为, 使得判断KOL的影响力变得愈 发困难。 传统的方法用粉丝量来判断一个KOL的影响力, 这种简单粗暴的方法随着注册虚假 账号刷流量行为的出现效果也越来越。
10、差。 另外一个非常普遍的方法则是用转评赞来判断一 篇帖子的热度, 然而转评赞数据很容易因恶意刷流量造假, 其可信度也很难评估。 因此, 亟 待提出一种有效的评估手段能够去除数据的水分从而帮助广告主进行广告投放决策。 发明内容 0004 本申请提供了一种微信文章真实阅读率的预测方法、 装置、 设备和计算机可读存 储介质, 以提高真实阅读率的预测精度。 0005 本申请实施例提供了一种微信文章真实阅读率的预测方法, 包括: 0006 根据微信文章的静态数据和时间序列数据提取特征数据; 0007 根据所述特征数据构建机器学习模型; 0008 采用所述机器学习模型对微信文章真实阅读率进行预测。 000。
11、9 在一种示例性的实施例中, 所述根据微信文章的静态数据提取特征数据, 包括如 下至少之一: 0010 对所述静态数据中的分类变量进行独热编码, 将所述分类变量转换为数值向量, 将所述数值向量作为特征数据; 0011 提取所述静态数据中的数值变量, 将所述数值变量作为特征数据; 0012 提取所述静态数据中的数值变量, 根据所述数值变量构造特征数据。 0013 在一种示例性的实施例中, 所述根据微信文章的时间序列数据提取特征数据, 包 括: 0014 采用高通HP滤波的方式对所述时间序列数据进行处理; 0015 基于HP滤波处理的结果构造特征数据。 0016 在一种示例性的实施例中, 所述采用。
12、HP滤波的方式对所述时间序列数据进行处 理, 包括: 0017 将所述时间序列数据按照时间顺序进行排序, 采用插值法将所述时间序列数据处 理成预设时间间隔的时间序列数据; 说明书 1/10 页 4 CN 110570025 A 4 0018 计算所述预设时间间隔的时间序列数据的差分序列; 0019 对所述差分序列进行HP滤波处理, 得到异常值及对应的时间位置; 0020 采用平均值法消除异常值, 得到HP滤波处理后的时间序列数据。 0021 在一种示例性的实施例中, 所述基于HP滤波处理的结果构造特征数据, 包括: 0022 基于不同时间段异常值个数、 不同时间段峰值个数和基于指定时间段是否出。
13、现峰 值或异常值中的至少之一构建特征数据。 0023 在一种示例性的实施例中, 所述方法还包括: 0024 调整HP滤波的参数, 重新基于HP滤波处理的结果构造特征数据。 0025 在一种示例性的实施例中, 所述根据所述特征数据构建机器学习模型, 包括: 0026 对所述特征数据进行数据预处理; 0027 根据微信文章的标签数据和经过数据预处理的特征数据构建分类模型; 0028 按照分类模型对所述特征数据进行分组, 对每组特征数据分别构建回归模型。 0029 在一种示例性的实施例中, 所述根据微信文章的标签数据和经过数据预处理的特 征数据构建分类模型, 包括: 0030 获取微信文章的标签数据。
14、, 根据所述标签数据的分布特性生成分类标签数据; 0031 根据所述特征数据和分类标签数据训练LightGBM分类模型。 0032 在一种示例性的实施例中, 所述按照分类模型对所述特征数据进行分组, 对每组 特征数据分别构建回归模型, 包括: 0033 按照分类模型的分类标签数据将所述特征数据划分为两组; 0034 分别针对两组特征数据训练LightGBM回归模型。 0035 在一种示例性的实施例中, 所述机器学习模型包括分类模型和回归模型, 所述采 用所述机器学习模型对微信文章真实阅读率进行预测, 包括: 0036 对微信文章进行数据预处理; 0037 将经过数据预处理的数据输入所述分类模型。
15、确定类别; 0038 根据所述类别确定对应的回归模型, 将所述经过数据预处理的特征数据输入对应 的回归模型, 输出微信文章真实阅读率。 0039 本申请实施例还提供一种微信文章真实阅读率的预测装置, 包括: 0040 特征提取模块, 用于根据微信文章的静态数据和时间序列数据提取特征数据; 0041 模型构建模块, 用于根据所述特征数据构建机器学习模型; 0042 预测模块, 用于采用所述机器学习模型对微信文章真实阅读率进行预测。 0043 本申请实施例还提供一种微信文章真实阅读率的预测设备, 包括: 存储器、 处理器 及存储在存储器上并可在处理器上运行的计算机程序, 其特征在于, 所述处理器执。
16、行所述 程序时实现所述微信文章真实阅读率的预测方法。 0044 本申请实施例还提供一种计算机可读存储介质, 存储有计算机可执行指令, 所述 计算机可执行指令用于执行所述微信文章真实阅读率的预测方法。 0045 与相关技术相比, 本申请包括: 根据微信文章的静态数据和时间序列数据提取特 征数据; 根据所述特征数据构建机器学习模型; 采用所述机器学习模型对微信文章真实阅 读率进行预测。 本申请实施例结合静态数据和时间序列数据, 即利用了静态数据, 又使用时 间序列数据扩充了特征, 弥补了静态数据对监测时间敏感的缺点; 而且使用了一套特征工 说明书 2/10 页 5 CN 110570025 A 5。
17、 程化方法, 提取了大量特征, 扩充了数据维度, 即降低了人工筛选特征的成本, 又提高了模 型的泛化性, 通过特征工程提取海量特征数据, 用机器学习模型进行特征筛选, 减少人为经 验的判断, 有效提高真实阅读率的预测精度。 0046 在一种示例性的实施例中, 采用了先分类模型判别真实阅读率区间, 再回归模型 预测真实阅读率的策略, 有效提高了模型效果, 降低预测误差。 0047 在一种示例性的实施例中, 利用HP滤波的方式检测时间序列数据增量波动, 更直 接有效地发现异常值。 0048 在一种示例性的实施例中, 机器学习采用LightGBM算法, 训练速度更快, 低内存使 用, 更高的准确率,。
18、 支持并行化学习。 0049 本申请的其它特征和优点将在随后的说明书中阐述, 并且, 部分地从说明书中变 得显而易见, 或者通过实施本申请而了解。 本申请的其他优点可通过在说明书、 权利要求书 以及附图中所描述的方案来实现和获得。 附图说明 0050 附图用来提供对本申请技术方案的理解, 并且构成说明书的一部分, 与本申请的 实施例一起用于解释本申请的技术方案, 并不构成对本申请技术方案的限制。 0051 图1为本申请实施例的微信文章真实阅读率的预测方法的流程图; 0052 图2为本申请实施例的时间序列数据的特征提取的流程图; 0053 图3是本申请实施例的步骤102的流程图; 0054 图4。
19、是本申请实施例的步骤302的流程图; 0055 图5是本申请实施例的标签数据直方图示意图; 0056 图6是本申请实施例的步骤303的流程图; 0057 图7是本申请实施例的步骤103的流程图; 0058 图8是本申请实施例的模型预测过程的示意图; 0059 图9是本申请实施例还提供微信文章真实阅读率的预测装置的组成示意图。 具体实施方式 0060 本申请描述了多个实施例, 但是该描述是示例性的, 而不是限制性的, 并且对于本 领域的普通技术人员来说显而易见的是, 在本申请所描述的实施例包含的范围内可以有更 多的实施例和实现方案。 尽管在附图中示出了许多可能的特征组合, 并在具体实施方式中 进。
20、行了讨论, 但是所公开的特征的许多其它组合方式也是可能的。 除非特意加以限制的情 况以外, 任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结 合使用, 或可以替代任何其它实施例中的任何其他特征或元件。 0061 本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。 本申请已 经公开的实施例、 特征和元件也可以与任何常规特征或元件组合, 以形成由权利要求限定 的独特的发明方案。 任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元 件组合, 以形成另一个由权利要求限定的独特的发明方案。 因此, 应当理解, 在本申请中示 出和/或讨论的任何特征可以单独地或以。
21、任何适当的组合来实现。 因此, 除了根据所附权利 要求及其等同替换所做的限制以外, 实施例不受其它限制。 此外, 可以在所附权利要求的保 说明书 3/10 页 6 CN 110570025 A 6 护范围内进行各种修改和改变。 0062 此外, 在描述具有代表性的实施例时, 说明书可能已经将方法和/或过程呈现为特 定的步骤序列。 然而, 在该方法或过程不依赖于本文所述步骤的特定顺序的程度上, 该方法 或过程不应限于所述的特定顺序的步骤。 如本领域普通技术人员将理解的, 其它的步骤顺 序也是可能的。 因此, 说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。 此 外, 针对该方法和/或过。
22、程的权利要求不应限于按照所写顺序执行它们的步骤, 本领域技术 人员可以容易地理解, 这些顺序可以变化, 并且仍然保持在本申请实施例的精神和范围内。 0063 相关技术提出可以采用指数加权的方法, 按照撰稿时间、 阅读量、 点赞量、 文章类 型、 文章投放位置等静态指标, 按照权重聚合计算出真实阅读率, 其中: 0064 真实阅读率w1*阅读量评分+w2*点赞量评分+w3*点赞量评分+wn*特征n评分 0065 这种方法具有如下缺陷: 0066 1、 利用静态横截面数据来预测真实阅读率, 受撰稿时间和指标计算时间影响显 著, 同一文章在不同时间节点, 计算出的真实阅读率可能大相径庭; 0067 。
23、2、 数据采取的特征变量较少, 无法有效衡量文章含水率; 0068 3、 评分较易受人为经验影响, 预测效果可能会有偏差。 0069 相关技术还提出可以基于规则来修正文章的监测数据计算真实阅读率, 比如消除 异常时间段的阅读增量、 或文章类别、 撰稿时间等比较苛刻的规则来修正真实阅读率, 这种 方法具有如下缺陷: 0070 1、 规则简单粗暴, 一刀切的做法, 并不适用于所有微信中所有撰稿的文章真实情 况; 0071 2、 单一规则效果差, 往往只能解决一种情况, 无法反映全部的现实; 0072 3、 多规则组合, 非常复杂, 规则越多越不具有普适性; 0073 4、 同一套规则, 适用于场景。
24、无法迁移。 0074 本申请实施例提出一种基于机器学习和HP滤波的微信阅读数真实阅读率预测方 法及装置, 从而为广告主进行商业化投放提供有效的帮助。 0075 如图1所示, 本申请实施例的微信文章真实阅读率的预测方法, 包括: 0076 步骤101, 根据微信文章的静态数据和时间序列数据提取特征数据。 0077 本申请实施例提取微信撰稿人(KOL)信息、 文章基本属性、 文章发布后的打点时间 检测数据等3大类数据来进行特征工程; 其中三类信息如下: 0078 撰稿人基本属性, 如等级、 撰稿次数、 用户id等静态数据; 0079 文章基本属性, 如文章类别、 文章发布时间、 文章字数等静态数据。
25、; 0080 文章发布后的打点时间检测数据, 如: 时间20:30:00/阅读量110/点赞量66, 等时 间序列数据。 0081 下面分别对静态数据和时间序列数据提取特征数据进行阐述。 0082 1、 静态数据的特征提取 0083 静态数据包括撰稿人的基本属性和文章的基本属性, 其中针对分类变量和数值变 量采取不同的处理手段。 0084 (1)分类变量的特征提取: 0085 在一实施例中 , 对所述静态数据中的分类变量进行独热编码(One-Hot 说明书 4/10 页 7 CN 110570025 A 7 Encoding), 将所述分类变量转换为数值向量, 将所述数值向量作为特征数据。 0。
26、086 其中, 提取撰稿人的基本属性和文章基本属性中的分类变量, 如文章类型、 文章版 面位置、 单多图文判断等特征。 对此类特征进行独热编码, 将分类变量转化为数值向量, 既 解决了分类器不好处理属性数据的问题, 又在一定程度上也起到了扩充特征的作用。 0087 独热编码过程示例如下: 0088 1)将待编码特征去重处理, 得到去重后的属性列表, 如美食, 旅游, 科技; 0089 2)根据属性列表, 确定转码向量长度, 并结合属性列表的位置, 将转码向量对应位 置的值赋为1, 其余赋为0, 建立映射; 如 “美食” : (1, 0, 0), “旅游” : (0, 1, 0), “科技” :。
27、 (0, 0, 1); 0090 3)用编码后的结果替换原数据。 0091 表格1独热编码示例数据 0092 文章列表文章类别 文章1美食 文章2旅游 文章3科技 0093 表格2独热编码示例结果 0094 0095 (2)数值变量的特征提取: 0096 在一实施例中, 提取所述静态数据中的数值变量, 将所述数值变量作为特征数据, 和/或提取所述静态数据中的数值变量, 根据所述数值变量构造特征数据。 0097 其中, 提取撰稿人的基本属性和文章基本属性中的数值变量, 或依据已有数值变 量构造一批新的特征。 如撰稿人账号注册时长账号注册时间-帖子发布时间, 按小时分发 帖时间段帖子发布时间对应的。
28、小时(24小时制)。 0098 合并(1)、 (2)提取的特征数据, 供后续建模使用。 0099 2、 时间序列数据的特征提取 0100 时间序列数据可以包括阅读数时间序列数据和点赞数时间序列数据, 如图2所示, 阅读数时间序列数据和点赞数时间序列数据的特征提取均可分别按照如下步骤执行: 0101 步骤201, 采用HP滤波的方式对所述时间序列数据进行处理。 0102 其中, HP滤波(High-Pass Filter)是时间序列在状态空间的一种分解方法, 可以 近似看作高通滤波器高频信号能正常通过, 而低于设定临界值的低频信号(长期趋势) 则被阻隔、 减弱。 时间序列可看作是不同频率成分的叠。
29、加, High-Pass就是将变化不定的时 说明书 5/10 页 8 CN 110570025 A 8 间序列数据中具有一定变化趋势的平滑序列分离出来, 将时间序列分为周期性波动数据和 趋势要素数据。 0103 在一实施例中, 步骤201可包括: 0104 1)将所述时间序列数据按照时间顺序进行排序, 采用插值法将所述时间序列数据 处理成预设时间间隔的时间序列数据; 0105 获取到的时间序列数据通常为不均匀的打点时间序列数据, 可采用插值法将该时 间序列数据调整为等间距的时间序列数据。 例如, 截取发帖时间24小时内的数据, 采用插值 法将数据处理成x分钟时间间隔的时间序列数据。 0106 。
30、2)计算所述预设时间间隔的时间序列数据的差分序列X; 0107 3)对所述差分序列进行HP滤波处理, 得到异常值及对应的时间位置; 0108 其中, 对所述差分序列X进行HP滤波分解处理, 得到一条消除周期性波动和趋势要 素的平滑序列XpredHPfilter(X,lambda); 其中, lambda为平滑系数; 0109 计算残差序列RX-Xpred; 0110 计算残差序列的绝对值序列Rabs|R|; 0111 计算Rabs的均值mean(Rabs)和标准差std(Rabs); 0112 按照alpha倍的标准差筛选异常值, 判断规则为Rabs-mean(Rabs)alpha*std (。
31、Rabs), 筛选出序列中的异常值点; 其中, alpha为标准差倍数; 0113 4)采用平均值法消除异常值, 得到HP滤波处理后的时间序列数据。 0114 diffi(diffi-1+diffi+1)/2, 其中i表示异常增长值对应的位置, diffi-1表示异常 值前一时刻的值, diffi+1表示异常值后一时刻的值, diffi表示用平均值法消除异常值后得 到的值。 0115 步骤202, 基于HP滤波处理的结果构造特征数据。 0116 针对HP滤波处理后的结果, 可以围绕以下三类情况构建若干特征: 不同时间段异 常值个数、 不同时间段峰值个数、 基于指定时间段是否出现峰值或异常值的分。
32、类特征。 0117 在一实施例中, 步骤202之后, 还可包括: 0118 步骤203, 调整HP滤波的参数, 重新基于HP滤波处理的结果构造特征数据。 0119 其中, 可以按照预设策略调整HP滤波算法参数。 0120 所述HP滤波算法参数包括平滑系数lambda和标准差倍数alpha, 可以通过调整平 滑系数lambda和标准差倍数alpha不同值的组合, 重新基于HP滤波处理的结果构造特征数 据。 0121 例如, 所述预设策略可以包括: 0122 1)采用网格化搜索的方式调整HP滤波算法参数alpha、 lambda; 0123 例如, alpha的取值范围是A:1, 0.1, 0.0。
33、1, 0.001, 0.0001, lambda的取值范围是 B:1,1.5,2,2.5,3; 0124 2)每次从A,B中各取一个值进行组合, 例如alpha:0.1,lambda:1000, 则上述共 有25种不重复的组合; 0125 3)每次输入一组参数组合, 可以提取一组新的特征。 0126 需要说明的是, 上述参数的数值为举例说明, 可以根据实际情况进行相应调整。 0127 合并步骤202、 203提取的特征数据, 供后续建模使用。 说明书 6/10 页 9 CN 110570025 A 9 0128 本申请实施例基于时间序列数据进行预测, 克服静态数据对检测时间节点敏感的 影响, 。
34、通过检测时间序列数据增量波动, 更直接有效地发现异常值; 特征工程提取海量特 征, 用模型进行特征筛选, 减少人为经验的判断。 0129 步骤102, 根据所述特征数据构建机器学习模型。 0130 其中, 构建机器学习模型基于经验人工标注标签, 标签取值范围为0, 1, 表示帖 子阅读量的真实阅读率。 0131 如图3所示, 在一实施例中, 步骤102包括: 0132 步骤301, 对所述特征数据进行数据预处理; 0133 其中, 数据预处理可以包括以下环节: 剔除无效数据、 补全缺失值、 归一化处理等。 0134 步骤302, 根据微信文章的标签数据和经过数据预处理的特征数据构建分类模型; 。
35、0135 如图4所示, 在一实施例中, 步骤302可以包括如下步骤: 0136 步骤401, 获取微信文章的标签数据, 根据所述标签数据的分布特性生成分类标签 数据。 0137 其中, 微信文章的标签数据是指人工标注的标签数据, 取值范围为0, 1, 表示帖 子阅读量的真实阅读率。 0138 标签数据的分布特性可以采用分布直方图的形式表示。 0139 如图5所示, 绘制标签数据的分布直方图, 以0.1为间隔绘制直方图, 根据直方图初 步判断方案。 方案为先训练分类模型对数据类别进行判断类别, 之后针对性训练回归模型 可以提高回归模型效果。 0140 从积累的标注数据真实阅读率的分布可以看出, 。
36、真实阅读率分布不均衡, 即70 的数据在0.8以上, 20的数据在0.3以下, 只有10数据在0.30.8之间; 结合数据特征看 且不同真实率区间范围数据的特征也相差较大。 0141 综合以上两点考虑, 先进行模型分类, 将数据判断至不同的区间后再针对不同区 间训练不同的回归模型预测真实阅读率。 该技术手段在本申请实践中证明有效降低真实阅 读率的预测误差。 0142 在一实施例中, 生成分类标签数据, 将标签数据按照0.8切分, 0.8以上的标签转化 为1, 0.8以下的标签转化为0。 0143 除了划分为两组, 在其他实施例中, 也可以将标签数据划分为更多的组。 0144 步骤402, 根据。
37、所述特征数据和分类标签数据训练LightGBM分类模型。 0145 LightGBM是一个梯度Boosting框架, 使用基于决策树的学习算法。 采用LightGBM 算法, 训练速度更快, 低内存使用, 更高的准确率, 支持并行化学习。 0146 其中, 基于提取的特征和分类标签数据训练LightGBM分类模型, 调整参数, 反复优 化模型至最优。 0147 步骤303, 按照分类模型对所述特征数据进行分组, 对每组特征数据分别构建回归 模型。 0148 如图6所示, 在一实施例中, 步骤303包括: 0149 步骤601, 按照分类模型的分类标签数据将所述特征数据划分为两组; 0150 其。
38、中, 按照分类模型的分类标签数据划分特征数据, 当分类标签数据为多组时, 相 应地, 也将特征数据划分为多组。 说明书 7/10 页 10 CN 110570025 A 10 0151 步骤602, 分别针对两组特征数据训练LightGBM回归模型。 0152 其中, 调整LightGBM回归模型参数, 反复优化模型至最优。 0153 步骤103, 采用所述机器学习模型对微信文章真实阅读率进行预测。 0154 本步骤中, 采用机器学习模型为步骤102训练好的机器学习模型, 包括分类模型和 回归模型。 0155 如图7所示, 在一实施例中, 步骤103包括: 0156 步骤701, 对微信文章进。
39、行数据预处理。 0157 其中, 数据预处理包括数据清洗及特征提取, 特征提取采用步骤101的方法。 0158 步骤702, 将经过数据预处理的数据输入所述分类模型确定类别。 0159 其中, 将数据输入分类模型可以得到类别标签, 相应地确定类别。 0160 步骤703, 根据所述类别确定对应的回归模型, 将所述经过数据预处理的特征数据 输入对应的回归模型, 输出微信文章真实阅读率。 0161 本申请实施例使用先训练分类模型将样本区分类别, 后针对不同类别样本进行回 归的策略, 提高真实阅读率的预测精度。 0162 参照图8, 为模型预测过程。 本申请实施例采用的分类模型算法和回归模型算法均 。
40、为LightGBM。 该算法支持并行化学习、 较低的内存占用、 更快速的训练效率, 具有更高的准 确率。 算法能够根据损失函数自动进行特征筛选过程, 提取有效特征, 剔除无效特征; 针对 不同的真实阅读率区间, 00.8和0.81分别训练回归模型, 相同区间的数据特征分布更 为接近, 不同区间的数据特征差异较大, 因此分别训练回归模型能够更好的拟合模型, 在准 确率方面有较好的表现。 0163 如图9所示, 本申请实施例还提供微信文章真实阅读率的预测装置, 包括: 0164 特征提取模块91, 用于根据微信文章的静态数据和时间序列数据提取特征数据; 0165 模型构建模块92, 用于根据所述特。
41、征数据构建机器学习模型; 0166 预测模块93, 用于采用所述机器学习模型对微信文章真实阅读率进行预测。 0167 在一实施例中, 所述特征提取模块91, 用于采用如下方式中的至少之一提取对所 述静态数据的特征数据: 0168 对所述静态数据中的分类变量进行独热编码, 将所述分类变量转换为数值向量, 将所述数值向量作为特征数据; 0169 提取所述静态数据中的数值变量, 将所述数值变量作为特征数据; 0170 提取所述静态数据中的数值变量, 根据所述数值变量构造特征数据。 0171 在一实施例中, 所述特征提取模块91, 用于: 0172 采用HP滤波的方式对所述时间序列数据进行处理; 01。
42、73 基于HP滤波处理的结果构造特征数据。 0174 在一实施例中, 所述特征提取模块91, 用于: 0175 将所述时间序列数据按照时间顺序进行排序, 采用插值法将所述时间序列数据处 理成预设时间间隔的时间序列数据; 0176 计算所述预设时间间隔的时间序列数据的差分序列; 0177 对所述差分序列进行HP滤波处理, 得到异常值及对应的时间位置; 0178 采用平均值法消除异常值, 得到HP滤波处理后的时间序列数据。 说明书 8/10 页 11 CN 110570025 A 11 0179 在一实施例中, 特征提取模块91, 用于: 0180 基于不同时间段异常值个数、 不同时间段峰值个数和。
43、基于指定时间段是否出现峰 值或异常值中的至少之一构建特征数据。 0181 在一实施例中, 所述特征提取模块91, 还用于: 0182 调整HP滤波的参数, 重新基于HP滤波处理的结果构造特征数据。 0183 在一实施例中, 所述模型构建模块92, 用于: 0184 所述根据所述特征数据构建机器学习模型, 包括: 0185 对所述特征数据进行数据预处理; 0186 根据微信文章的标签数据和经过数据预处理的特征数据构建分类模型; 0187 按照分类模型对所述特征数据进行分组, 对每组特征数据分别构建回归模型。 0188 在一实施例中, 所述模型构建模块92, 用于: 0189 获取微信文章的标签数。
44、据, 根据所述标签数据的分布特性生成分类标签数据; 0190 根据所述特征数据和分类标签数据训练LightGBM分类模型。 0191 在一实施例中, 所述模型构建模块92, 用于: 0192 按照分类模型的分类标签数据将所述特征数据划分为两组; 0193 分别针对两组特征数据训练LightGBM回归模型。 0194 在一实施例中, 所述机器学习模型包括分类模型和回归模型, 所述预测模块93, 用 于 0195 对微信文章进行数据预处理; 0196 将经过数据预处理的数据输入所述分类模型确定类别; 0197 根据所述类别确定对应的回归模型, 将所述经过数据预处理的特征数据输入对应 的回归模型, 。
45、输出微信文章真实阅读率。 0198 本申请实施例基于时间序列数据进行预测, 克服静态数据对检测时间节点敏感的 影响, 通过特征工程提取海量特征数据, 用机器学习模型进行特征筛选, 减少人为经验的判 断, 有效提高真实阅读率的预测精度。 0199 本申请实施例还提一种微信文章真实阅读率的预测设备, 包括: 存储器、 处理器及 存储在存储器上并可在处理器上运行的计算机程序, 所述处理器执行所述程序时实现所述 微信文章真实阅读率的预测方法。 0200 本申请实施例还提一种计算机可读存储介质, 存储有计算机可执行指令, 所述计 算机可执行指令用于执行所述微信文章真实阅读率的预测方法。 0201 在本实。
46、施例中, 上述存储介质可以包括但不限于: U盘、 只读存储器(ROM, Read- Only Memory)、 随机存取存储器(RAM, Random Access Memory)、 移动硬盘、 磁碟或者光盘等 各种可以存储程序代码的介质。 0202 本领域普通技术人员可以理解, 上文中所公开方法中的全部或某些步骤、 系统、 装 置中的功能模块/单元可以被实施为软件、 固件、 硬件及其适当的组合。 在硬件实施方式中, 在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分; 例如, 一个 物理组件可以具有多个功能, 或者一个功能或步骤可以由若干物理组件合作执行。 某些组 件或所有。
47、组件可以被实施为由处理器, 如数字信号处理器或微处理器执行的软件, 或者被 实施为硬件, 或者被实施为集成电路, 如专用集成电路。 这样的软件可以分布在计算机可读 说明书 9/10 页 12 CN 110570025 A 12 介质上, 计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时 性介质)。 如本领域普通技术人员公知的, 术语计算机存储介质包括在用于存储信息(诸如 计算机可读指令、 数据结构、 程序模块或其他数据)的任何方法或技术中实施的易失性和非 易失性、 可移除和不可移除介质。 计算机存储介质包括但不限于RAM、 ROM、 EEPROM、 闪存或其 他存储器技。
48、术、 CD-ROM、 数字多功能盘(DVD)或其他光盘存储、 磁盒、 磁带、 磁盘存储或其他 磁存储装置、 或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。 此 外, 本领域普通技术人员公知的是, 通信介质通常包含计算机可读指令、 数据结构、 程序模 块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据, 并且可包括任何信息 递送介质。 说明书 10/10 页 13 CN 110570025 A 13 图1 图2 说明书附图 1/5 页 14 CN 110570025 A 14 图3 图4 说明书附图 2/5 页 15 CN 110570025 A 15 图5 图6 说明书附图 3/5 页 16 CN 110570025 A 16 图7 图8 说明书附图 4/5 页 17 CN 110570025 A 17 图9 说明书附图 5/5 页 18 CN 110570025 A 18 。
- 内容关键字: 文章 真实 阅读 预测 方法 装置 设备
焙烧台车储罐定位装置.pdf
具有松紧器的裤子.pdf
风电叶片铣削设备.pdf
用于高性能混凝土节水降耗装置.pdf
物流运输用包装箱.pdf
化工安全管理用防爆检查装置.pdf
支架产品的高效焊接工装.pdf
超导磁体组装定位结构.pdf
车用尿素溶液生产的液体浓缩装置.pdf
中频加热炉自动化出料装置.pdf
异形件钻孔固定装置.pdf
用于金属丝管的加工工装.pdf
肉苁蓉播种匀种施肥一体机装置.pdf
伸缩隐形折叠晾晒架.pdf
岩土破碎采样装置.pdf
高效混凝土搅拌装置.pdf
电池箱体组合结构.pdf
水利工程用河水取样设备.pdf
防堵塞的煤矿瓦斯抽采用气水渣分离装置.pdf
移动式储能电源的可靠性诊断系统.pdf
基于多模态特征融合的Web API推荐方法和系统.pdf
用于机械零部件生产的开孔装置.pdf
保温墙板多腔体模型成型装置及其使用方法.pdf
洗碗机水量检测方法、装置、洗碗机和存储介质.pdf
磷修饰氮化碳阻燃改性BOPET薄膜的制备方法.pdf
磁存储器及其制备方法、电子设备.pdf
具备预警保护功能的直线模组.pdf
面向遥感解译应用的训练推理一体机.pdf
促伤口愈合、减缓瘢痕形成的水凝胶及制备方法与应用.pdf
制备咪唑乙醇的方法.pdf
桥梁施工用桥墩围堰装置及使用方法.pdf
平板电脑的使用时间警示系统及方法.pdf
一种四孔法兰夹具.pdf
立式竖炉、铁焦制造设备及铁焦的制造方法.pdf
一种风枪枪头结构.pdf
笔记本显示器后盖的生产模具.pdf
一种适合自动上下线的隧道式烤炉泊位机构.pdf
新型钢丝绳、电缆、光缆复合绳缆.pdf
寿命特性优秀的加湿介质及其制备方法.pdf
生物医用的无水CAHPOSUB4/SUBSUBX/SUBSOSUB4/SUBSUB1X/SUB的固溶体颗粒及其制备方法.pdf
一种防脱滚轮.pdf
医用图像处理系统、医用图像处理装置、医用图像诊断装置、医用图像处理方法以及医用图像处理程序.pdf
一种自搅拌蒸馏反应器.pdf
术后伤口支撑装置.pdf
打印系统、薄片处理系统和薄片路径切换设备.pdf
一种四氯化硅氢化反应设备及其固体原料连续供料装置.pdf
高速取放微小轻小物体的高速摆杆组件.pdf
自由角度的光伏跟踪系统准确度螺旋型测量装置.pdf
一种随动闸.pdf
一种适合在公共场合量测血压的装置及方法.pdf
利用废坯生产墙地砖的方法.pdf