《基于多级逻辑回归的点击率预测方法和系统.pdf》由会员分享,可在线阅读,更多相关《基于多级逻辑回归的点击率预测方法和系统.pdf(7页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103761266 A (43)申请公布日 2014.04.30 CN 103761266 A (21)申请号 201410001103.X (22)申请日 2014.01.02 G06F 17/30(2006.01) (71)申请人 北京集奥聚合网络技术有限公司 地址 100028 北京市海淀区上地东路 1 号院 5 号楼 9 层 901 (72)发明人 崔晶晶 林佳婕 李春华 受春柏 刘立娜 (74)专利代理机构 北京和信华成知识产权代理 事务所 ( 普通合伙 ) 11390 代理人 胡剑辉 (54) 发明名称 基于多级逻辑回归的点击率预测方法和系统 (57) 摘。
2、要 本发明公开了一种基于多级逻辑回归的点击 率预测方法和系统。该方法包括 : 特征抽取步骤, 通过对已获得的点击率数据进行分析, 分析对点 击率有影响的因素, 从中选取特征向量, 构建特征 模型 ; 模型训练步骤, 使用多级逻辑回归模型, 对 特征模型进行机器学习, 得到预测模型 ; 点击率 预测步骤 : 使用预测模型对待预测点击率数据进 行预测。 本发明通过多级逻辑回归, 能够在维度不 变以及样本数量不变的前提下, 减少运算量, 提高 运算速度, 解决目前点击率预测中数据量大、 预测 不准确的问题。 (51)Int.Cl. 权利要求书 2 页 说明书 3 页 附图 1 页 (19)中华人民共。
3、和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书3页 附图1页 (10)申请公布号 CN 103761266 A CN 103761266 A 1/2 页 2 1. 一种基于多级逻辑回归的点击率预测方法, 其特征在于 : 该方法包括如下步骤 : 特征抽取步骤, 通过对已获得的点击率数据进行分析, 分析对点击率有影响的因素, 从 中选取特征向量, 构建特征模型 ; 模型训练步骤, 使用多级逻辑回归模型, 对特征模型进行多级逻辑回归机器学习, 得到 预测模型 ; 以及 点击率预测步骤 : 使用预测模型对待预测点击率数据进行预测。 2. 如权利要求 1 所述的预测方法, 其特征在于 。
4、: 所述特征抽取步骤中的特征模型为 : (a,u,c) p(click|a,u,c), 其中, a 代表广告, u 代表受众, c 代表媒体, p() 为多级逻辑 回归模型, 有 p(click|a,u,c) (wtx), 其中 wt表示 n 维特征权重向量, x 表示 n 维特征 向量, () 为逻辑回归函数, 有 3. 如权利要求 1 所述的预测方法, 其特征在于 : 所述特征抽取步骤中的多级逻辑回归 机器学习的步骤包括 : 自身逻辑回归计算步骤, 对特征模型中的 N 维特征向量进行自身的逻辑回归计算, 得 到该维特征向量的回归值 ; 中间逻辑回归计算步骤, 选取 M 个第一级回归值进行中。
5、间级计算, 其中 MN ; 以及 最终逻辑回归计算步骤, 将中间级回归运算的中间值做为最后一级的回归运算的输 入, 最后得到点击率的预测值。 4. 如权利要求 5 所述的预测方法, 其特征在于 : 所述中间逻辑回归计算步骤中的中间 级计算可以根据实际需要进行多次运算, 每一次都将上一级的输出作为下一级的输入进行 逻辑回归运算。 5. 一种基于多级逻辑回归的点击率预测系统, 其特征在于 : 该系统包括如下装置 : 特征抽取装置, 用于通过对已获得的点击率数据进行分析, 分析对点击率有影响的因 素, 从中选取特征向量, 构建特征模型 ; 模型训练装置, 用于使用多级逻辑回归模型, 对特征模型进行多。
6、级逻辑回归机器学习, 得到预测模型 ; 以及 点击率预测装置 : 用于使用预测模型对待预测点击率数据进行预测。 6. 如权利要求 5 所述的预测系统, 其特征在于 : 所述特征模型为 : (a,u,c) p(click|a,u,c), 其中, a 代表广告, u 代表受众, c 代表媒体, p() 为多级逻辑回归模型, 有 p(click|a,u,c) (wtx), 其中 wt表示 n 维特征权重向量, x 表示 n 维特征向量, () 为 逻辑回归函数, 有 7. 如权利要求 5 所述的预测系统, 其特征在于 : 所述模型训练装置包括多级逻辑回归 机器学习装置, 该多级逻辑回归机器学习装置包。
7、括 : 自身逻辑回归计算装置, 用于对特征模型中的 N 维特征向量进行自身的逻辑回归计 算, 得到该维特征向量的回归值 ; 中间逻辑回归计算装置 : 用于选取 M 个第一级回归值进行中间级计算, 其中 MN ; 最终逻辑回归计算装置 : 用于将中间级回归运算的中间值做为最后一级的回归运算的 权 利 要 求 书 CN 103761266 A 2 2/2 页 3 输入, 最后得到点击率的预测值。 8. 如权利要求 7 所述的预测系统, 其特征在于 : 所述中间逻辑回归计算装置可以根据 实际需要进行多次运算, 每一次都将上一级的输出作为下一级的输入进行逻辑回归运算。 权 利 要 求 书 CN 103。
8、761266 A 3 1/3 页 4 基于多级逻辑回归的点击率预测方法和系统 技术领域 0001 本发明涉及互联网大数据机器学习处理领域, 尤其涉及一种基于多级逻辑回归的 点击率预测的方法和系统。 背景技术 0002 随着全球信息化程度的提高, 互联网应用越来越普及, 相对于传统媒体的广告, 互联网广告所占比重越来越大。近年来随着网络游戏、 电子商务的兴起以及重视长尾流 量的网盟发展, 广告商对网络广告产生的实际效果越来越受到关注。通过对广告链接的 点击率进行统计计算, 可以了解不同用户感兴趣的广告, 从而向每个用户更精准的展示对 应的广告, 以提高广告的点击率, 改善广告投放效果和页面的访问。
9、量。所谓点击率, 又叫 CTR(Click-through Rate), 或者CR(Clicks Ratio), 是一个比值, 即链接点击数量/链接展 示数量。对于广告链接来讲, 其点击率通常反映了该广告的投送质量。对广告平台来讲, 如 果能够根据用户的网络浏览或搜索行为, 以及页面的内容的等预测出备选广告的点击率, 则能够衡量每次广告投放的质量, 对点击率预测值较高的广告进行投放, 从而提高广告的 转化率 (ROI) 。 0003 目前预测点击率的方法通常都要首先选取对广告点击率有影响的因素来建立原 始数据模型。影响广告的点击率的因素有很多种, 例如广告、 媒体、 受众。每个因素本身又 可细。
10、分多个方面。每个方面都可以看所一个维度数据, 每个维度的样本数据都是该维度在 一段时间内的实际点击率, 因此多维度的样本数据是海量的。 这就导致在预测点击率时, 要 面对计算量太大的问题。目前为了解决这一问题, 在点击率预测时一般都会采用减少维度 或者减少样本数量的方法进行降维处理, 从而减少计算量。但由于减少了样本维度或者样 本数量, 从而影响了预测结果的准确性。 发明内容 0004 本发明提供了一种基于多级逻辑回归的点击率的预测方法和系统, 通过多级逻辑 回归, 在维度不变以及样本数量不变的前提下, 减少运算量, 以解决目前点击率预测中数据 量大、 预测不准确的问题。 0005 根据本发明。
11、的一个方面, 提供了一种基于多级逻辑回归的点击率预测方法, 该方 法包括 : 0006 特征抽取步骤, 通过对已获得的点击率数据进行分析, 分析对点击率有影响的因 素, 从中选取特征向量, 构建特征模型 ; 0007 模型训练步骤, 使用多级逻辑回归模型, 对特征模型进行多级逻辑回归机器学习, 得到预测模型 ; 0008 点击率预测步骤 : 使用预测模型对待预测点击率数据进行预测。 0009 根据本发明的另一方面, 提供了一种基于多级逻辑回归的点击率预测系统, 该系 统包括 : 说 明 书 CN 103761266 A 4 2/3 页 5 0010 特征抽取装置, 用于通过对已获得的点击率数据。
12、进行分析, 分析对点击率有影响 的因素, 从中选取特征向量, 构建特征模型 ; 0011 模型训练装置, 用于使用多级逻辑回归模型, 对特征模型进行多级逻辑回归机器 学习, 得到预测模型 ; 0012 点击率预测装置 : 用于使用预测模型对待预测点击率数据进行预测。 0013 与现有技术相比, 本发明的方法提供了多级逻辑回归的方法, 提高了点击率预测 的准确度和效率。具体应用在广告领域, 可以使广告得到更精准的投放。本发明用的点击 率预测方法并不是适用于广告领域, 还可应用于其他大数据检索预测领域。 附图说明 0014 图 1 为本发明实施例进行多级逻辑回归点击率预测的方法。 具体实施方式 0。
13、015 以下结合附图及实施例来详细说明本发明的实施方式, 借此对本发明解决的技术 问题、 采用的技术手段, 并达到的技术效果能充分说明。 需要说明的是, 只要不构成冲突, 本 发明中的各个实施例以及各实施例的各特征可以相互结合, 所形成的技术方案均在本发明 的保护范围之内。 0016 实施例 1 0017 如图 1 所示, 本发明实施例的基于多级逻辑回归的点击率预测方法主要包括如下 步骤 : 0018 特征抽取步骤, 通过对已获得的点击率数据进行分析, 分析对点击率有影响的因 素, 从中选取特征向量, 构建特征模型 ; 0019 模型训练步骤, 使用多级逻辑回归模型, 对特征模型进行多级逻辑回。
14、归机器学习, 得到预测模型 ; 以及 0020 点击率预测步骤 : 使用预测模型对待预测点击率数据进行预测。 0021 其中, 影响点击率的因素有多种, 最主要的包括 : 广告、 媒体、 受众。本发明优选使 用如下模型构建点击率特征模型 : 0022 (a,u,c) p(click|a,u,c) 0023 其中, a: 代表广告, u: 代表受众, c: 代表媒体 0024 其中在模型训练步骤中, 优选使用下面多级逻辑回归模型 : 0025 p(click|a,u,c) (wtx) 0026 其中, wt: 表示 n 维特征权重向量 (参数) , x: 表示 n 维特征向量 0027 其中在多。
15、级逻辑回归模型中, 优选使用下面逻辑回归函数 : 0028 0029 其中, 模型训练步骤中的多级逻辑回归机器学习步骤包括 : 0030 自身逻辑回归计算步骤 : 对特征模型中的 N 维特征向量进行自身的逻辑回归计 算, 得到该维特征向量的回归值 ; 0031 其中 N 的大小根据具体数据特点和自身需要而确定 ; 说 明 书 CN 103761266 A 5 3/3 页 6 0032 中间逻辑回归计算步骤 : 选取 M 个第一级回归值进行中间级计算, 其中 MN ; 0033 其中该步骤可以根据实际需要进行多次运算, 每一次都将上一级的输出作为下一 级的输入进行逻辑回归运算。每一次逻辑回归运算。
16、都会降低数据维度, 减少下一次运算的 运算量。 0034 以及最终逻辑回归计算步骤 : 将中间级回归运算的中间值作为最后一级的回归运 算的输入, 最后得到点击率的预测值。 0035 实施例 2 0036 本发明实施例的基于多级逻辑回归的点击率预测系统主要包括如下 : 0037 特征抽取装置, 用于通过对已获得的点击率数据进行分析, 分析对点击率有影响 的因素, 从中选取特征向量, 构建特征模型 ; 0038 模型训练装置, 用于使用多级逻辑回归模型, 对特征模型进行多级逻辑回归机器 学习, 得到预测模型 ; 以及 0039 点击率预测装置 : 使用预测模型对待预测点击率数据进行预测。 0040。
17、 其中, 影响点击率的因素有多种, 最主要的包括 : 广告、 媒体、 受众。本发明优选使 用如下模型构建点击率特征模型 : 0041 (a,u,c) p(click|a,u,c) 0042 其中, a: 代表广告, u: 代表受众, c: 代表媒体 0043 其中在模型训练装置中, 优选使用下面的多级逻辑回归模型 : 0044 p(click|a,u,c) (wtx) 0045 其中, wt: 表示 n 维特征权重向量 (参数) , x: 表示 n 维特征向量 0046 其中在多级逻辑回归模型中, 优选使用下面逻辑回归函数 : 0047 0048 其中, 模型训练装置还包括一多级逻辑回归机器学。
18、习装置, 其包括 : 0049 自身逻辑回归计算装置 : 用于对特征模型中的 N 维特征向量进行自身的逻辑回归 计算, 得到该维特征向量的回归值 ; 0050 其中 N 的大小根据具体数据特点和自身需要而确定 ; 0051 中间逻辑回归计算装置 : 用于选取M个第一级回归值, 并对所选取的M个第一级回 归值进行中间级计算, 其中 MN ; 0052 其中该步骤可以根据实际需要进行多次运算, 每一次都将上一级的输出作为下一 级的输入进行逻辑回归运算。每一次逻辑回归运算都会降低数据维度, 减少下一次运算的 运算量。 0053 以及最终逻辑回归计算装置 : 用于将中间级回归运算的中间值做为最后一级的回 归运算的输入, 最后得到点击率的预测值。 0054 虽然本发明所揭露的实施方式如上, 但所述的内容只是为了便于理解本发明而采 用的实施方式, 并非用于限定本发明。 任何本发明所属技术领域内的技术人员, 在不脱离本 发明所揭露的精神和范围的前提下, 可以在实施的形式上及细节上做任何的修改和变化, 但本发明的专利保护范围, 仍须以所附权利要求书所界定的范围为准。 说 明 书 CN 103761266 A 6 1/1 页 7 图 1 说 明 书 附 图 CN 103761266 A 7 。