书签 分享 收藏 举报 版权申诉 / 7

基于多级逻辑回归的点击率预测方法和系统.pdf

  • 上传人:zhu****_FC
  • 文档编号:6177936
  • 上传时间:2019-05-17
  • 格式:PDF
  • 页数:7
  • 大小:476.30KB
  • 摘要
    申请专利号:

    CN201410001103.X

    申请日:

    2014.01.02

    公开号:

    CN103761266A

    公开日:

    2014.04.30

    当前法律状态:

    驳回

    有效性:

    无权

    法律详情:

    发明专利申请公布后的驳回IPC(主分类):G06F 17/30申请公布日:20140430|||著录事项变更IPC(主分类):G06F 17/30变更事项:发明人变更前:崔晶晶 林佳婕 李春华 受春柏 刘立娜变更后:崔晶晶 林佳婕 李春华 受春柏|||实质审查的生效IPC(主分类):G06F 17/30申请日:20140102|||公开

    IPC分类号:

    G06F17/30

    主分类号:

    G06F17/30

    申请人:

    北京集奥聚合网络技术有限公司

    发明人:

    崔晶晶; 林佳婕; 李春华; 受春柏; 刘立娜

    地址:

    100028 北京市海淀区上地东路1号院5号楼9层901

    优先权:

    专利代理机构:

    北京和信华成知识产权代理事务所(普通合伙) 11390

    代理人:

    胡剑辉

    PDF完整版下载: PDF下载
    内容摘要

    本发明公开了一种基于多级逻辑回归的点击率预测方法和系统。该方法包括:特征抽取步骤,通过对已获得的点击率数据进行分析,分析对点击率有影响的因素,从中选取特征向量,构建特征模型;模型训练步骤,使用多级逻辑回归模型,对特征模型进行机器学习,得到预测模型;点击率预测步骤:使用预测模型对待预测点击率数据进行预测。本发明通过多级逻辑回归,能够在维度不变以及样本数量不变的前提下,减少运算量,提高运算速度,解决目前点击率预测中数据量大、预测不准确的问题。

    权利要求书

    权利要求书
    1.  一种基于多级逻辑回归的点击率预测方法,其特征在于:该方法包括如下步骤:
    特征抽取步骤,通过对已获得的点击率数据进行分析,分析对点击率有影响的因素,从中选取特征向量,构建特征模型;
    模型训练步骤,使用多级逻辑回归模型,对特征模型进行多级逻辑回归机器学习,得到预测模型;以及
    点击率预测步骤:使用预测模型对待预测点击率数据进行预测。

    2.  如权利要求1所述的预测方法,其特征在于:所述特征抽取步骤中的特征模型为:μ(a,u,c)=p(click|a,u,c),其中,a代表广告,u代表受众,c代表媒体,p()为多级逻辑回归模型,有p(click|a,u,c)=σ(wtx),其中wt表示n维特征权重向量,x表示n维特征向量,σ()为逻辑回归函数,有

    3.  如权利要求1所述的预测方法,其特征在于:所述特征抽取步骤中的多级逻辑回归机器学习的步骤包括:
    自身逻辑回归计算步骤,对特征模型中的N维特征向量进行自身的逻辑回归计算,得到该维特征向量的回归值;
    中间逻辑回归计算步骤,选取M个第一级回归值进行中间级计算,其中M<N;以及
    最终逻辑回归计算步骤,将中间级回归运算的中间值做为最后一级的回归运算的输入,最后得到点击率的预测值。

    4.  如权利要求5所述的预测方法,其特征在于:所述中间逻辑回归计算步骤中的中间级计算可以根据实际需要进行多次运算,每一次都将上一级的输出作为下一级的输入进行逻辑回归运算。

    5.  一种基于多级逻辑回归的点击率预测系统,其特征在于:该系统包括如下装置:
    特征抽取装置,用于通过对已获得的点击率数据进行分析,分析对点击率有影响的因素,从中选取特征向量,构建特征模型;
    模型训练装置,用于使用多级逻辑回归模型,对特征模型进行多级逻辑回归机器学习,得到预测模型;以及
    点击率预测装置:用于使用预测模型对待预测点击率数据进行预测。

    6.  如权利要求5所述的预测系统,其特征在于:所述特征模型为:μ(a,u,c)=p(click|a,u,c),其中,a代表广告,u代表受众,c代表媒体,p()为多级逻辑回归模型,有p(click|a,u,c)=σ(wtx),其中wt表示n维特征权重向量,x表示n维特征向量,σ()为逻辑回归函数,有

    7.  如权利要求5所述的预测系统,其特征在于:所述模型训练装置包括多级逻辑回归机器学习装置,该多级逻辑回归机器学习装置包括:
    自身逻辑回归计算装置,用于对特征模型中的N维特征向量进行自身的逻辑回归计算,得到该维特征向量的回归值;
    中间逻辑回归计算装置:用于选取M个第一级回归值进行中间级计算,其中M<N;
    最终逻辑回归计算装置:用于将中间级回归运算的中间值做为最后一级的回归运算的输入,最后得到点击率的预测值。

    8.  如权利要求7所述的预测系统,其特征在于:所述中间逻辑回归计算装置可以根据实际需要进行多次运算,每一次都将上一级的输出作为下一级的输入进行逻辑回归运算。

    说明书

    说明书基于多级逻辑回归的点击率预测方法和系统
    技术领域
    本发明涉及互联网大数据机器学习处理领域,尤其涉及一种基于多级逻辑回归的点击率预测的方法和系统。
    背景技术
    随着全球信息化程度的提高,互联网应用越来越普及,相对于传统媒体的广告,互联网广告所占比重越来越大。近年来随着网络游戏、电子商务的兴起以及重视长尾流量的网盟发展,广告商对网络广告产生的实际效果越来越受到关注。通过对广告链接的点击率进行统计计算,可以了解不同用户感兴趣的广告,从而向每个用户更精准的展示对应的广告,以提高广告的点击率,改善广告投放效果和页面的访问量。所谓点击率,又叫CTR(Click-through Rate),或者CR(Clicks Ratio),是一个比值,即链接点击数量/链接展示数量。对于广告链接来讲,其点击率通常反映了该广告的投送质量。对广告平台来讲,如果能够根据用户的网络浏览或搜索行为,以及页面的内容的等预测出备选广告的点击率,则能够衡量每次广告投放的质量,对点击率预测值较高的广告进行投放,从而提高广告的转化率(ROI)。
    目前预测点击率的方法通常都要首先选取对广告点击率有影响的因素来建立原始数据模型。影响广告的点击率的因素有很多种,例如广告、媒体、受众。每个因素本身又可细分多个方面。每个方面都可以看所一个维度数据,每个维度的样本数据都是该维度在一段时间内的实际点击率,因此多维度的样本数据是海量的。这就导致在预测点击率时,要面对计算量太大的问题。目前为了解决这一问题,在点击率预测时一般都会采用减少维度或者减少样本数量的方法进行降维处理,从而减少计算量。但由于减少了样本维度或者样本数量,从而影响了预测结果的准确性。
    发明内容
    本发明提供了一种基于多级逻辑回归的点击率的预测方法和系统,通过多级逻辑回归,在维度不变以及样本数量不变的前提下,减少运算量,以解决目前点击率预测中数据量大、预测不准确的问题。
    根据本发明的一个方面,提供了一种基于多级逻辑回归的点击率预测方法,该方法包括:
    特征抽取步骤,通过对已获得的点击率数据进行分析,分析对点击率有影响的因素,从中选取特征向量,构建特征模型;
    模型训练步骤,使用多级逻辑回归模型,对特征模型进行多级逻辑回归机器学习,得到预测模型;
    点击率预测步骤:使用预测模型对待预测点击率数据进行预测。
    根据本发明的另一方面,提供了一种基于多级逻辑回归的点击率预测系统,该系统包括:
    特征抽取装置,用于通过对已获得的点击率数据进行分析,分析对点击率有影响的因素,从中选取特征向量,构建特征模型;
    模型训练装置,用于使用多级逻辑回归模型,对特征模型进行多级逻辑回归机器学习,得到预测模型;
    点击率预测装置:用于使用预测模型对待预测点击率数据进行预测。
    与现有技术相比,本发明的方法提供了多级逻辑回归的方法,提高了点击率预测的准确度和效率。具体应用在广告领域,可以使广告得到更精准的投放。本发明用的点击率预测方法并不是适用于广告领域,还可应用于其他大数据检索预测领域。
    附图说明
    图1为本发明实施例进行多级逻辑回归点击率预测的方法。
    具体实施方式
    以下结合附图及实施例来详细说明本发明的实施方式,借此对本发明解决的技术问题、采用的技术手段,并达到的技术效果能充分说明。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例的各特征可以 相互结合,所形成的技术方案均在本发明的保护范围之内。
    实施例1
    如图1所示,本发明实施例的基于多级逻辑回归的点击率预测方法主要包括如下步骤:
    特征抽取步骤,通过对已获得的点击率数据进行分析,分析对点击率有影响的因素,从中选取特征向量,构建特征模型;
    模型训练步骤,使用多级逻辑回归模型,对特征模型进行多级逻辑回归机器学习,得到预测模型;以及
    点击率预测步骤:使用预测模型对待预测点击率数据进行预测。
    其中,影响点击率的因素有多种,最主要的包括:广告、媒体、受众。本发明优选使用如下模型构建点击率特征模型:
    μ(a,u,c)=p(click|a,u,c)
    其中,a:代表广告,u:代表受众,c:代表媒体
    其中在模型训练步骤中,优选使用下面多级逻辑回归模型:
    p(click|a,u,c)=σ(wtx)
    其中,wt:表示n维特征权重向量(参数),x:表示n维特征向量
    其中在多级逻辑回归模型中,优选使用下面逻辑回归函数:
    σ(t)=11+et]]>
    其中,模型训练步骤中的多级逻辑回归机器学习步骤包括:
    自身逻辑回归计算步骤:对特征模型中的N维特征向量进行自身的逻辑回归计算,得到该维特征向量的回归值;
    其中N的大小根据具体数据特点和自身需要而确定;
    中间逻辑回归计算步骤:选取M个第一级回归值进行中间级计算,其中M<N;
    其中该步骤可以根据实际需要进行多次运算,每一次都将上一级的输出作为下一级的输入进行逻辑回归运算。每一次逻辑回归运算都会降低数据维度,减少下一次运算的运算量。
    以及最终逻辑回归计算步骤:将中间级回归运算的中间值作为最后一级的回归运算的输入,最后得到点击率的预测值。
    实施例2
    本发明实施例的基于多级逻辑回归的点击率预测系统主要包括如下:
    特征抽取装置,用于通过对已获得的点击率数据进行分析,分析对点击率有影响的因素,从中选取特征向量,构建特征模型;
    模型训练装置,用于使用多级逻辑回归模型,对特征模型进行多级逻辑回归机器学习,得到预测模型;以及
    点击率预测装置:使用预测模型对待预测点击率数据进行预测。
    其中,影响点击率的因素有多种,最主要的包括:广告、媒体、受众。本发明优选使用如下模型构建点击率特征模型:
    μ(a,u,c)=p(click|a,u,c)
    其中,a:代表广告,u:代表受众,c:代表媒体
    其中在模型训练装置中,优选使用下面的多级逻辑回归模型:
    p(click|a,u,c)=σ(wtx)
    其中,wt:表示n维特征权重向量(参数),x:表示n维特征向量
    其中在多级逻辑回归模型中,优选使用下面逻辑回归函数:
    σ(t)=11+et]]>
    其中,模型训练装置还包括一多级逻辑回归机器学习装置,其包括:
    自身逻辑回归计算装置:用于对特征模型中的N维特征向量进行自身的逻辑回归计算,得到该维特征向量的回归值;
    其中N的大小根据具体数据特点和自身需要而确定;
    中间逻辑回归计算装置:用于选取M个第一级回归值,并对所选取的M个第一级回归值进行中间级计算,其中M<N;
    其中该步骤可以根据实际需要进行多次运算,每一次都将上一级的输出作为下一级的输入进行逻辑回归运算。每一次逻辑回归运算都会降低数据维度,减少下一次运算的运算量。
    以及最终逻辑回归计算装置:用于将中间级回归运算的中间值做为最后一级的回归运算的输入,最后得到点击率的预测值。
    虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用于限定本发明。任何本发明所属技术领域内 的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上做任何的修改和变化,但本发明的专利保护范围,仍须以所附权利要求书所界定的范围为准。

    关 键  词:
    基于 多级 逻辑 回归 点击率 预测 方法 系统
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:基于多级逻辑回归的点击率预测方法和系统.pdf
    链接地址:https://www.zhuanlichaxun.net/p-6177936.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1