书签 分享 收藏 举报 版权申诉 / 8

一种N广告投放优化方法.pdf

  • 上传人:62****3
  • 文档编号:4588766
  • 上传时间:2018-10-21
  • 格式:PDF
  • 页数:8
  • 大小:903.79KB
  • 摘要
    申请专利号:

    CN201510174030.9

    申请日:

    2015.04.13

    公开号:

    CN104778608A

    公开日:

    2015.07.15

    当前法律状态:

    实审

    有效性:

    审中

    法律详情:

    实质审查的生效IPC(主分类):G06Q 30/02申请日:20150413|||公开

    IPC分类号:

    G06Q30/02(2012.01)I

    主分类号:

    G06Q30/02

    申请人:

    合一信息技术(北京)有限公司

    发明人:

    雷龙艳; 章岑; 朱凯泉; 房晓宇; 江建博; 潘柏宇; 卢述奇

    地址:

    100080北京市海淀区海淀大街8号中钢国际广场6层

    优先权:

    专利代理机构:

    北京中誉威圣知识产权代理有限公司11279

    代理人:

    蒋常雪

    PDF完整版下载: PDF下载
    内容摘要

    本发明提供一种N+广告投放优化方法,该方法将对目标客户浏览视频的标记值(即cookie)在未来一段时间(例如一周)内出现N次的概率做一个预测并得到预测值,设定一个概率阈值threhold,该预测值大于等于该阈值才对该cookie进行广告投放,小于则不投放。业内对该广告投放也称作播种,不投放则称作不播种。该方法能有效降低资源浪费,并能保证收益。

    权利要求书

    1.  一种N+广告投放优化方法,包括:
    第一步,抽取目标客户浏览视频的标记值(即cookie)特征数据,生成CART分类树的 训练、剪枝、测试数据;
    第二步,建立CART分类树模型;
    第三步,抽取新的一段时间内的数据,进行N+广告投放预测与算法性能评估。

    2.
      如权利要求1所述的方法,其中第一步生成CART分类树的训练、剪枝、测试数据的 步骤进一步包括:
    步骤1.1,从视频平台数据系统中记录视频广播播放日志的access日志表中抽取某一天 的cookie数据,记为:accessCookieAttrs_a;
    步骤1.2,从视频平台数据系统中记录用户相关属性信息的vvlog日志表中抽取该天的 cookie数据,记为:vvCookieAttrs_a;
    步骤1.3,统计access日志表中一定时间跨度内cookie出现的次数,记为: cookieNum_b_c;
    步骤1.4,整合连接上述三个步骤得到的三个数据集:accessCookieAttrs_a, vvCookieAttrs_a,cookieNum_b_c,生成是否再来类属标签,得到新的数据集,记为: trainOriginal_a_c;
    步骤1.5,将步骤1.4得到的数据集trainOriginal_a_c进行抽样得到三份新的数据集, 分别为CART训练数据集trainOriginal_a_c_train,剪枝数据集trainOriginal_a_c_prune, 测试数据集trainOriginal_a_c_test,
    其中,a、b、c用于标识时间,a到c为一周的时间跨度。

    3.
      如权利要求2所述的方法,第二步进一步包括:
    使用CART训练数据集trainOriginal_a_c_train建立分类树,建树后使用剪枝数据集 trainOriginal_a_c_prune对树进行后剪枝得到模型树,通过测试数据集 trainOriginal_a_c_test进行测试,经过反复调整测试能够得到最佳分类性能。

    4.
      如权利要求3所述的方法,第三步进一步包括:
    重复步骤1.1-1.4生成新的一段时间的数据,记为:simulateCookie_d_e;设定是否投 放的阈值threshold,设定有效接触广告的次数为N,其中2≤N≤6,顺序遍历 simulateCookie_812_818的数据,对每条数据应用模型预测是否投放,如果投放,则将该 cookie加入hash表<cookie,cookieNum>;对每条数据,先看hash表中是否存在投放记录, 如果存在投放记录,则该cookieNum++,如果不存在投放记录,则判断是否需要投放,这样 得到一个投放记录结果。

    说明书

    一种N+广告投放优化方法
    技术领域
    本发明涉及一种N+广告投放优化方法。
    背景技术
    在广告商进行广告投放的活动中,有一类N+广告投放需求,即广告主要求 投放的目标客户在一段时间内(例如为一周)能够有效地接触该广告至少是N次 (通常为3次,由广告主根据自己的需求确定),如果在规定时间内某已经投放 了该广告的目标客户达不到该次数要求,则视为一次无效的广告投放,如果达 到该次数要求则视为一次有效的投放。除了对接触广告次数有要求外,对是否 满足这样的目标客户的量也有一定要求。
    因此,对媒体广告平台而言,针对该类N+广告投放需求,如何确保对目标 客户投放出去的广告的正确率和召回率成为关键问题,高正确率就能确保资源 少浪费,高召回率则是量的保证,确保收益,在量并不充足的情况下应优先保 证高召回率。
    发明内容
    为解决现有技术中存在的上述技术问题,本发明提供一种N+广告投 放优化方法,该方法将对目标客户浏览视频的标记值(即cookie)在未来一段时 间(例如一周)内出现N次的概率做一个预测并得到预测值,设定一个概率阈 值threhold,该预测值大于等于该阈值才对该cookie进行广告投放,小于则不投 放。业内对该广告投放也称作播种,不投放则称作不播种。该方法能有效降低 资源浪费,并能保证收益。
    本发明的N+广告投放优化方法的基本原理是:在线下,首先对目标客户浏 览视频的标记值(即cookie)的特征数据进行选择,选择对用户是否再回来具有 表征作用而且线上能够轻易获取的特征数据,然后使用CART分类树来建立 cookie是否再回来预测模型,通过该模型预测某cookie用户一周内是否还会再 回来的概率;线上运行时,设定N值,设定概率阈值,通过线上获得该cookie 的相应特征数据预测其再回来的概率,计算该概率的N次方结果,该结果大于 等于设定概率阈值时投放广告,否则不投放。
    附图说明
    本发明将参照附图来进一步详细说明,其中:
    图1是本发明方法流程图;
    图2是本发明方法线上、线下实现的示意图。
    具体实施方式
    虽然将参照含有本发明的较佳实施例的附图充分描述本发明,但在此描述 之前应了解本领域的普通技术人员可修改本文中所描述的发明,同时获得本发 明的技术效果。因此,须了解以上的描述对本领域的普通技术人员而言为一广 泛的揭示,且其内容不在于限制本发明所描述的示例性实施例。
    本发明的N+广告投放优化方法中使用CART(Classification and Regression  Trees)分类树建立预测模型。首先,对本发明使用的CART分类树等背景做一 个介绍。CART是决策树的一种,CART算法既可以用于创建分类树 (Classification Tree),也可以用于创建回归树(Regression Tree),分类树是预 测结果是离散类型值的树,回归树是预测结果为连续型值的树。决策树算法都 属于有监督一类的机器学习算法,所以模型的建立需要经过有标签数据的训练 过程,模型树建立过程中,难免会出现数据过度拟合的情况,因此树剪枝操作 往往是必须的,剪枝包括预剪枝和后剪枝,预剪枝是在建树过程中进行的,后 剪枝是建树完成后进行的。CART分类树的分支节点存储分割特征序号spInd和 分割值spVal,叶子节点存储组合值包括:是否再来label,再来概率posProb, 不来概率negProb,再来概率大于不来概率时,是否再来label为1,否则为0。 再来概率由落在该叶子节点的分类标签值为1的数量除以该叶子中所有训练数 据条数得出。
    训练、剪枝和测试数据集由cookie对应的特征属性和表示是否再来的0、1 标签值组成。
    CART预剪枝:CART分类树在建立过程中会进行预剪枝,分为以下三种情 况:
    如果在某个分支的所有数据中,某一类(标签为0或1)的数据所在比率大 于等于某个阈值ratio_threshold时停止分支,作为叶子。该阈值作为参数传入, 默认为0.85;
    如果在某个分支的所有数据条目数小于等于某个阈值num_threshold时停止 分支,作为叶子。该阈值作为参数传入,默认为50;
    如果在某个分支属性分割后的基尼不纯度Gini相较于分割前的基尼不纯度 并未降低到一定阈值gini_threshold时,停止分支,作为叶子。该阈值作为参数 传入,默认为0.01。
    CART后剪枝:CART后剪枝是建立好模型分类树后在新的剪枝数据集上进 行的,在以下两种情况中会进行后剪枝:
    如果某分支的左(或右)子树不是叶子,而没有数据分到该左(或右)子 树,那么剪枝,该左(或右)子树变为叶子。叶子存储的值由兄弟分支的相关 计算结果得出,把兄弟分支暂当作叶子计算其label,如果兄弟分支的label为1, 则该叶子存储的值为[0,0.001,0.999],反之,存储[1,0.999,0.001];
    如果某分支的左右子树都是叶子,而计算出该分支在不分裂时的错误率要 小于分裂后的错误率,那么剪枝,该分支变为叶子。计算所有落在该分支的数 据中label为1的记录所占比,得出相应的值作为该叶子的存储值。
    下面,以一周为例说明本发明的N+广告投放优化方法,并不以此限定。
    本发明的N+广告投放优化方法包括:
    第一步,抽取目标客户浏览视频的标记值(即cookie)特征数据,生成CART 分类树的训练、剪枝、测试数据。
    视频平台数据系统中通常有两个日志表,access表和vvlog表,分别用来记 录视频广告的播放日志和vv日志,这两个日志表里有大量有关视频、广告、用 户的相关属性信息,从这些属性里选择一部分属性信息来作为CART分类树的 训练,剪枝和测试数据。选择的属性信息必须在线上也能轻易并快速的获取, 以便做预测。
    生成CART分类树的训练、剪枝、测试数据的步骤如下:
    步骤1.1,以2014.08.04的数据为例,从access日志表中抽取2014.08.04这 一天的cookie数据,记为:accessCookieAttrs_804,该数据集包含以下属性: cookie@sessionId,视频分类,是否为长视频,视频时长,时间戳,使用 cookie@sessionId而不使用cookie是为了与vvlog中的数据一一映射。
    步骤1.2,从vvlog日志表中抽取2014.08.04这一天的cookie数据,记为: vvCookieAttrs_804,该数据集包含以下属性:cookie@sessionId,是否注册,vvstep 史来vv,seidcount史来session计数,sevvstep本次session计数。
    步骤1.3,统计access日志表中时间跨度为一周(即2014.08.05-2014.08.11) 的cookie出现次数,记为:cookieNum_805_811,该数据集包含以下属性:cookie, cookie出现次数。
    步骤1.4,整合连接上述三个步骤得到的三个数据集:accessCookieAttrs_804, vvCookieAttrs_804,cookieNum_805_811(cookieNum_805_806),生成是否再来 类属标签,得到新的数据集,记为:trainOriginal_804_811(trainOriginal_804_806), 该数据集包含以下属性:cookie,视频分类(62类离散),是否长视频,视频时 长(分段离散),是否注册,史来vv计数(分段离散),史来session计数,本次 session的vv计数,是否再次访问。
    其中,整合规则为:首先,accessCookieAttrs_804与vvCookieAttrs_804通 过cookie@sessionId值进行连接得到temp_804,包含属性:cookie(只取 cookie@sessionId的cookie部分),视频分类(62类离散),是否长视频,视频 时长(分段离散),是否注册,史来vv计数(分段离散),史来session计数,本 次session的vv计数,时间戳。其中视频时长以10分钟为一段进行分段离散, 史来vv计数以10为一段进行分段离散,cookie不唯一。然后,temp_804再与 cookieNum_805_811进行连接生成类标签,若temp_804中的某cookie在 cookieNum_805_811中存在,则是否再来label为1,若不存在,则对该同一cookie 的所有记录求时间戳最大值的记录,该记录的label为0,其余的label为1,此 种情况表示:如果某cookie在8.04这一天出现多次,但在之后一周内并未出现, 那么该cookie在8.04这一天最后一次出现时(时间戳最大)的label为0,其余 时间出现时因为之后还会再出现所以label为1;
    步骤1.5,将步骤1.4得到的数据集trainOriginal_804_811进行简单抽样得到 三份新的数据集,分别为CART训练数据集trainOriginal_804_811_train,10w条 记录;剪枝数据集trainOriginal_804_811_prune,5w条记录;测试数据集 trainOriginal_804_811_test,5w条记录,其中,a、b、c用于标识时间,本实施 例中a到c为一周的时间跨度。
    第二步,建立CART分类树模型。
    使用训练数据集trainOriginal_804_811_train进行建树,建树后使用剪枝数 据集trainOriginal_804_811_prune对树进行后剪枝得到模型树,最后通过测试数 据集trainOriginal_804_811_test进行简单的测试。经过反复调整输入参数并测试 能够得到最佳分类性能。最终生成的模型树为:nplus_tree_804_811.model,输入 参数值最终调整为ratio_threshold:0.94,num_threshold:200,gini_threshold:0.002
    第三步,进行N+广告投放预测与算法性能的评估。
    使用新一周(2014.08.12-2014.08.18)的数据进行N+广告投放预测与算法性 能评估。重复步骤1.1-1.4生成新一周(2014.08.12-2014.08.18)的数据,记为: simulateCookie_812_818,属性为:cookie@sessionId,视频分类(62类离散), 是否长视频,视频时长(分段离散),是否注册,vvstep史来计数(分段离散), sevvstep本次session计数,seidcount史来session计数。
    设定是否投放的阈值threshold,设定有效接触广告的次数为N(2≤N≤6), 顺序遍历simulateCookie_812_818的数据,对每条数据应用模型预测是否投放, 如果投放,则将该cookie加入hash表<cookie,cookieNum>;对每条数据,先 看hash表中是否存在投放记录,如果存在投放记录,则该cookieNum++,如果 不存在投放记录,则判断是否需要投放,这样得到一个投放记录结果。检查cookie 对应的cookieNum是否大于等于N值,来计算的正确率和召回率,得到的结果 如下表1所示:

    N threshold 正确率 召回率 3 0.5 0.709 0.699 3 0.4 0.647 0.739 3 0.3 0.615 0.792 3 0.2 0.582 0.823 3 0.1 0.573 0.833 3 0.05 0.572 0.835 3 0.04 0.548 0.889 2 0.5 0.824 0.754 2 0.4 0.802 0.782 2 0.3 0.751 0.815

    表1N+投放优化性能评估
    从表1中可以看到固定N值时,通过调整threshold的值可得到不同的正确 率和召回率,threshold越大,正确率越高,召回率越低;反之,正确率越低, 召回率越高。
    下面的实施例,示出了可以根据实际业务来调整threshold到最佳值,以满 足广告主的要求。
    示例一:肯德基套餐3+广告投放
    肯德基为了让消费者熟知新出套餐,需要对消费者进行广告投放,但要求 每个投放目标在一段时间内看到广告的次数达3次以上才有效。在线下,选取 cookie特征数据,对CART分类模型树进行训练,得到概率预测模型。此外, 根据肯德基套餐广告的期望是投放到更多的人群的业务特点,设定threshold为 一个小值,为0.04。线上,当一个cookie到达时,提取并格式化cookie数据成 用户特征作为模型的输入,该模型输出一个预测值(prob)3,若(prob)3大于等于 threshold则投放,若(prob)3小于threshold则不投放。
    示例二:康师傅新品2+广告投放
    康师傅为了推广新品进行2+广告投放。在线下,选取cookie特征数据,对 CART分类模型树进行训练,得到概率预测模型。此外,满足2+的用户数大, 可完全达到康师傅广告的覆盖要求,因此,为获得较高的正确率,设定threshold 为一个较大值,为0.4。线上,当一个cookie到达时,提取并格式化cookie数据 成用户特征作为模型的输入,该模型输出一个预测值(prob)2,若(prob)2大于等于 threshold则投放,若(prob)2小于threshold则不投放。
    在详细说明本发明的较佳实施例之后,熟悉本领域的技术人员可清楚的了 解,在不脱离随附权利要求的保护范围与精神下可进行各种变化与改变,且本 发明亦不受限于说明书中所举示例性实施例的实施方式。

    关 键  词:
    一种 广告 投放 优化 方法
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:一种N广告投放优化方法.pdf
    链接地址:https://www.zhuanlichaxun.net/p-4588766.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1