计算广告发展历程——从CPC到oCPX

2020 年 7 月 29 日 AINLP

“ 本文简要概述计算广告的作用和意义，以及计算广告机制发展的历程。”

作者介绍：汪家升，曾于腾讯任职广告算法工程师，从事计算广告，推荐系统相关工作。微信：wjs325

「1.计算广告的目的」

简单的说就是要提高用户流量的价值，用户有活跃和不活跃之分，活跃用户什么广告都喜欢进行互动，普通用户只对自己感兴趣的广告进行互动，敏感用户对广告一个都不点或者大量点击负反馈。如果不做点击率预估，广告随机投放，那么广告主的效果很难保证，如果只投给活跃用户，那剩余的长尾流量被浪费掉了，或者这部分流量获利的价值不高。

「2.提升流量分发效率」

我们知道不同的用户有不同的兴趣，女生偏爱看化妆品广告，男生更偏向运动产品和汽车广告兴趣更多一些，假设把性别作为一个选项让广告主限定人群进行投放，那么每千次曝光产生点击就会增加，在CPC广告扣费模式下广告主按照点击扣费，因此对平台而言相同的曝光产出更多的点击，平台收取的利润就会越多eCPM越高。因此平台给女生推化妆品广告，给男生推汽车广告，同样的曝光产出了更多的收益。如果能够将用户和广告的匹配更精准一些，同等流量下产出的点击更多，以CPC点击扣费场景下平台收益也会越多。因此点击率预估的核心诉求就是寻找更加精准的用户广告二元匹配，提升流量的分发效率，提高单位流量的价格。

「3.精细化运营举例」

流量精细化售卖可以使得广告主和平台都获取更多的收益，是非零和博弈。以水果摊卖水果为例，三种售卖方式，一种是按堆卖，不管堆内水果品种和质量通通五元一斤，第二种按水果种类卖，苹果5元一斤，芒果6元一斤，第三种更细一步种类下面还要细分大小产地，香梨和砀山梨价格就不一样。流量的精细化运营使得流量单价增加eCPM从而平台获得更大的收益。而对于只想买苹果的广告主而言，精细化的购买苹果免去了购买不需要的芒果的花费，用较少的钱获得了真正想要的东西，收益和ROI也是正向的。

「4.细粒度的定向标签」

仅仅依靠性别定向还不够，粒度仍然太粗了，假如给出更细粒度的定向标签供给广告主选择，那么流量的利用率就会进一步提升。比如一个南京市本地的考研培训机构想要投放广告，他希望只投给：年龄在20到30岁之间、大学生、lbs为南京的用户人群，那么平台就需要给出这些定向标签。比如母婴产品广告主只希望定向投放给女性用户，可以提升广告的转化率。对于平台而言，假设有1000个用户，500是男士500是女士，假如男士购买母婴产品的转化率的1%，而女性购买该母婴产品的转化率是5%，如果该广告主不加定向随机分发投放200个曝光，那么该广告获得的转化为1+5=6个，如果将定向标签设置为女性，则200个曝光内可以收获10个转化，因此定向标签提升了广告主的转化率，对于平台而言同样是每两百次曝光能够为广告主带来更多转化，提升了广告主的ROI增强了广告主的忠诚度，可以进一步做大市场。

「5.比定向标签更细一步」

只有定向标签还不够把流量利用的更好，假设用两个广告主都投放了广告，恰好他们都覆盖到了同一个用户流量，用户在请求的时候到底给用户展示哪一个广告？这里就需要考虑广告主的诉求和平台的诉求了，广告主的诉求是花少量的钱买到足够多的转化，平台的诉求是同样的曝光挣更多的钱，eCPM公式排序能够同时满足这两方的诉求，并且还能满足用户的少打扰诉求。

「6.eCPM公式解析」

eCPM的含义是平台千次展示获得的广告收入，eCPM = 收入/网页展示次数x1000。而收入=点击率x网页展示次数x广告单价，所以eCPM=广告单价x点击率x1000。在按照CPC扣费的模式下，广告主针对每个点击进行出价，平台来承担投放点击率的效果，假设广告主为广告A每个点击出价1元，平台为该广告投放了1000条曝光，但是只展示出来1条广告，那么平台收入为1元，假设此时有另一个广告主为广告B的每个点击出价2元，并且A和B两个广告的点击率相同，那么根据公式我们选择B广告进行展示利润会更大。因为相同的曝光数下，B广告的出价更高。因此我们对每个用户请求按照eCPM进行排序。

「7.点击率预估的作用」

根据eCPM公式，广告单价可以根据广告主提交的信息拿到，点击率却不那么容易，对于一个新广告而言由于没有该广告的历史投放数据因此无法获知该广告的真实点击率，即使广告开始投放了，在投放前期由于数据较少，统计ctr不置信不能反映广告的真实竞争能力，因而平台承担了极大风险。假设有两个广告A和B，A的点击率是2%，B的点击率是3%，假如平台对A广告的ctr高估，使得本来可以投放给B广告的流量被分给了A广告，由于按照点击进行扣费，平台承担了损失。因此平台需要把广告点击率之间的序预估的足够准确才能保证eCPM价值最大化。

「8.点击率预估方法」

既然历史数据是一个滞后的指标，且冷启动时间无法准确得到广告的点击率，那么有没有办法可以预估出广告的点击率？这里终于开始进入到模型的讨论范畴了，我们根据统计理论可以知道，假如获取了历史数据可以对数据建模求得数据的分布函数，有了这个分布函数我们就可以对未来的数据进行预测。既然要预测未来，根据因果论，有因才有果。因此我们需要先找出影响点击率的因变量，然后对因变量进行加权考虑各个变量对点击率的重要程度，加权输出点击率。这的因变量我们通常称为特征，模型要学习的就是各个特征的权重系数。简单的线性模型有LR和FM，在深度学习时代点击率预估模型都采用了embedding+MLP框架进一步学习特征的组合表达能力。此处需要注意的是，既然按照CPC扣费方式，那么点击率预估模型的序非常重要但是预估是否准确还原真实ctr不是必须，即bias不是需要关注的指标，后面我们将讲到oCPM广告按照曝光扣费模式，不仅要预测对ctr和cvr的序，还要预估对ctr和cvr的值。

「9.CPC扣费模式下广告主的真实诉求ROI是否得到了满足？」

对于效果广告而言，广告主投放广告的目的很明确以最小的代价获得足够多的收益，一般使用ROI来进行量化。因此广告主关注的是广告投放拉取用户的付费收益，而CPC场景下扣费和预估的都是点击，平台只保证可以为广告主找到足够的点击，但是这部分点击流量后续未必会进一步产生付费，点击到付费是否会转化的风险由广告主自己来承担。广告主预估点击到付费的概率偏高会导致ROI下降，而广告主预估偏低会导致竞争能力不足，难以起量。对广告主的预估能力要求很高，也提高了广告主的投放门槛不利于养大市场。因此广告主期望出价的标的可以离付费更深一些，这样出价点到付费点的链路越短，广告主预估的难度就越低。原来的CPC场景下，广告主对点击出价，点击到广告主真实的收益之间的风险由广告主自己承担：

广告主预估偏高的话消耗走量变大，广告平台收益变大，但是广告主并没有获得预期的收益导致ROI下降。
广告主预估偏低的话，消耗不足起不了量，广告平台收益变小，广告主无法起量难以完成预期。

因此广告投放机制从按点击扣费CPC走向了按转化扣费CPA。

「10.为什么CPA机制在许多场景下不可行？」

虽然CPA可以满足广告主进一步下探真实目标的需求，但是在许多场景下不能适用。在CPC机制下，广告主自己预估出价点到收益点之间的风险由广告主承担，并且偏低偏高都会导致广告主利益受损。而在CPA机制之下，广告平台承担了曝光到转化之间的预估工作和风险，前提是广告主可以把该label的数据回传给广告平台。此时平台扣费和广告主出价都是基于转化目标，广告主有可能产生作弊的动机，以减少回传转化数据来降低扣费。例如：广告主可以把出价出的很高，来提高eCPM竞价能力获取大量流量，但同时又不回传转化数据，导致平台无法扣费，薅平台的羊毛。只有阿里巴巴这种转化行为也是站内自动回传的场景下才能采用CPA机制而无需担心作弊风险。

「11.oCPX出价和计费点分离创新解决矛盾」

上面讲到广告主的最终诉求是ROI，因此对更深层次，越靠近收益点的优化目标进行出价越符合广告主的诉求。但是由于优化目标数据掌握在广告主手里，如果扣费点和出价点保持一致的话会导致广告主存在作弊的动机，平台利益难以保证。facebook首次创新提出了oCPX模式，核心在于将出价点与扣费点进行分离，从而实现了为广告主提供更深的目标出价的同时仍然按照浅层目标扣费，保障了平台和广告主的利益。比如oCPM机制，广告主可以按照激活或者付费目标进行出价，但是平台按照曝光进行扣费。这种情况下平台需要承担曝光到优化目标即激活或者付费目标之间的转化概率预估，转化概率的预估即pCVR预估是非常核心的部分：

pCVR如果预估偏低，广告无法起量，平台收益变小；广告主无法起量，也无法达成预期投放目标。
pCVR如果预估偏高，广告大幅走量，平台收益变大；广告主虽然大幅走量，但是却没有获得足够的转化和收益，ROI降低，广告主的利益是受损的。

对于广告主而言，pcvr预估偏高或者偏低都不满足自己的利益诉求，因此广告主倾向于回传真实的转化

对于平台而言，pcvr预估偏低对平台利益有损，但是pcvr预估偏高对平台利益有利，因此平台有预估偏高的动机，因此目前许多oCPX平台都有达成率不足的赔付机制。

「12.pCVR预估的难点」

转化数据延迟且不稳定：转化行为数据由广告主主动回传，数据不稳定。转化行为相比点击行为有更强的延迟性，导致训练数据不准确，模型预估存在天然bias。
转化回传数据稀疏性：转化数据相对于点击数据更加稀疏，模型收敛和拟合能力存在挑战。
优化目标多且存在相关性和差异性：优化目标有浅层转化目标，也有深层转化目标，不同目标之间存在相关性、干扰性等等。
样本选择性偏差：pcvr建模只使用点击数据空间，不产生点击的人群无法触达，流量探索空间被限制。

参考文献：

[1] 申探社：深入互联网广告中的出价模式（上）— 基础出价模式
[2] 申探社：深入互联网广告中的出价模式（中） — 智能出价模式
[3] 申探社：深入互联网广告中的出价模式（下）：联盟、RTB和RTA

推荐阅读

这个NLP工具，玩得根本停不下来

征稿启示| 200元稿费+5000DBC（价值20个小时GPU算力）

完结撒花！李宏毅老师深度学习与人类语言处理课程视频及课件（附下载）

从数据到模型，你可能需要1篇详实的pytorch踩坑指南

如何让Bert在finetune小数据集时更“稳”一点

模型压缩实践系列之——bert-of-theseus，一个非常亲民的bert压缩方法

文本自动摘要任务的“不完全”心得总结番外篇——submodular函数优化

Node2Vec 论文+代码笔记

模型压缩实践收尾篇——模型蒸馏以及其他一些技巧实践小结

中文命名实体识别工具（NER）哪家强？

学自然语言处理，其实更应该学好英语

斯坦福大学NLP组Python深度学习自然语言处理工具Stanza试用

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区，专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享，主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等，欢迎关注！加技术交流群请添加AINLPer(id：ainlper)，备注工作/研究方向+加群目的。