CIKM2022 | 深度CTR模型过拟合现象分析

2022 年 10 月 18 日 机器学习与推荐算法

今天跟大家分享一篇探究深度点击率预估模型过拟合现象的文章。

Title: Towards Understanding the Overfitting Phenomenon of Deep Click-Through Rate Prediction Models

From: CIKM 2022 阿里

Link：https://arxiv.org/abs/2209.06053

引言

论文基于CTR模型，对推荐系统中的过拟合现象进行研究分析，CTR模型的过拟合现象非常特殊：在第一个epoch 结束后，模型急剧过拟合，测试集效果急剧下降，称这种现象为“one epoch现象”，如下图：

论文主要贡献：

采用工业数据集进行了广泛的实验，结果表明：深度CTR模型存在one epoch现象。具体来说，模型在第二个epoch开始时对训练数据突然过度拟合，导致模型效果下降；
模型结构、收敛速度快的优化算法和特征稀疏性都与one-epoch现象密切相关。虽然可以通过限制这些因素来训练模型的多个epoch，但通常第一个epoch效果最好，也解释了为什么大多数工业场景中，深度CTR模型只进行一次数据训练。
提出了一个假设来解释one epoch现象：在第二个epoch开始时，MLP层快速适应Embedding层特征分布，过拟合突然发生，导致one-epoch现象，并设计实验进行验证。

ONE-EPOCH现象分析

采用工业数据集，从模型和特征两个方面进行分析，深度CTR模型如下图，通过分析模型结构、收敛速度和特征稀疏性与one epoch现象密切相关。

2.1 模型因素

（1）模型结构

对比LR和深度CTR模型，LR模型随着epoch增加，test auc在提升，不存在one epoch现象，说明深度网络结构(Embedding+DNN)与one epoch现象有关。

（2）模型参数量

设置不同embedding维度、MLP节点和层数，都存在one epoch现象，说明与参数量无关。

（3）激活函数与batch size

采用不同batch size和激活函数，均存在one epoch现象。

（4）优化方法

与SGD相比，Adam和RMSprop收敛速度更快，但更容易出现one-epoch现象，同时学习率也与one-epoch现象有关，因此使模型收敛速度快的方法会增加one-epoch问题的风险。

（5）Weight Decay and Dropout

Weight Decay and Dropout都不能缓解和解决one-epoch现象。

2.2 特征因素

特征主要包含：用户特征(年龄、性别等)、用户行为特征(如点击序列)、item特征(item id、类别等)、contextual特征，其中细粒度特征（如item ID和history item ID）具有稀疏性和长尾的特点，如下表：

为了验证特征稀疏性对one-epoch现象影响，采用filter和hash减少稀疏性：

实验结果如下图：随着m减小，one-epoch现象不断缓解，说明特征的稀疏性与one-epoch现象密切相关。

ONE-EPOCH假设验证

提出一种假设来解释one-epoch现象：在第二个epoch开始时，MLP层快速适应Embedding层特征分布，过拟合突然发生，导致one-epoch现象。

3.1 联合分布差异

采用 $\mathcal{A}-\rm{distance}$ 表示点击与未点击样本之间的可分离性，值越大，表示点击和未点击样本的embedding层分布差异越大，更容易被MLP区分，定义如下式：

其中 ${\rm{EMB}}(x)$ 表示样本 $x$ 的embedding层输出，MLP层是在embedding层联合分布 $\mathcal{D}({\rm{EMB}}(x))$ 上进行学习， ${\rm{err}}(h)$ 表示分类loss。

训练过程中计算 $\mathcal{A}(\mathcal{D}(+,-))$ ，结果如下图：

图(a)：对于训练样本，在第2个epoch开始， $\mathcal{A}-\rm{distance}$ 突然增加，对于测试样本，相对稳定，说明对已训练样本，MLP能快速适应
图(b)-(d)：细粒度特征会使 $\mathcal{A}-\rm{distance}$ 突增，说明embedding层中的稀疏特征，使得训练和测试集中 $\mathcal{D}({\rm{EMB}}(x))$ 存在差异