SIGIR 2019 eBay高精度召回任务挑战赛冠军团队DeepBlueAI技术分享

2019 年 7 月 26 日 PaperWeekly

作者丨罗志鹏

单位丨深兰北京AI研发中心

近日，SIGIR 2019 eBay 数据挑战赛结果出炉，这次赛题是 eBay 搜索集团组织的高精度召回任务。由来自深兰科技北京 AI 研发中心的 DeepBlueAI 团队斩获冠军，本文带来该团队在竞赛中技术细节分享。

背景介绍

ACM SIGIR 是国际计算机学会主办的信息检索领域的最重要学术会议。SIGIR 专注于信息存储、检索和传播的各个方面，包括研究战略、输出方案和系统评估。今年，第 42 届 SIGIR 会议于 2019 年 7 月 21 日至 25 日在法国巴黎举行。

团队成绩

在 eBay SIGIR 2019 电子商务搜索挑战——高精度召回任务中，DeepBlueAI 团队荣获冠军，排名如下：

赛题介绍

本次比赛是由 eBay 搜索组组织的高精度召回任务。本次挑战针对的是电子商务搜索中的常见问题：展示非相关性排序时要显示的项目。用户通常按非相关性的维度进行排序，例如流行度、评论得分、价格等。

本次比赛的重点在于：使用非相关性排序时找到应该召回的内容。比赛数据集包括大约 90 万条来自 eBay 收藏类别中的特定字段，以及与收藏类别相关的 150 个热门搜索查询短语。每条数据带有商品标题，价格，分类目录和相应图像网址的 URL。参赛选手要合理运用数据集材料，来判断查询短语和文档是否相关。

评测指标

使用 150 个查询短语的平均 F1-score 作为本次竞赛的主要性能指标。得分越高代表模型性能越好。

题目特点

在这次比赛中，主要有以下难点：

1. 数据量大

原始数据集共约 90 万字段，150 个查询短语，两两组合即要预测约 1 亿 3 千万个 (document, query) 对是否相关。

2. 匹配难度大

给定的 query 长度短，一般为 2-3 个专业性英文单词，最长的不超过 6 个词，匹配难度较大，对建模挑战较大。

3. 训练集小，调优难

在约 1 亿 3 千万条 (document, query) 中只有 6 万余条数据作为训练集，其余部分全部需要给出预测结果。此外，150 个 query 中每个 query 的训练集数据量差异很大，需要对 average-f1 指标进行优化处理。

特征工程

我们通过 LightGBM 模型来验证特征效果。特征分三部分构成，第一部分是对 query 做基础属性特征；第二部分是对商品做基础属性特征；第三部分就是对 query 与商品做组合特征。

在所有的特征当中，query 与 title 的句向量以及在句向量的基础上再做的特征对效果影响较大。我们针对这点尝试了不同的文本，单词处理方法与不同的词向量训练方法去生成 query 与 title 的句向量。

query基础属性特征

query 单词的个数，query 数字的个数；
query 的形容词占比与名词占比；
query 的语义向量。

商品基础属性特征

title 单词的个数，title 数字的个数；
title 的形容词占比与名词占比；
商品类别的 hash 值（5 列），商品类别是逐级递减的，最多 5 级，下一个类别是上一个的子集；
最后一列商品类别的 hash 值；
最后一列商品类别的 value_counts；
价格分箱，一个查询可能搜索出价格差异较大的两个商品，价格分箱能体现出这两个商品的差异；相比直接把价格做特征，价格分箱能把两个价格相近的商品归为一类。下图是商品的价格分布，可以看出价格分布差异较大，而做完价格分箱后，能弱化这种差异，价格分布都很集中。

查询关键词与商品组合特征

title 句向量与 query 句向量的差值与点积；
title 句向量与 query 句向量的的相似度，相似度计算包括 cosine, cityblock, canberra；
query 单词与 cate 单词相同的个数；query 单词与 title 单词相同的个数；
使用 fuzzywuzzy 计算字符的编辑距离；使用 fuzzywuzzy 计算单词的编辑距离；
title 单词数与 query 单词数的差值与比值；
价格分箱针对 query，与直接用价格分箱相比，对每个 query 分别做分箱，能使每个 query 的价格分箱互不干扰；
BM25 计算 query 与 title 的相关性分数。BM25 算法通常用来作搜索相关性评分。其主要思想为：对 query 进行语素解析，生成语素 qi；然后，对于每个商品 title D，计算每个语素 qi 与 D 的相关性得分，最后，将 qi 相对于 D 的相关性得分进行加权求和，从而得到 Query 与 D 的相关性得分。

BM25 算法的一般性公式如下：

不同的单词文本预处理方法

把句子里的标点与分隔符去掉，并转成小写；
把句子里的标点与分隔符去掉，提取词干并转成小写；
不去特殊字符，直接用空格分隔，转成小写。

句向量的生成

用预处理好的 title 与 query 训练使用 word2vec 来生成词向量，然后生成句向量，虽然总语料库数据量小，但是使用它们训练得出的词向量更能体现出该数据的特性，同时也能覆盖到更多的词；
用 google 已经预训练好的词向量来生成句向量。

实验模型

在本次比赛中，我们实验了几种经典的文本相似度匹配、自然语言推理模型，包括 CNN, BiGRU,decomposable attention, ESIM 等，其中效果最好的是 ESIM。

我们最好的单模型是在 ESIM 中引入我们构造的特征，这部分特征我们称做 dense feature。

在实验中发现把 dense feature 和 nn 模型某一层直接 concat 的效果并不好，我们参考了 product neural network 概念以及 LSTM 中的 Gate 设计，我们把 dense feature 做为 gate 来使用，使用中我们把 dense feature 经过全连接层得到和子模型维度一样的表示向量，然后加上 sigmoid 激活函数，再进行 element-wise-multiplication，这样 dense feature 就可以控制子模型的信息流通，通过实验发现这样的结构在各个子模型上都能够得到较大提升。

优化后的 Gate-ESIM 模型结构如下：

效果优化

考虑到不同的 query 的训练数据量和分布都有些不同，并不一定都使用 0.5 作为正负例的划分阈值。所以我们可以调整每个 query 预测出来概率的正负例划分阈值，来优化 Average F1-Score。

相对于测试集，训练集的数量较少，为了让调整阈值后的结果更稳定，我们选择对训练集进行 10 折交叉验证，每折用 10 个不同的种子分别训练得到 10 个模型，然后把预测结果取平均。同样，对测试集预测时，用全量训练集用 10 个不同的种子分别训练得到 10 个模型，然后预测结果取平均。

在搜索阈值时，我们以优化 10 折交叉验证结果上的得分为目标。之后将 10 折交叉验证上搜到的阈值用于测试集。并且考虑到训练集中有些 query 数量较少，二分类的阈值微调后对验证集的分数会影响很大，所以我们选择只对训练集中样例数大于 120 的 query 调整阈值，数量约为整体的 81.3%。

这种优化方法虽然会在本地数据集上出现轻微的过拟合，但线上测试集也得到的较大提升，对我们后期的提分也是至关重要的。

实验结果

▲ 注: local最好的结果E没有来得及提交

从实验结果来看基于我们构造的特征的 LightGBM 模型在 Ave-F1 指标上也取得了 0.7521 的成绩，也能在榜单中排名前列，证明我们在特征工程上做了很多有效的特征。

经过参数调优的 ESIM [1] 模型在 Ave-F1 指标上也取得了非常好的效果，同时我们通过初始化预训练词向量和采用门限机制的 Gate-ESIM 的效果得到进一步提升。我们使用多种子 10 折交叉验证的方法在 local 搜索阈值对 Ave-F1 进行调优，经过这一步优化后的结果线上成绩达到 0.7731，提升非常明显。

最后我们对 Decomposable AttentionModel [2] 模型也进行了优化，最后和优化后的 Gate-ESIM 模型进行融合，在 local 效果上再次提升了千分之 5 左右，因结束时间理解有误未能提交到线上。

Poster

工作总结

提出了一种用 dense feature 做 gate 的网络结构，使得原有的模型得到较大提升；
对正负例划分阈值进行优化来提升评测指标效果。我们采用在 local 结果上进行阈值搜索的方式来优化评测指标，为了使得搜索到的阈值更稳定可靠，我们采用 10 折交叉验证并结合多 seed 的方式获取 local 预测结果，并且只在那些有不低于 120 个样本的 query 下进行阈值搜索；
构造丰富的基于 query，商品以及 query-商品对的特征；
使用不同的预处理方法构造特征，加强了特征表达。