Learning-to-rank (LTR) has become a key technology in E-commerce applications. Most existing LTR approaches follow a supervised learning paradigm from offline labeled data collected from the online system. However, it has been noticed that previous LTR models can have a good validation performance over offline validation data but have a poor online performance, and vice versa, which implies a possible large inconsistency between the offline and online evaluation. We investigate and confirm in this paper that such inconsistency exists and can have a significant impact on AliExpress Search. Reasons for the inconsistency include the ignorance of item context during the learning, and the offline data set is insufficient for learning the context. Therefore, this paper proposes an evaluator-generator framework for LTR with item context. The framework consists of an evaluator that generalizes to evaluate recommendations involving the context, and a generator that maximizes the evaluator score by reinforcement learning, and a discriminator that ensures the generalization of the evaluator. Extensive experiments in simulation environments and AliExpress Search online system show that, firstly, the classic data-based metrics on the offline dataset can show significant inconsistency with online performance, and can even be misleading. Secondly, the proposed evaluator score is significantly more consistent with the online performance than common ranking metrics. Finally, as the consequence, our method achieves a significant improvement (\textgreater$2\%$) in terms of Conversion Rate (CR) over the industrial-level fine-tuned model in online A/B tests.


翻译:现有LTR方法大多遵循从在线系统收集的离线标签数据提供的受监督的学习模式,然而,人们注意到,以前的LTR模型可以在离线验证数据上有一个良好的验证性业绩,但在线绩效较差,反之亦然,这意味着离线和在线评价之间可能存在很大的不一致。我们在本文件中调查和确认,这种不一致存在,并可能对AliExpress搜索产生重大影响。不一致的原因包括学习过程中对项目背景的无知,而离线数据集不足以学习背景。因此,本文件提议为LTR项目背景的LTR建立一个评价者-生成框架。框架包括一名评价者,负责对涉及背景的建议进行一般性评价,以及一个通过强化学习使评价者得分最大化的生成者,以及一个确保评价者普遍化的区分者。在模拟环境和AliExpress搜索在线系统中的广泛实验表明,在离线数据集中基于数据的典型指标首先可以显示,在在线业绩测试方面与在线评级相比明显不相符,最后,在标准评级方面,在在线评级方面,比共同的评级更具有误导性。

0
下载
关闭预览

相关内容

全球速卖通全球速卖通(英文名:AliExpress)正式上线于2010年4月,是阿里巴巴旗下唯一面向全球市场打造的在线交易平台,被广大卖家称为“国际版淘宝”。全球速卖通面向海外买家,通过支付宝国际账户进行担保交易,并使用国际快递发货。是全球第三大英文在线购物网站。
全球速卖通(AliExpress)是阿里巴巴帮助中小企业接触终端批发零售商,小批量多批次快速销售,拓展利润空间而全力打造的融合订单、支付、物流于一体的外贸在线交易平台。
多标签学习的新趋势(2020 Survey)
专知会员服务
41+阅读 · 2020年12月6日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年3月2日
Arxiv
0+阅读 · 2021年3月2日
Arxiv
126+阅读 · 2020年9月6日
Learning from Few Samples: A Survey
Arxiv
77+阅读 · 2020年7月30日
A Survey on Bayesian Deep Learning
Arxiv
60+阅读 · 2020年7月2日
Arxiv
12+阅读 · 2019年3月14日
Arxiv
6+阅读 · 2018年12月10日
Paraphrase Generation with Deep Reinforcement Learning
VIP会员
相关VIP内容
多标签学习的新趋势(2020 Survey)
专知会员服务
41+阅读 · 2020年12月6日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Arxiv
0+阅读 · 2021年3月2日
Arxiv
0+阅读 · 2021年3月2日
Arxiv
126+阅读 · 2020年9月6日
Learning from Few Samples: A Survey
Arxiv
77+阅读 · 2020年7月30日
A Survey on Bayesian Deep Learning
Arxiv
60+阅读 · 2020年7月2日
Arxiv
12+阅读 · 2019年3月14日
Arxiv
6+阅读 · 2018年12月10日
Paraphrase Generation with Deep Reinforcement Learning
Top
微信扫码咨询专知VIP会员