反事实估计器允许使用现有日志数据来估计一些新的目标推荐策略将如何执行(如果使用它而不是记录数据的策略)。我们说那些估计器“off-policy”工作,因为记录数据的策略与目标策略不同。通过这种方式,反事实估计器支持类似于无偏离线A/B测试的Off-policy Evaluation (OPE),以及通过Off-policy learning (OPL)学习新的推荐策略。本教程的目标是总结OPE/OPL的基础、实现和最新进展。具体来说,我们将介绍OPE/OPL的基本原理,并提供传统方法的理论和经验比较。然后,我们将讨论正在出现的实际挑战,如如何考虑组合行动、分配转移、曝光的公平性和双边市场结构。然后我们将展示Open Bandit Pipeline,一个用于OPE/OPL的开源包,以及如何将它用于研究和实际目的。我们将通过展示真实世界的案例研究和未来的方向来结束本教程。

交互式决策系统如广告/推荐/搜索平台产生的日志数据对评估和重新设计系统有价值。例如,新闻推荐系统的日志记录了哪些新闻文章出现过,以及用户是否阅读过它,这给了系统设计师重新设计其推荐的机会,使其更相关。然而,利用日志盗版者数据比传统的监督机器学习要困难得多,因为结果只观察到系统选择的动作,而不是系统可能采取的所有其他动作。日志也有偏差,因为它们过度反映了系统偏爱的操作。这个问题的一个潜在解决方案是A/B测试,在在线环境中比较竞争系统的性能。然而,A/B测试系统通常很困难,因为部署新策略既费时又费钱,还会带来失败的风险。这激发了OPE/OPL的问题,该问题旨在评估新策略的性能或仅使用过去策略收集的日志数据对其进行训练。

由于它们的实际意义,对OPE/OPL的理论和方法研究越来越多。然而,将这些方法应用到实际应用中并不总是简单的,因为在实践中可能会出现许多挑战,例如组合/连续操作、分布转移和公开需求的公平性。本教程旨在弥合OPE/OPL理论和实践之间的差距。具体来说,我们将介绍OPE/OPL的基本原理,并从理论和经验的角度对传统方法进行比较。然后,我们将介绍该领域最近的进展,以应对正在出现的实际挑战。然后我们将展示一个开源包Open Bandit Pipeline1[15],以及它如何帮助我们实现用于研究和实际目的的OPE/OPL。我们还将介绍真实世界的案例研究和未来的方向。

Tutorial Outline 目录内容

Off-Policy Evaluation (Thorstem Joachims; 30min) Setup and Foundations Bias-Variance Control (Yuta Saito; 35min) Advanced Off-Policy Estimators Recent Advances (Yuta Saito; 35min) Off-Policy Evaluation for Practical Settings Off-Policy Learning (Thorsten Joachims; 40min) Learning Approaches and Methods Implementations (Yuta Saito; 30min) Open Bandit Pipeline Summary and QA (Both presenters; 10min)

成为VIP会员查看完整内容
34

相关内容

专知会员服务
40+阅读 · 2021年10月4日
【WSDM2021-Tutorial】偏见感知推荐系统的进展,134页ppt
专知会员服务
49+阅读 · 2021年3月9日
【ICML2020】强化学习中基于模型的方法,279页ppt
专知会员服务
43+阅读 · 2020年10月26日
【RecSys2020干货教程】对抗机器学习推荐系统,186页ppt
专知会员服务
51+阅读 · 2020年10月10日
【ICML2020】基于模型的强化学习方法教程,279页ppt
专知会员服务
123+阅读 · 2020年7月20日
AAAI 2020 最新“可解释人工智能 XAI”教程
学术头条
5+阅读 · 2020年2月11日
推荐系统实践系列 | 一、推荐系统流程设计
机器学习与推荐算法
6+阅读 · 2020年2月11日
推荐系统(一):推荐系统基础
菜鸟的机器学习
25+阅读 · 2019年9月2日
新书推荐《推荐系统进展:方法与技术》
LibRec智能推荐
13+阅读 · 2019年3月18日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
推荐系统概述
Linux爱好者
20+阅读 · 2018年9月6日
快手类推荐系统实践
机器学习算法与Python学习
17+阅读 · 2018年2月7日
Arxiv
3+阅读 · 2020年2月12日
Arxiv
19+阅读 · 2019年11月23日
Learning Recommender Systems from Multi-Behavior Data
Arxiv
22+阅读 · 2018年8月3日
Arxiv
8+阅读 · 2018年2月23日
VIP会员
相关资讯
AAAI 2020 最新“可解释人工智能 XAI”教程
学术头条
5+阅读 · 2020年2月11日
推荐系统实践系列 | 一、推荐系统流程设计
机器学习与推荐算法
6+阅读 · 2020年2月11日
推荐系统(一):推荐系统基础
菜鸟的机器学习
25+阅读 · 2019年9月2日
新书推荐《推荐系统进展:方法与技术》
LibRec智能推荐
13+阅读 · 2019年3月18日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
推荐系统概述
Linux爱好者
20+阅读 · 2018年9月6日
快手类推荐系统实践
机器学习算法与Python学习
17+阅读 · 2018年2月7日
相关论文
微信扫码咨询专知VIP会员