强化学习(Reinforcement learning, RL)已经在真实世界的推荐系统中被广为验证。然而,基于强化学习的推荐算法常常会带来巨大的内存和时间成本。知识蒸馏(Knowledge distillation, KD)则是一种常见的有效压缩模型同时尽量保持模型有效性的方法。但是,推荐中的强化学习模型往往需要在极度稀疏的用户-物品空间中进行大规模的探索(RL exploration),而这增加了强化学习推荐模型进行蒸馏的难度。

在强化学习蒸馏中,老师(teacher)需要教给学生(student)哪些课程(例如老师对于有标签/无标签的user-item对的评分),以及学生需要从老师的课程中学习多少(即每个蒸馏样例的学习权重),需要被精细地规划和设计。在这个工作中,我们提出了一个全新的蒸馏强化学习推荐模型(Distilled reinforcement learning framework for recommendation, DRL-Rec),希望能够在压缩模型的基础上保持(甚至提升)模型的效果。

具体地,我们在模型蒸馏前加入一个探索/过滤模块(Exploring and filtering module),从老师和学生两个角度判断蒸馏中什么样的信息应该从老师传给学生。我们还提出一个置信度引导的蒸馏(Confidence-guided distillation),在list-wise KL divergence loss和Hint loss两种蒸馏目标学习中加入置信度的权值,以指导学生从老师更加擅长的课程中学习更多。目前,DRL-Rec已经部署于看一看推荐系统,服务千万用户。

论文链接:

https://dl.acm.org/doi/abs/10.1145/3459637.3481917

成为VIP会员查看完整内容
27

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【CIKM2021】用领域知识增强预训练语言模型的问题回答
专知会员服务
16+阅读 · 2021年11月18日
专知会员服务
15+阅读 · 2021年8月13日
专知会员服务
26+阅读 · 2021年6月18日
专知会员服务
24+阅读 · 2021年6月17日
专知会员服务
14+阅读 · 2021年6月16日
专知会员服务
53+阅读 · 2021年5月17日
【WWW2021】场矩阵分解机推荐系统
专知会员服务
30+阅读 · 2021年2月27日
专知会员服务
22+阅读 · 2020年9月8日
最全推荐系统Embedding召回算法总结
凡人机器学习
29+阅读 · 2020年7月5日
推荐系统(一):推荐系统基础
菜鸟的机器学习
25+阅读 · 2019年9月2日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
一文简单理解“推荐系统”原理及架构
51CTO博客
8+阅读 · 2018年10月31日
【强化学习】易忽略的强化学习知识之基础知识及MDP
产业智能官
17+阅读 · 2017年12月22日
Arxiv
20+阅读 · 2021年12月19日
Interest-aware Message-Passing GCN for Recommendation
Arxiv
11+阅读 · 2021年2月19日
Arxiv
12+阅读 · 2020年6月20日
Teacher-Student Training for Robust Tacotron-based TTS
VIP会员
相关VIP内容
【CIKM2021】用领域知识增强预训练语言模型的问题回答
专知会员服务
16+阅读 · 2021年11月18日
专知会员服务
15+阅读 · 2021年8月13日
专知会员服务
26+阅读 · 2021年6月18日
专知会员服务
24+阅读 · 2021年6月17日
专知会员服务
14+阅读 · 2021年6月16日
专知会员服务
53+阅读 · 2021年5月17日
【WWW2021】场矩阵分解机推荐系统
专知会员服务
30+阅读 · 2021年2月27日
专知会员服务
22+阅读 · 2020年9月8日
相关资讯
最全推荐系统Embedding召回算法总结
凡人机器学习
29+阅读 · 2020年7月5日
推荐系统(一):推荐系统基础
菜鸟的机器学习
25+阅读 · 2019年9月2日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
一文简单理解“推荐系统”原理及架构
51CTO博客
8+阅读 · 2018年10月31日
【强化学习】易忽略的强化学习知识之基础知识及MDP
产业智能官
17+阅读 · 2017年12月22日
微信扫码咨询专知VIP会员