【微信@CIKM2021 】强化学习推荐模型的知识蒸馏探索之路 - 专知VIP

会员服务 ·

6

强化学习 · 推荐模型 · 知识蒸馏 · CIKM 2021 · 论文 ·

2021 年 12 月 4 日

【微信@CIKM2021 】强化学习推荐模型的知识蒸馏探索之路

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

强化学习（Reinforcement learning, RL）已经在真实世界的推荐系统中被广为验证。然而，基于强化学习的推荐算法常常会带来巨大的内存和时间成本。知识蒸馏（Knowledge distillation, KD）则是一种常见的有效压缩模型同时尽量保持模型有效性的方法。但是，推荐中的强化学习模型往往需要在极度稀疏的用户-物品空间中进行大规模的探索（RL exploration），而这增加了强化学习推荐模型进行蒸馏的难度。

在强化学习蒸馏中，老师（teacher）需要教给学生（student）哪些课程（例如老师对于有标签/无标签的user-item对的评分），以及学生需要从老师的课程中学习多少（即每个蒸馏样例的学习权重），需要被精细地规划和设计。在这个工作中，我们提出了一个全新的蒸馏强化学习推荐模型（Distilled reinforcement learning framework for recommendation, DRL-Rec），希望能够在压缩模型的基础上保持（甚至提升）模型的效果。

具体地，我们在模型蒸馏前加入一个探索/过滤模块（Exploring and filtering module），从老师和学生两个角度判断蒸馏中什么样的信息应该从老师传给学生。我们还提出一个置信度引导的蒸馏（Confidence-guided distillation），在list-wise KL divergence loss和Hint loss两种蒸馏目标学习中加入置信度的权值，以指导学生从老师更加擅长的课程中学习更多。目前，DRL-Rec已经部署于看一看推荐系统，服务千万用户。

论文链接：

https://dl.acm.org/doi/abs/10.1145/3459637.3481917

成为VIP会员查看完整内容

28

相关内容

强化学习

强化学习（RL）是机器学习的一个领域，与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外，强化学习是三种基本的机器学习范式之一。强化学习与监督学习的不同之处在于，不需要呈现带标签的输入/输出对，也不需要显式纠正次优动作。相反，重点是在探索（未知领域）和利用（当前知识）之间找到平衡。该环境通常以马尔可夫决策过程（MDP）的形式陈述，因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于，后者不假设MDP的确切数学模型，并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【AAAI2022】基于秩模仿和预测引导特征模仿的目标检测知识蒸馏

【AAAI2022】基于秩模仿和预测引导特征模仿的目标检测知识蒸馏

专知会员服务

24+阅读 · 2021年12月12日

【CIKM2021】用领域知识增强预训练语言模型的问题回答

【CIKM2021】用领域知识增强预训练语言模型的问题回答

专知会员服务

17+阅读 · 2021年11月18日

强化学习如何用于推荐？厦大最新《强化学习推荐系统》综述论文，25页pdf156篇文献论述五种典型RL推荐方法

专知会员服务

80+阅读 · 2021年9月23日

【KDD2021】检索交互机的表格数据预测

专知会员服务

16+阅读 · 2021年8月13日

【KDD2021】拓扑蒸馏推荐系统

专知会员服务

28+阅读 · 2021年6月18日

【KDD2021】强化迭代知识蒸馏的跨语言命名实体识别

专知会员服务

25+阅读 · 2021年6月17日

【KDD2021】基于深度置信度感知学习的广告投放探索方案

专知会员服务

15+阅读 · 2021年6月16日

【WWW2021】神经协同推理

专知会员服务

58+阅读 · 2021年5月17日

【WWW2021】场矩阵分解机推荐系统

【WWW2021】场矩阵分解机推荐系统

专知会员服务

33+阅读 · 2021年2月27日

【KDD2020-Google】神经输入搜索的大规模深度推荐模型

专知会员服务

23+阅读 · 2020年9月8日

KDD 2020 | 优势特征蒸馏在淘宝推荐中的应用

KDD 2020 | 优势特征蒸馏在淘宝推荐中的应用

AINLP

10+阅读 · 2020年7月9日

最全推荐系统Embedding召回算法总结

最全推荐系统Embedding召回算法总结

凡人机器学习

30+阅读 · 2020年7月5日

让知识来指引你：序列推荐场景中以知识为导向的强化学习模型

让知识来指引你：序列推荐场景中以知识为导向的强化学习模型

PaperWeekly

6+阅读 · 2020年6月8日

WWW2020|基于知识图谱的负采样模型在推荐系统中的应用(已开源)

WWW2020|基于知识图谱的负采样模型在推荐系统中的应用(已开源)

THU数据派

10+阅读 · 2020年4月3日

推荐系统（一）：推荐系统基础

推荐系统（一）：推荐系统基础

菜鸟的机器学习

25+阅读 · 2019年9月2日

ICML 2019 | 强化学习用于推荐系统，蚂蚁金服提出生成对抗用户模型

ICML 2019 | 强化学习用于推荐系统，蚂蚁金服提出生成对抗用户模型

蚂蚁程序猿

3+阅读 · 2019年6月10日

深度 | 推荐系统评估

深度 | 推荐系统评估

AI100

24+阅读 · 2019年3月16日

一文简单理解“推荐系统”原理及架构

一文简单理解“推荐系统”原理及架构

51CTO博客

8+阅读 · 2018年10月31日

面向大规模在线学习的社会化推荐模型与方法

面向大规模在线学习的社会化推荐模型与方法

MOOC

10+阅读 · 2018年6月8日

【强化学习】易忽略的强化学习知识之基础知识及MDP

【强化学习】易忽略的强化学习知识之基础知识及MDP

产业智能官

19+阅读 · 2017年12月22日

Management of Resource at the Network Edge for Federated Learning

Arxiv

0+阅读 · 2022年2月4日

Reinforcement Learning-Empowered Mobile Edge Computing for 6G Edge Intelligence

Reinforcement Learning-Empowered Mobile Edge Computing for 6G Edge Intelligence

Arxiv

1+阅读 · 2022年2月3日

Introduction to Online Convex Optimization

Arxiv

23+阅读 · 2021年12月19日

Task-adaptive Neural Process for User Cold-Start Recommendation

Arxiv

6+阅读 · 2021年2月26日

Interest-aware Message-Passing GCN for Recommendation

Interest-aware Message-Passing GCN for Recommendation

Arxiv

12+阅读 · 2021年2月19日

Embedding-based Retrieval in Facebook Search

Arxiv

12+阅读 · 2020年6月20日

Teacher-Student Training for Robust Tacotron-based TTS

Teacher-Student Training for Robust Tacotron-based TTS

Arxiv

5+阅读 · 2019年11月7日

Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation

Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation

Arxiv

25+阅读 · 2019年10月30日

Combination of Multiple Global Descriptors for Image Retrieval

Combination of Multiple Global Descriptors for Image Retrieval

Arxiv

3+阅读 · 2019年4月18日

NAIS: Neural Attentive Item Similarity Model for Recommendation

Arxiv

3+阅读 · 2018年9月19日

VIP会员

相关主题

相关VIP内容

【AAAI2022】基于秩模仿和预测引导特征模仿的目标检测知识蒸馏

【AAAI2022】基于秩模仿和预测引导特征模仿的目标检测知识蒸馏

专知会员服务

24+阅读 · 2021年12月12日

【CIKM2021】用领域知识增强预训练语言模型的问题回答

【CIKM2021】用领域知识增强预训练语言模型的问题回答

专知会员服务

17+阅读 · 2021年11月18日

强化学习如何用于推荐？厦大最新《强化学习推荐系统》综述论文，25页pdf156篇文献论述五种典型RL推荐方法

专知会员服务

80+阅读 · 2021年9月23日

【KDD2021】检索交互机的表格数据预测

专知会员服务

16+阅读 · 2021年8月13日

【KDD2021】拓扑蒸馏推荐系统

专知会员服务

28+阅读 · 2021年6月18日

【KDD2021】强化迭代知识蒸馏的跨语言命名实体识别

专知会员服务

25+阅读 · 2021年6月17日

【KDD2021】基于深度置信度感知学习的广告投放探索方案

专知会员服务

15+阅读 · 2021年6月16日

【WWW2021】神经协同推理

专知会员服务

58+阅读 · 2021年5月17日

【WWW2021】场矩阵分解机推荐系统

【WWW2021】场矩阵分解机推荐系统

专知会员服务

33+阅读 · 2021年2月27日

【KDD2020-Google】神经输入搜索的大规模深度推荐模型

专知会员服务

23+阅读 · 2020年9月8日

热门VIP内容

开通专知VIP会员享更多权益服务

面向具身智能的多模态数据存储与检索：综述

《算法战争研究计划全景评估》35页

【CMU博士论文】水下三维视觉感知与生成

智能体战争：自主人工智能军备竞赛全景透视

相关资讯

KDD 2020 | 优势特征蒸馏在淘宝推荐中的应用

KDD 2020 | 优势特征蒸馏在淘宝推荐中的应用

AINLP

10+阅读 · 2020年7月9日

最全推荐系统Embedding召回算法总结

最全推荐系统Embedding召回算法总结

凡人机器学习

30+阅读 · 2020年7月5日

让知识来指引你：序列推荐场景中以知识为导向的强化学习模型

让知识来指引你：序列推荐场景中以知识为导向的强化学习模型

PaperWeekly

6+阅读 · 2020年6月8日

WWW2020|基于知识图谱的负采样模型在推荐系统中的应用(已开源)

WWW2020|基于知识图谱的负采样模型在推荐系统中的应用(已开源)

THU数据派

10+阅读 · 2020年4月3日

推荐系统（一）：推荐系统基础

推荐系统（一）：推荐系统基础

菜鸟的机器学习

25+阅读 · 2019年9月2日

ICML 2019 | 强化学习用于推荐系统，蚂蚁金服提出生成对抗用户模型

ICML 2019 | 强化学习用于推荐系统，蚂蚁金服提出生成对抗用户模型

蚂蚁程序猿

3+阅读 · 2019年6月10日

深度 | 推荐系统评估

深度 | 推荐系统评估

AI100

24+阅读 · 2019年3月16日

一文简单理解“推荐系统”原理及架构

一文简单理解“推荐系统”原理及架构

51CTO博客

8+阅读 · 2018年10月31日

面向大规模在线学习的社会化推荐模型与方法

面向大规模在线学习的社会化推荐模型与方法

MOOC

10+阅读 · 2018年6月8日

【强化学习】易忽略的强化学习知识之基础知识及MDP

【强化学习】易忽略的强化学习知识之基础知识及MDP

产业智能官

19+阅读 · 2017年12月22日

相关论文

Management of Resource at the Network Edge for Federated Learning

Arxiv

0+阅读 · 2022年2月4日

Reinforcement Learning-Empowered Mobile Edge Computing for 6G Edge Intelligence

Reinforcement Learning-Empowered Mobile Edge Computing for 6G Edge Intelligence

Arxiv

1+阅读 · 2022年2月3日

Introduction to Online Convex Optimization

Arxiv

23+阅读 · 2021年12月19日

Task-adaptive Neural Process for User Cold-Start Recommendation

Arxiv

6+阅读 · 2021年2月26日

Interest-aware Message-Passing GCN for Recommendation

Interest-aware Message-Passing GCN for Recommendation

Arxiv

12+阅读 · 2021年2月19日

Embedding-based Retrieval in Facebook Search

Arxiv

12+阅读 · 2020年6月20日

Teacher-Student Training for Robust Tacotron-based TTS

Teacher-Student Training for Robust Tacotron-based TTS

Arxiv

5+阅读 · 2019年11月7日

Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation

Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation

Arxiv

25+阅读 · 2019年10月30日

Combination of Multiple Global Descriptors for Image Retrieval

Combination of Multiple Global Descriptors for Image Retrieval

Arxiv

3+阅读 · 2019年4月18日

NAIS: Neural Attentive Item Similarity Model for Recommendation

Arxiv

3+阅读 · 2018年9月19日

微信扫码咨询专知VIP会员