As a key stage of Recommender Systems (RSs), Multi-Task Fusion (MTF) is responsible for merging multiple scores output by Multi-Task Learning (MTL) into a single score, finally determining the recommendation results. Recently, Reinforcement Learning (RL) has been applied to MTF to maximize long-term user satisfaction within a recommendation session. However, due to limitations in modeling paradigm, all existing RL algorithms for MTF can only utilize user features and statistical features as the state to generate actions at the user level, but unable to leverage item features and other valuable features, which leads to suboptimal performance. Overcoming this problem requires a breakthrough in the existing modeling paradigm, yet, to date, no prior work has addressed it. To tackle this challenge, we propose EnhancedRL, an innovative RL algorithm. Unlike existing RL-MTF methods, EnhancedRL takes the enhanced state as input, incorporating not only user features but also item features and other valuable information. Furthermore, it introduces a tailored actor-critic framework - including redesigned actor and critics and a novel learning procedure - to optimize long-term rewards at the user-item pair level within a recommendation session. Extensive offline and online experiments are conducted in an industrial RS and the results demonstrate that EnhancedRL outperforms other methods remarkably, achieving a +3.84% increase in user valid consumption and a +0.58% increase in user duration time. To the best of our knowledge, EnhancedRL is the first work to address this challenge, and it has been fully deployed in a large-scale RS since September 14, 2023, yielding significant improvements.


翻译:作为推荐系统(RSs)的关键阶段,多任务融合(MTF)负责将多任务学习(MTL)输出的多个分数合并为单一分数,最终决定推荐结果。近年来,强化学习(RL)已被应用于MTF,以在推荐会话中最大化用户的长期满意度。然而,由于建模范式的限制,所有现有的用于MTF的RL算法仅能利用用户特征和统计特征作为状态,在用户层面生成动作,而无法利用物品特征及其他有价值的特征,这导致了次优的性能。克服此问题需要对现有建模范式进行突破,但迄今为止,尚无先前工作解决此问题。为应对这一挑战,我们提出了EnhancedRL,一种创新的RL算法。与现有的RL-MTF方法不同,EnhancedRL以增强状态作为输入,不仅包含用户特征,还整合了物品特征及其他有价值的信息。此外,它引入了一个定制的演员-评论家框架——包括重新设计的演员和评论家以及新颖的学习流程——以在推荐会话中,在用户-物品对级别优化长期奖励。我们在一个工业推荐系统中进行了广泛的离线和在线实验,结果表明EnhancedRL显著优于其他方法,实现了用户有效消费增加+3.84%和用户使用时长增加+0.58%。据我们所知,EnhancedRL是首个解决此挑战的工作,并已于2023年9月14日起全面部署于一个大规模推荐系统中,带来了显著的改进。

0
下载
关闭预览

相关内容

VILA-U:一个融合视觉理解与生成的统一基础模型
专知会员服务
21+阅读 · 2024年9月9日
【KDD2024】面向鲁棒推荐的决策边界感知图对比学习
专知会员服务
21+阅读 · 2024年8月8日
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员