Large language models (LLMs) are reshaping the recommender system paradigm by enabling users to express preferences and receive recommendations through conversations. Yet, aligning LLMs to the recommendation task remains challenging: pretrained LLMs often generate out-of-catalog items, violate required output formats, and their ranking quality degrades sharply toward the end of the generated list. To this end, we propose ConvRec-R1, a two-stage framework for end-to-end training of LLM-based conversational recommender systems. In Stage 1, we construct a behavioral-cloning dataset with a Remap-Reflect-Adjust pipeline, which produces high-quality, catalog-grounded demonstrations from powerful blackbox LLMs to warm-start the RL training. In Stage 2, we propose Rank-GRPO, a principled extension of group relative policy optimization (GRPO) tailored to tasks with rank-style outputs. Rank-GRPO treats each rank in the recommendation list as the unit instead of token (too fine-grained) or sequence (too coarse), redefining rewards to remove non-causal credit assignment and introducing a rank-level importance ratio based on the geometric mean of rank-wise token probabilities to stabilize policy updates. Experiments on the public Reddit-v2 dataset show that ConvRec-R1 converges faster and achieves higher Recall and NDCG than GRPO-style baselines. Code and datasets are released at https://github.com/yaochenzhu/Rank-GRPO.


翻译:大型语言模型(LLM)正在重塑推荐系统范式,使用户能够通过对话表达偏好并接收推荐。然而,将LLM与推荐任务对齐仍具挑战性:预训练的LLM常生成目录外项目、违反要求的输出格式,且其排序质量在生成列表末尾急剧下降。为此,我们提出ConvRec-R1,一个用于端到端训练基于LLM的对话式推荐系统的两阶段框架。在阶段1,我们通过Remap-Reflect-Adjust流程构建行为克隆数据集,从强大的黑盒LLM中生成高质量、基于目录的演示,以预热强化学习训练。在阶段2,我们提出Rank-GRPO,这是针对具有排序式输出任务而定制化的群组相对策略优化(GRPO)的原则性扩展。Rank-GRPO将推荐列表中的每个排名视为单元(而非过于细粒度的词元或过于粗粒度的序列),重新定义奖励以消除非因果信用分配,并引入基于逐排名词元概率几何平均的排名级重要性比率,以稳定策略更新。在公开Reddit-v2数据集上的实验表明,ConvRec-R1比GRPO风格基线收敛更快,并实现了更高的召回率和归一化折损累计增益(NDCG)。代码和数据集发布于https://github.com/yaochenzhu/Rank-GRPO。

0
下载
关闭预览

相关内容

ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
【NeurIPS2019】图变换网络:Graph Transformer Network
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关资讯
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
【NeurIPS2019】图变换网络:Graph Transformer Network
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员