Role-playing models (RPMs) are widely used in real-world applications but underperform when deployed in the wild. This degradation can be attributed to distribution shifts, including user, character, and dialogue compositional shifts. Existing methods like LLM-as-a-judge fall short in providing a fine-grained diagnosis of how these shifts affect RPM generalization, and thus there lack formal frameworks to characterize RPM generalization behaviors. To bridge these gaps, we introduce an information-theoretic metric, named reasoning-based effective mutual information difference (R-EMID), to measure RPM performance degradation in an interpretable way. We also derive an upper bound on R-EMID to predict the worst-case generalization performance of RPMs and theoretically reveal how various shifts contribute to the RPM performance degradation. Moreover, we propose a co-evolving reinforcement learning framework to adaptively model the connection among user, character, and dialogue context and thus enhance the estimation of dialogue response generation probability, which is critical for calculating R-EMID. Finally, we evaluate the generalization performance of various RPMs using R-EMID, finding that user shift poses the highest risk among all shifts and reinforcement learning is the most effective approach for enhancing RPM generalization.


翻译:角色扮演模型(RPMs)在现实世界应用中广泛使用,但在实际部署时性能表现不佳。这种性能下降可归因于分布偏移,包括用户、角色和对话组合的偏移。现有方法(如LLM-as-a-judge)无法对这些偏移如何影响RPM泛化性提供细粒度诊断,因此缺乏形式化框架来刻画RPM的泛化行为。为弥补这些不足,我们引入了一种基于信息论的度量,称为基于推理的有效互信息差(R-EMID),以可解释的方式衡量RPM的性能下降。我们还推导了R-EMID的上界,用以预测RPM在最坏情况下的泛化性能,并从理论上揭示了各类偏移如何导致RPM性能下降。此外,我们提出了一种协同演化的强化学习框架,以自适应地建模用户、角色和对话上下文之间的关联,从而提升对话响应生成概率的估计——这对于计算R-EMID至关重要。最后,我们使用R-EMID评估了多种RPM的泛化性能,发现用户偏移在所有偏移中构成的风险最高,而强化学习是提升RPM泛化性最有效的方法。

0
下载
关闭预览

相关内容

专知会员服务
30+阅读 · 2020年9月18日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员