Agentic reinforcement learning increasingly relies on experience-driven scaling, yet real-world environments remain non-adaptive, limited in coverage, and difficult to scale. World models offer a potential way to improve learning efficiency through simulated experience, but it remains unclear whether large language models can reliably serve this role and under what conditions they meaningfully benefit agents. We study these questions in text-based environments, which provide a controlled setting to reinterpret language modeling as next-state prediction under interaction. We introduce a three-level framework for evaluating LLM-based world models: (i) fidelity and consistency, (ii) scalability and robustness, and (iii) agent utility. Across five representative environments, we find that sufficiently trained world models maintain coherent latent state, scale predictably with data and model size, and improve agent performance via action verification, synthetic trajectory generation, and warm-starting reinforcement learning. Meanwhile, these gains depend critically on behavioral coverage and environment complexity, delineating clear boundry on when world modeling effectively supports agent learning.


翻译:智能体强化学习日益依赖于经验驱动的规模化,然而现实世界环境仍然缺乏适应性、覆盖范围有限且难以扩展。世界模型通过模拟经验为提高学习效率提供了潜在途径,但大型语言模型能否可靠地承担这一角色,以及在何种条件下能实质性地使智能体受益,这些问题尚未明确。我们在基于文本的环境中研究这些问题,该环境为将语言建模重新解释为交互下的下一状态预测提供了受控条件。我们提出了一个评估基于LLM的世界模型的三层框架:(i)保真度与一致性,(ii)可扩展性与鲁棒性,以及(iii)智能体效用。在五个代表性环境中,我们发现经过充分训练的世界模型能够保持连贯的潜在状态,随数据和模型规模可预测地扩展,并通过动作验证、合成轨迹生成和强化学习预热启动等方式提升智能体性能。同时,这些收益关键取决于行为覆盖度和环境复杂性,这明确了世界模型在何时能有效支持智能体学习的清晰边界。

0
下载
关闭预览

相关内容

【ICML2024】悲观遇上风险:风险敏感的离线强化学习
专知会员服务
24+阅读 · 2024年7月11日
【CVPR2024】MoReVQA:探索视频问答的模块化推理模型
专知会员服务
18+阅读 · 2024年4月10日
Auto-Keras与AutoML:入门指南
云栖社区
18+阅读 · 2019年2月9日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员