Recent advances at the intersection of reinforcement learning (RL) and visual intelligence have enabled agents that not only perceive complex visual scenes but also reason, generate, and act within them. This survey offers a critical and up-to-date synthesis of the field. We first formalize visual RL problems and trace the evolution of policy-optimization strategies from RLHF to verifiable reward paradigms, and from Proximal Policy Optimization to Group Relative Policy Optimization. We then organize more than 200 representative works into four thematic pillars: multi-modal large language models, visual generation, unified model frameworks, and vision-language-action models. For each pillar we examine algorithmic design, reward engineering, benchmark progress, and we distill trends such as curriculum-driven training, preference-aligned diffusion, and unified reward modeling. Finally, we review evaluation protocols spanning set-level fidelity, sample-level preference, and state-level stability, and we identify open challenges that include sample efficiency, generalization, and safe deployment. Our goal is to provide researchers and practitioners with a coherent map of the rapidly expanding landscape of visual RL and to highlight promising directions for future inquiry. Resources are available at: https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning.


翻译:近年来,强化学习(RL)与视觉智能交叉领域的进展使得智能体不仅能够感知复杂的视觉场景,还能在其中进行推理、生成与行动。本综述对该领域进行了批判性的、最新的综合梳理。我们首先形式化了视觉RL问题,并追溯了从RLHF到可验证奖励范式、从近端策略优化到组相对策略优化的策略优化策略演变历程。随后,我们将200多项代表性研究工作归纳为四个主题支柱:多模态大语言模型、视觉生成、统一模型框架以及视觉-语言-行动模型。针对每个支柱,我们深入探讨了算法设计、奖励工程、基准测试进展,并提炼出课程驱动训练、偏好对齐扩散、统一奖励建模等发展趋势。最后,我们回顾了涵盖集合级保真度、样本级偏好和状态级稳定性的评估协议,并指出了包括样本效率、泛化能力和安全部署在内的开放性挑战。我们的目标是为研究者和从业者提供一幅关于快速扩展的视觉RL领域的连贯图景,并指明未来探索的潜在方向。相关资源可在以下网址获取:https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning。

0
下载
关闭预览

相关内容

144页ppt《扩散模型》,Google DeepMind Sander Dieleman
专知会员服务
48+阅读 · 11月21日
面向视觉的强化学习综述
专知会员服务
20+阅读 · 8月12日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
Seq2seq强化学习实战 (Pytorch, Tensorflow, Theano)
专知
15+阅读 · 2018年1月16日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月21日
VIP会员
相关基金
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员