强化学习论文 - 专知

会员服务 ·

强化学习

强化学习（RL）是机器学习的一个领域，与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外，强化学习是三种基本的机器学习范式之一。强化学习与监督学习的不同之处在于，不需要呈现带标签的输入/输出对，也不需要显式纠正次优动作。相反，重点是在探索（未知领域）和利用（当前知识）之间找到平衡。该环境通常以马尔可夫决策过程（MDP）的形式陈述，因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于，后者不假设MDP的确切数学模型，并且针对无法采用精确方法的大型MDP。

TemplateRL: Structured Template-Guided Reinforcement Learning for LLM Reasoning

Arxiv

0+阅读 · 10月13日

How Reinforcement Learning After Next-Token Prediction Facilitates Learning

Arxiv

0+阅读 · 10月13日

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

Arxiv

0+阅读 · 10月13日

OrbitZoo: Multi-Agent Reinforcement Learning Environment for Orbital Dynamics

Arxiv

0+阅读 · 10月11日

J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning

Arxiv

0+阅读 · 10月13日

Context-Aware Model-Based Reinforcement Learning for Autonomous Racing

Arxiv

0+阅读 · 10月13日

Constraint-Aware Reinforcement Learning via Adaptive Action Scaling

Arxiv

0+阅读 · 10月13日

Emergence of hybrid computational dynamics through reinforcement learning

Arxiv

0+阅读 · 10月13日

Stronger Together: On-Policy Reinforcement Learning for Collaborative LLMs

Arxiv

0+阅读 · 10月13日

Multi-Functional RIS-Enabled in SAGIN for IoT: A Hybrid Deep Reinforcement Learning Approach with Compressed Twin-Models

Arxiv

0+阅读 · 10月13日

Offline Reinforcement Learning with Generative Trajectory Policies

Arxiv

0+阅读 · 10月13日

Demystifying Reinforcement Learning in Agentic Reasoning

Demystifying Reinforcement Learning in Agentic Reasoning

Arxiv

0+阅读 · 10月13日

Fine-tuning Behavioral Cloning Policies with Preference-Based Reinforcement Learning

Arxiv

0+阅读 · 10月13日

Game-Theoretic Risk-Shaped Reinforcement Learning for Safe Autonomous Driving

Arxiv

0+阅读 · 10月13日

PAC-Bayesian Reinforcement Learning Trains Generalizable Policies

Arxiv

0+阅读 · 10月12日

参考链接

父主题

子主题

马尔可夫决策过程

UNREAL(DRL算法)

深度强化学习

人工智能游戏

图强化学习

微信扫码咨询专知VIP会员