离策略论文 - 专知

会员服务 ·

离策略

Breaking Determinism: Stochastic Modeling for Reliable Off-Policy Evaluation in Ad Auctions

Arxiv

0+阅读 · 12月3日

On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning

Arxiv

0+阅读 · 12月11日

Environment Agnostic Goal-Conditioning, A Study of Reward-Free Autonomous Learning

Arxiv

0+阅读 · 11月6日

Generalized Policy Improvement Algorithms with Theoretically Supported Sample Reuse

Arxiv

0+阅读 · 2023年4月14日

Exploiting Symmetry and Heuristic Demonstrations in Off-policy Reinforcement Learning for Robotic Manipulation

Arxiv

1+阅读 · 2023年4月12日

Sector Bounds for Vertical Cable Force Error in Cable-Suspended Load Transportation System

Arxiv

0+阅读 · 2023年4月1日

A Policy-Guided Imitation Approach for Offline Reinforcement Learning

Arxiv

0+阅读 · 2023年4月5日

Off-Policy Action Anticipation in Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2023年4月4日

An Efficient Off-Policy Reinforcement Learning Algorithm for the Continuous-Time LQR Problem

Arxiv

0+阅读 · 2023年3月31日

Finetuning from Offline Reinforcement Learning: Challenges, Trade-offs and Practical Solutions

Arxiv

0+阅读 · 2023年3月30日

Concentration of Contractive Stochastic Approximation: Additive and Multiplicative Noise

Arxiv

0+阅读 · 2023年3月28日

参考链接

微信扫码咨询专知VIP会员