衰减系数论文 - 专知

会员服务 ·

衰减系数

Central Limit Theorems for Asynchronous Averaged Q-Learning

Arxiv

0+阅读 · 10月14日

Remember, but also, Forget: Bridging Myopic and Perfect Recall Fairness with Past-Discounting

Remember, but also, Forget: Bridging Myopic and Perfect Recall Fairness with Past-Discounting

Arxiv

0+阅读 · 4月1日

Discounted-Sum Automata with Multiple Discount Factors

Arxiv

0+阅读 · 3月28日

Scheduling With Time Discounts

Arxiv

0+阅读 · 2月19日

Discounted-Sum Automata with Multiple Discount Factors

Arxiv

0+阅读 · 1月2日

Discounted-Sum Automata with Multiple Discount Factors

Arxiv

0+阅读 · 1月11日

Accelerating Proximal Policy Optimization Learning Using Task Prediction for Solving Environments with Delayed Rewards

Arxiv

0+阅读 · 2024年12月3日

Reward Centering

Arxiv

0+阅读 · 2024年10月30日

Concurrent Stochastic Games with Stateful-discounted and Parity Objectives: Complexity and Algorithms

Arxiv

0+阅读 · 2024年10月8日

Inverse Reinforcement Learning with Multiple Planning Horizons

Arxiv

0+阅读 · 2024年9月26日

On Mechanism Underlying Algorithmic Collusion

Arxiv

0+阅读 · 2024年9月2日

PID Accelerated Temporal Difference Algorithms

Arxiv

0+阅读 · 2024年9月3日

The Sample-Communication Complexity Trade-off in Federated Q-Learning

Arxiv

0+阅读 · 2024年8月30日

Posterior Sampling for Continuing Environments

Arxiv

0+阅读 · 2024年8月11日

Convergence Guarantee of Dynamic Programming for LTL Surrogate Reward

Arxiv

0+阅读 · 2024年8月10日

参考链接

微信扫码咨询专知VIP会员