上下文赌博机/上下文老虎机论文 - 专知

会员服务 ·

上下文赌博机/上下文老虎机

上下文赌博机/上下文老虎机

Indexed Minimum Empirical Divergence-Based Algorithms for Linear Bandits

Arxiv

0+阅读 · 5月24日

Logarithmic Smoothing for Pessimistic Off-Policy Evaluation, Selection and Learning

Arxiv

0+阅读 · 5月23日

To Ask or Not To Ask: Human-in-the-loop Contextual Bandits with Applications in Robot-Assisted Feeding

Arxiv

0+阅读 · 5月11日

Simulation-Based Benchmarking of Reinforcement Learning Agents for Personalized Retail Promotions

Arxiv

0+阅读 · 5月16日

Nearly Minimax Optimal Regret for Multinomial Logistic Bandit

Arxiv

0+阅读 · 5月16日

Optimal Baseline Corrections for Off-Policy Contextual Bandits

Arxiv

0+阅读 · 5月9日

Data-driven Error Estimation: Upper Bounding Multiple Errors with No Technical Debt

Arxiv

0+阅读 · 5月7日

Learning to Relax: Setting Solver Parameters Across a Sequence of Linear System Instances

Arxiv

0+阅读 · 5月2日

Fairness Incentives in Response to Unfair Dynamic Pricing

Arxiv

0+阅读 · 4月22日

Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits

Arxiv

0+阅读 · 4月8日

On the Optimal Regret of Locally Private Linear Contextual Bandit

Arxiv

0+阅读 · 4月15日

LC-Tsallis-INF: Generalized Best-of-Both-Worlds Linear Contextual Bandits

Arxiv

0+阅读 · 4月3日

Optimal Regret with Limited Adaptivity for Generalized Linear Contextual Bandits

Arxiv

0+阅读 · 4月10日

Optimal Regret with Limited Adaptivity for Generalized Linear Contextual Bandits

Arxiv

0+阅读 · 4月11日

Doubly-Robust Off-Policy Evaluation with Estimated Logging Policy

Arxiv

0+阅读 · 4月2日

参考链接

微信扫码咨询专知VIP会员