赌博机论文 - 专知

会员服务 ·

赌博机

Online Optimization Algorithms in Repeated Price Competition: Equilibrium Learning and Algorithmic Collusion

Arxiv

0+阅读 · 11月24日

Conformal Bandits: Bringing statistical validity and reward efficiency to the small-gap regime

Arxiv

0+阅读 · 12月10日

Online Bandits with (Biased) Offline Data: Adaptive Learning under Distribution Mismatch

Arxiv

0+阅读 · 12月18日

Bandit-Based Rate Adaptation for a Single-Server Queue

Arxiv

0+阅读 · 12月12日

Optimal Analysis for Bandit Learning in Matching Markets with Serial Dictatorship

Arxiv

0+阅读 · 12月7日

Balancing Performance and Costs in Best Arm Identification

Arxiv

0+阅读 · 12月5日

Thompson Sampling for Multi-Objective Linear Contextual Bandit

Arxiv

0+阅读 · 11月30日

Clutch Control: An Attention-based Combinatorial Bandit for Efficient Mutation in JavaScript Engine Fuzzing

Arxiv

0+阅读 · 11月14日

A Multi-Agent Conversational Bandit Approach to Online Evaluation and Selection of User-Aligned LLM Responses

Arxiv

0+阅读 · 11月11日

On Instability of Minimax Optimal Optimism-Based Bandit Algorithms

Arxiv

0+阅读 · 11月24日

Decentralized Projection-free Online Upper-Linearizable Optimization with Applications to DR-Submodular Optimization

Arxiv

0+阅读 · 12月1日

Cascading Bandits With Feedback

Arxiv

0+阅读 · 11月14日

Generalized Kernelized Bandits: A Novel Self-Normalized Bernstein-Like Dimension-Free Inequality and Regret Bounds

Arxiv

0+阅读 · 12月11日

ReFuzz: Reusing Tests for Processor Fuzzing with Contextual Bandits

Arxiv

0+阅读 · 12月4日

Representative Action Selection for Large Action Space: From Bandits to MDPs

Arxiv

0+阅读 · 11月27日

参考链接

微信扫码咨询专知VIP会员