本论文聚焦于序贯决策与自适应实验设计中的基本挑战,提出了具有坚实理论基础的算法,并在样本复杂度与实际性能上均取得了显著提升。我们的研究贡献主要分为两个方面:用于学习的新型采样机制,以及面向因果推断的自适应方法。 第一个方面关注于提升学习效率的采样策略,适用于不同问题场景。我们提出了多臂老虎机中的迁移学习算法,该算法能够基于源任务与目标任务之间的观测相似度,自适应地调整知识迁移程度,并提供理论保证,使得算法能够在“完美迁移”与“从零学习”之间平滑过渡。我们还将偏好学习中的主动探索形式化为一个上下文对决老虎机问题,并基于再生核希尔伯特空间(RKHS)方法设计了具有多项式遗憾界的算法,其应用包括基于人类反馈的强化学习与直接偏好优化。
第二个方面着重于高效因果推断的自适应实验设计方法。我们提出了 截断二阶矩跟踪(Clipped Second Moment Tracking) 算法,该算法在有限样本遗憾上实现了指数级改进,将依赖从 O(√T) 降低至 O(log T),同时保持对问题参数的多项式依赖。我们还提出了 乐观策略跟踪(Optimistic Policy Tracking) 方法,该方法通过原则化的乐观设计有效利用渐近最优的 增广逆概率加权(AIPW)估计器,展示了如何将多臂老虎机理论中的方法成功迁移到因果推断领域。 在整个研究中,我们强调了渐近性能与有限样本性能之间的差距,并提出了既能提供理论保证又能带来实际改进的算法方法。本论文的贡献推动了序贯决策领域的最新进展,通过弥合理论与实践的鸿沟,在包括临床试验、在线实验以及人机交互等多个重要应用领域取得了突破。