本论文聚焦于序贯决策与自适应实验设计中的基本挑战,提出了具有坚实理论基础的算法,并在样本复杂度与实际性能上均取得了显著提升。我们的研究贡献主要分为两个方面:用于学习的新型采样机制,以及面向因果推断的自适应方法。 第一个方面关注于提升学习效率的采样策略,适用于不同问题场景。我们提出了多臂老虎机中的迁移学习算法,该算法能够基于源任务与目标任务之间的观测相似度,自适应地调整知识迁移程度,并提供理论保证,使得算法能够在“完美迁移”与“从零学习”之间平滑过渡。我们还将偏好学习中的主动探索形式化为一个上下文对决老虎机问题,并基于再生核希尔伯特空间(RKHS)方法设计了具有多项式遗憾界的算法,其应用包括基于人类反馈的强化学习与直接偏好优化。

第二个方面着重于高效因果推断的自适应实验设计方法。我们提出了 截断二阶矩跟踪(Clipped Second Moment Tracking) 算法,该算法在有限样本遗憾上实现了指数级改进,将依赖从 O(√T) 降低至 O(log T),同时保持对问题参数的多项式依赖。我们还提出了 乐观策略跟踪(Optimistic Policy Tracking) 方法,该方法通过原则化的乐观设计有效利用渐近最优的 增广逆概率加权(AIPW)估计器,展示了如何将多臂老虎机理论中的方法成功迁移到因果推断领域。 在整个研究中,我们强调了渐近性能与有限样本性能之间的差距,并提出了既能提供理论保证又能带来实际改进的算法方法。本论文的贡献推动了序贯决策领域的最新进展,通过弥合理论与实践的鸿沟,在包括临床试验、在线实验以及人机交互等多个重要应用领域取得了突破。

成为VIP会员查看完整内容
1

相关内容

【ETHZ博士论文】金融网络与图学习的其他探索
专知会员服务
18+阅读 · 1月22日
【CMU博士论文】经典方法对现代机器学习的改进
专知会员服务
28+阅读 · 2024年8月16日
论文浅尝 | 采用多层注意力机制的事件检测
开放知识图谱
24+阅读 · 2019年8月24日
论文浅尝 | 基于深度强化学习的远程监督数据集的降噪
开放知识图谱
29+阅读 · 2019年1月17日
SFFAI报告 | 常建龙 :深度卷积网络中的卷积算子研究进展
人工智能前沿讲习班
11+阅读 · 2018年10月22日
论文浅尝 | 基于置信度的知识图谱表示学习框架
开放知识图谱
24+阅读 · 2018年2月27日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2012年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
476+阅读 · 2023年3月31日
Arxiv
78+阅读 · 2023年3月26日
Arxiv
173+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员