【CMU博士论文】交互式学习的进展：替代性反馈机制与自适应因果推理 - 专知VIP

会员服务 ·

1

交互式学习 · 因果推理 · 人类反馈强化学习 (RLHF) ·

【CMU博士论文】交互式学习的进展：替代性反馈机制与自适应因果推理

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

本论文聚焦于序贯决策与自适应实验设计中的基本挑战，提出了具有坚实理论基础的算法，并在样本复杂度与实际性能上均取得了显著提升。我们的研究贡献主要分为两个方面：用于学习的新型采样机制，以及面向因果推断的自适应方法。第一个方面关注于提升学习效率的采样策略，适用于不同问题场景。我们提出了多臂老虎机中的迁移学习算法，该算法能够基于源任务与目标任务之间的观测相似度，自适应地调整知识迁移程度，并提供理论保证，使得算法能够在“完美迁移”与“从零学习”之间平滑过渡。我们还将偏好学习中的主动探索形式化为一个上下文对决老虎机问题，并基于再生核希尔伯特空间（RKHS）方法设计了具有多项式遗憾界的算法，其应用包括基于人类反馈的强化学习与直接偏好优化。

第二个方面着重于高效因果推断的自适应实验设计方法。我们提出了 截断二阶矩跟踪（Clipped Second Moment Tracking） 算法，该算法在有限样本遗憾上实现了指数级改进，将依赖从 O(√T) 降低至 O(log T)，同时保持对问题参数的多项式依赖。我们还提出了 乐观策略跟踪（Optimistic Policy Tracking） 方法，该方法通过原则化的乐观设计有效利用渐近最优的 增广逆概率加权（AIPW）估计器，展示了如何将多臂老虎机理论中的方法成功迁移到因果推断领域。在整个研究中，我们强调了渐近性能与有限样本性能之间的差距，并提出了既能提供理论保证又能带来实际改进的算法方法。本论文的贡献推动了序贯决策领域的最新进展，通过弥合理论与实践的鸿沟，在包括临床试验、在线实验以及人机交互等多个重要应用领域取得了突破。

成为VIP会员查看完整内容

1

相关内容

交互式学习

交互式学习

【斯坦福博士论文】计算受限的持续学习：基础与算法

【斯坦福博士论文】计算受限的持续学习：基础与算法

专知会员服务

19+阅读 · 6月23日

【伯克利博士论文】机器学习中的安全性、鲁棒性与可解释性

【伯克利博士论文】机器学习中的安全性、鲁棒性与可解释性

专知会员服务

17+阅读 · 5月31日

【EPFL博士论文】决策系统中的机器学习：公平性、鲁棒性与数据偏差

【EPFL博士论文】决策系统中的机器学习：公平性、鲁棒性与数据偏差

专知会员服务

25+阅读 · 5月19日

【NTU博士论文】当深度学习遇上归纳逻辑程序设计

【NTU博士论文】当深度学习遇上归纳逻辑程序设计

专知会员服务

24+阅读 · 5月6日

【博士论文】单智能体与多智能体深度强化学习中的高效探索

【博士论文】单智能体与多智能体深度强化学习中的高效探索

专知会员服务

40+阅读 · 2月6日

【ETHZ博士论文】金融网络与图学习的其他探索

【ETHZ博士论文】金融网络与图学习的其他探索

专知会员服务

18+阅读 · 1月22日

【CMU博士论文】适应结构与利用结构进行适应：探索现代深度学习成功的原因

【CMU博士论文】适应结构与利用结构进行适应：探索现代深度学习成功的原因

专知会员服务

26+阅读 · 2024年12月2日

【牛津大学博士论文】生成建模：解决模型错误指定和差分隐私中的开放问题

【牛津大学博士论文】生成建模：解决模型错误指定和差分隐私中的开放问题

专知会员服务

24+阅读 · 2024年8月17日

【CMU博士论文】经典方法对现代机器学习的改进

【CMU博士论文】经典方法对现代机器学习的改进

专知会员服务

28+阅读 · 2024年8月16日

【牛津大学博士论文】深度主动学习与数据子集选择的进展：信息论直觉下的统一原则

【牛津大学博士论文】深度主动学习与数据子集选择的进展：信息论直觉下的统一原则

专知会员服务

43+阅读 · 2024年3月20日

【AI与军事】机器学习的军事应用，一种文献计量视角

【AI与军事】机器学习的军事应用，一种文献计量视角

专知

52+阅读 · 2022年4月25日

论文推荐|[CVPR 2020]增广学习：面向文本行识别的网络优化协同数据增广方法

论文推荐|[CVPR 2020]增广学习：面向文本行识别的网络优化协同数据增广方法

专知

22+阅读 · 2020年4月9日

论文浅尝 | 如何利用外部知识提高预训练模型在阅读理解任务中的性能

论文浅尝 | 如何利用外部知识提高预训练模型在阅读理解任务中的性能

开放知识图谱

10+阅读 · 2019年10月29日

论文浅尝 | 采用多层注意力机制的事件检测

论文浅尝 | 采用多层注意力机制的事件检测

开放知识图谱

24+阅读 · 2019年8月24日

论文浅尝 | 知识图谱中的链接预测：一种基于层次约束的方法

论文浅尝 | 知识图谱中的链接预测：一种基于层次约束的方法

开放知识图谱

22+阅读 · 2019年7月24日

论文浅尝 | 知识图谱推理中表示学习和规则挖掘的迭代学习方法

论文浅尝 | 知识图谱推理中表示学习和规则挖掘的迭代学习方法

开放知识图谱

41+阅读 · 2019年7月2日

论文浅尝 | 基于深度强化学习的远程监督数据集的降噪

论文浅尝 | 基于深度强化学习的远程监督数据集的降噪

开放知识图谱

29+阅读 · 2019年1月17日

SFFAI报告 | 常建龙：深度卷积网络中的卷积算子研究进展

SFFAI报告 | 常建龙：深度卷积网络中的卷积算子研究进展

人工智能前沿讲习班

11+阅读 · 2018年10月22日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

论文浅尝 | 基于置信度的知识图谱表示学习框架

论文浅尝 | 基于置信度的知识图谱表示学习框架

开放知识图谱

24+阅读 · 2018年2月27日

基于适应度值的信息反馈型群智能算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

13+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

大数据环境下协同商务智能构建中的关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向多源大数据的鲁棒聚类模型与算法研究

国家自然科学基金

6+阅读 · 2015年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

机制转化下的最优停时问题研究---以金融中投资决策分析为例

国家自然科学基金

1+阅读 · 2014年12月31日

非凸非光滑优化的神经网络设计及其关键问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

大数据环境下融合多源信息的推荐系统关键问题研究

国家自然科学基金

6+阅读 · 2014年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

16+阅读 · 2012年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

476+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

147+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

173+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

VIP会员

相关主题

交互式学习

人类反馈强化学习 (RLHF)

相关VIP内容

【斯坦福博士论文】计算受限的持续学习：基础与算法

【斯坦福博士论文】计算受限的持续学习：基础与算法

专知会员服务

19+阅读 · 6月23日

【伯克利博士论文】机器学习中的安全性、鲁棒性与可解释性

【伯克利博士论文】机器学习中的安全性、鲁棒性与可解释性

专知会员服务

17+阅读 · 5月31日

【EPFL博士论文】决策系统中的机器学习：公平性、鲁棒性与数据偏差

【EPFL博士论文】决策系统中的机器学习：公平性、鲁棒性与数据偏差

专知会员服务

25+阅读 · 5月19日

【NTU博士论文】当深度学习遇上归纳逻辑程序设计

【NTU博士论文】当深度学习遇上归纳逻辑程序设计

专知会员服务

24+阅读 · 5月6日

【博士论文】单智能体与多智能体深度强化学习中的高效探索

【博士论文】单智能体与多智能体深度强化学习中的高效探索

专知会员服务

40+阅读 · 2月6日

【ETHZ博士论文】金融网络与图学习的其他探索

【ETHZ博士论文】金融网络与图学习的其他探索

专知会员服务

18+阅读 · 1月22日

【CMU博士论文】适应结构与利用结构进行适应：探索现代深度学习成功的原因

【CMU博士论文】适应结构与利用结构进行适应：探索现代深度学习成功的原因

专知会员服务

26+阅读 · 2024年12月2日

【牛津大学博士论文】生成建模：解决模型错误指定和差分隐私中的开放问题

【牛津大学博士论文】生成建模：解决模型错误指定和差分隐私中的开放问题

专知会员服务

24+阅读 · 2024年8月17日

【CMU博士论文】经典方法对现代机器学习的改进

【CMU博士论文】经典方法对现代机器学习的改进

专知会员服务

28+阅读 · 2024年8月16日

【牛津大学博士论文】深度主动学习与数据子集选择的进展：信息论直觉下的统一原则

【牛津大学博士论文】深度主动学习与数据子集选择的进展：信息论直觉下的统一原则

专知会员服务

43+阅读 · 2024年3月20日

热门VIP内容

开通专知VIP会员享更多权益服务

【新书】面向企业的图学习扩展：生产级图学习与推理，485页pdf

AI智能体编程：技术、挑战与机遇综述

【国家标准】数据安全技术数据安全风险评估方法

【CMU博士论文】交互式学习的进展：替代性反馈机制与自适应因果推理

相关资讯

【AI与军事】机器学习的军事应用，一种文献计量视角

【AI与军事】机器学习的军事应用，一种文献计量视角

专知

52+阅读 · 2022年4月25日

论文推荐|[CVPR 2020]增广学习：面向文本行识别的网络优化协同数据增广方法

论文推荐|[CVPR 2020]增广学习：面向文本行识别的网络优化协同数据增广方法

专知

22+阅读 · 2020年4月9日

论文浅尝 | 如何利用外部知识提高预训练模型在阅读理解任务中的性能

论文浅尝 | 如何利用外部知识提高预训练模型在阅读理解任务中的性能

开放知识图谱

10+阅读 · 2019年10月29日

论文浅尝 | 采用多层注意力机制的事件检测

论文浅尝 | 采用多层注意力机制的事件检测

开放知识图谱

24+阅读 · 2019年8月24日

论文浅尝 | 知识图谱中的链接预测：一种基于层次约束的方法

论文浅尝 | 知识图谱中的链接预测：一种基于层次约束的方法

开放知识图谱

22+阅读 · 2019年7月24日

论文浅尝 | 知识图谱推理中表示学习和规则挖掘的迭代学习方法

论文浅尝 | 知识图谱推理中表示学习和规则挖掘的迭代学习方法

开放知识图谱

41+阅读 · 2019年7月2日

论文浅尝 | 基于深度强化学习的远程监督数据集的降噪

论文浅尝 | 基于深度强化学习的远程监督数据集的降噪

开放知识图谱

29+阅读 · 2019年1月17日

SFFAI报告 | 常建龙：深度卷积网络中的卷积算子研究进展

SFFAI报告 | 常建龙：深度卷积网络中的卷积算子研究进展

人工智能前沿讲习班

11+阅读 · 2018年10月22日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

论文浅尝 | 基于置信度的知识图谱表示学习框架

论文浅尝 | 基于置信度的知识图谱表示学习框架

开放知识图谱

24+阅读 · 2018年2月27日

相关基金

基于适应度值的信息反馈型群智能算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

13+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

大数据环境下协同商务智能构建中的关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向多源大数据的鲁棒聚类模型与算法研究

国家自然科学基金

6+阅读 · 2015年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

机制转化下的最优停时问题研究---以金融中投资决策分析为例

国家自然科学基金

1+阅读 · 2014年12月31日

非凸非光滑优化的神经网络设计及其关键问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

大数据环境下融合多源信息的推荐系统关键问题研究

国家自然科学基金

6+阅读 · 2014年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

16+阅读 · 2012年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

476+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

147+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

173+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员