逆强化学习(IRL)的目标是从一个策略π推断出奖励函数R。这个问题很难解决,原因有几个。首先,通常有多个奖励函数与给定策略兼容,这意味着奖励函数仅部分可识别,并且IRL本身包含一定程度的模糊性。其次,为了从π推断出R,IRL算法必须有一个行为模型,描述策略π与奖励函数R之间的关系。然而,人类偏好与人类行为之间的真实关系非常复杂,实际上几乎不可能通过简单的模型完全捕捉。这意味着在实践中,行为模型会出现设定错误,从而引发担忧——如果将其应用于真实世界数据,可能会导致不可靠的推断。在本文中,我们对IRL中的部分可识别性和模型设定错误进行了全面的数学分析。具体而言,我们全面刻画并量化了在当前IRL文献中最常见的所有行为模型下奖励函数的模糊性。我们还提供了必要和充分条件,精确描述了观察到的示范策略与每种标准行为模型可能的差异,直到该模型导致关于奖励函数R的错误推断。此外,我们引入了一个统一的框架,用于推理IRL中的部分可识别性和模型设定错误,并提供了几种形式化工具,能够轻松推导新IRL模型的部分可识别性和模型设定错误的鲁棒性,或分析其他类型的奖励学习算法。

成为VIP会员查看完整内容
0

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【CMU博士论文】强化学习中策略评估的统计推断
专知会员服务
26+阅读 · 2024年9月15日
【AAAI2023】类增量学习的在线超参数优化
专知会员服务
20+阅读 · 2023年1月18日
【CVPR2022】语言引导与基于视觉的深度度量学习的集成
专知会员服务
16+阅读 · 2022年3月17日
【斯坦福大学-论文】实体上下文关系路径的知识图谱补全
数据分析师应该知道的16种回归技术:岭回归
数萃大数据
15+阅读 · 2018年8月11日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
170+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
464+阅读 · 2023年3月31日
Arxiv
18+阅读 · 2021年3月16日
Arxiv
10+阅读 · 2020年11月26日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员