【普林斯顿博士论文】智能体和机制的学习算法，201页pdf

具有从过去的经验中学习并根据环境或背景调整行为以实现特定目标的能力，是真正智能实体的特征。为了实现这一目标，开发高效、稳健和可靠的学习算法是研究的活跃领域，也是实现人工通用智能的重要步骤。在本论文中，我们研究了在两种不同背景下进行最优决策的学习算法，第一部分是强化学习，第二部分是拍卖设计。

强化学习（RL）是机器学习的一个领域，关注的是智能体应该如何在环境中行动以最大化其随时间累积的奖励。在第二章中，受统计物理学的启发，我们开发了一种新颖的强化学习方法，这种方法不仅学习具有增强期望属性的最优策略，而且为最大熵强化学习带来了新的见解。在第三章中，我们使用贝叶斯观点来解决强化学习中的泛化问题。我们展示了环境动态的不完美知识实际上将一个完全观察到的马尔可夫决策过程（MDP）转变为一个部分观察到的马尔可夫决策过程（POMDP），我们称之为认知POMDP。根据这个观察，我们开发了一种新的策略学习算法LEEP，它具有改进的泛化属性。

拍卖是组织购买和销售产品与服务的过程，具有很大的实际意义。设计一个激励兼容、个体理性的拍卖以最大化收入是一个具有挑战性且难以解决的问题。最近，有人提出了一种基于深度学习的方法，从数据中学习最优拍卖。尽管取得了成功，但这种方法存在一些局限性，包括样本效率低、难以泛化到新的拍卖以及训练困难。在第四章中，我们构建了一种保持对称性的神经网络结构，称为EquivariantNet，适用于匿名拍卖。EquivariantNet不仅样本效率更高，而且能够学习到在其他设置中泛化性能良好的拍卖规则。在第五章中，我们将拍卖学习问题提出为一个双人博弈的新颖表述。由此产生的学习算法ALGNet更容易训练，更可靠，更适合非平稳设置。