【牛津大学博士论文】组合优化和接触追踪的模仿学习，229页pdf

在近年来，模仿学习（IL）领域取得了显著进展，研究人员已将这种机器学习技术应用于机器人学、自动驾驶汽车、医疗保健和游戏玩法等多个领域。每个领域都通过开发和应用新方法解决特定于其领域的独特问题，为该领域的进步做出了贡献。在本论文中，我们重点关注在两个具有独特挑战的领域中的IL应用。第一个应用涉及学习模仿混合整数线性规划（MILP）求解器的高精度启发式算法，尽管准确，但由于计算效率低下而不实用。第二个应用涉及开发一个IL框架，通过使用新开发的主动接触追踪（PCT）框架，通过智能手机应用准确预测个体的传染性，克服了传统接触追踪方法的限制。

我们基于可管理环境（例如，模拟器）的动态设计IL框架，目的是将学习的模型转移到更大的未见环境。这些框架的开发需要考虑和解决几个挑战。这些挑战包括纳入领域特定的归纳偏见，确保模型对分布偏移的鲁棒性，以及设计适合部署的轻量级模型。通过解决这些挑战，我们希望不仅为IL的进步做出贡献，还为应用它的领域带来新的和改进的解决方案。

为了模仿混合整数线性规划（MILP）求解器的专家启发式，我们识别并解决了现有模仿学习（IL）框架的两个主要缺点。首先，我们提出的图神经网络（GNNs）在计算上开销巨大但非常精确，而它们的运行性能在缺少GPU的情况下会降低。这种情况可能出现，因为MILP求解器只能在CPU上运行。为了解决这个问题，我们提出了新的架构，这些架构在GNNs的表现力和多线性感知器的低成本计算之间进行了权衡，同时提出了训练协议，使模型能够抵抗分布的变化。使用这些技术训练的模型实现了高达26％的运行时间改进。第二个问题是无法捕捉观测之间的依赖性以训练GNNs。我们的研究揭示了专家启发式中经常出现的“回顾”现象，即在子节点处的最佳决策往往是父节点的次佳决策。为了将这一现象纳入损失函数中，我们提出了一种新的损失函数，更准确地模仿了这种启发式，使模型的运行时间提高了高达15％。

最终，在 COVID-19 大流行期间，世界各国面临一个难题，即是要开放经济还是优先保护生命。作为回应，数字接触追踪应用程序应运而生。然而，为了避免侵犯用户隐私，大多数应用依赖于一个具有有限智能的隔离与否界面，无法精确了解通知接收者的风险级别。这种方法导致了警报疲劳，使用户更不可能遵循推荐。为了解决这些问题，同时保持用户隐私和复杂的风险评估模型，我们提出了主动接触追踪（PCT）框架。我们的框架重新利用用户通信来传递关于估计风险的信息，即“风险消息”。这些消息，连同个人信息（例如，医疗历史或症状），用于风险估计模型，以输出发送给其他用户的风险消息。根据估计的风险，向用户显示分级通知（例如，小心行事或避免不必要的行为）。使用基于代理的模型（ABM）和一个简单的可解释的基于规则的模型，我们证明了基于规则的 PCT 在经济-公共健康权衡方面优于现有应用。

在后续工作中，我们转向深度学习来设计风险估计模型。虽然强化学习本来是理想的选择，但计算成本高昂的ABM（代理基模型）排除了其使用。因此，我们采用了模仿学习框架来训练深度学习模型，具体来说，我们提出了几种集合变换器的变体。我们还使用了领域随机化，通过使用ABM的几种随机实例收集观测数据，以确保模型对嵌入ABM中的假设保持鲁棒性。此外，我们使用迭代训练以确保模型对自我引起的分布转移保持鲁棒性。总体来说，我们展示了基于深度学习的PCT（预测性控制技术）优于基于规则的PCT。为了完成我们的提议，我们建议一个迭代过程，用于应用部署和ABM校准，以弥合从ABM到实际部署的差距。

成为VIP会员查看完整内容

相关内容

牛津大学 (University of Oxford)

关注 31

牛津大学是一所英国研究型大学，也是罗素大学集团、英国“G5超级精英大学”，欧洲顶尖大学科英布拉集团、欧洲研究型大学联盟的核心成员。牛津大学培养了众多社会名人，包括了27位英国首相、60位诺贝尔奖得主以及数十位世界各国的皇室成员和政治领袖。2016年9月，泰晤士高等教育发布了2016-2017年度世界大学排名，其中牛津大学排名第一。

【牛津大学博士论文】多模态深度学习在计算机视觉及其应用，138页pdf

专知会员服务

64+阅读 · 2023年11月7日

【芝加哥博士论文】深度生成模型:设计、改进和应用，149页pdf

专知会员服务

48+阅读 · 2023年9月11日

【牛津大学博士论文】高效的神经网络验证与训练，244页pdf

专知会员服务

36+阅读 · 2023年6月11日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日