【普林斯顿博士论文】理解数据在模型决策中的作用

随着神经网络在诸如刑事司法、医疗等高风险领域的应用日益增多，了解这些模型做出决策的原因变得越来越重要。例如，开发工具来分析模型是否在其未来的决策中延续了它们在训练数据中发现的有害的人口不平等至关重要。然而，神经网络通常需要大量训练数据集，具有“黑箱”决策特性，并且重新训练成本高昂，这增加了这个问题的难度。本文考虑三个问题。问题一）输入的各个元素与模型决策之间的关系是什么？问题二）单个训练点与模型决策之间的关系是什么。最后问题三）在多大程度上存在（有效的）近似方法，能够让实践者预测模型性能在不同训练数据或不同训练协议下的变化。

第一部分针对掩蔽显著性方法回答问题一。这些方法隐含地假设图像中的灰色像素是“无信息的”。我们通过实验发现，这一假设可能并非总是正确的，并定义了“健全性”，它衡量了显著性图的一种理想属性。第二部分在影响函数的背景下讨论问题二和问题三，这些函数旨在近似移除一个训练点对模型决策的影响。我们使用谐波分析来检查一种特定的影响方法，即数据模型，并发现数据模型的系数与目标函数的傅里叶系数之间存在关系。最后，第三部分在测试数据的背景下讨论问题三。首先，我们评估是否需要保留外部测试数据来近似元学习的外部循环，或者回收训练数据是否构成了一个足够的近似。我们发现保留的测试数据很重要，因为它学习到的表示是低秩的。然后，受到PGDL竞赛的启发，我们调查了尽管众所周知的限制，生成对抗网络（GAN）生成的数据是否可以用来近似泛化性能，当没有测试或验证集可用时，并发现它们可以做到这一点。

成为VIP会员查看完整内容

相关内容

博士论文

关注 96

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【伯克利博士论文】理解、构建和评估上下文感知条件自然语言生成模型

专知会员服务

23+阅读 · 4月20日

大模型如何利用数据？北大华为等最新《大型语言模型的数据管理》综述

专知会员服务

90+阅读 · 2023年12月6日

【斯坦福博士论文】合作博弈论在可解释机器学习中的应用

专知会员服务

35+阅读 · 2023年9月19日

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

专知会员服务

78+阅读 · 2022年10月30日