【CMU博士论文】原则性机器学习用于对社会有重大影响的决策制定, 136页pdf

机器学习算法广泛应用于具有社会高风险的决策环境中，如儿童福利、刑事司法、医疗保健、招聘和消费者贷款。近期的历史已经揭示出许多这些算法证明不可靠或不公平的例子。本论文提出了一种遵循原则的方法，用于在社会高风险环境中使用机器学习，该方法由三大支柱引导：有效性、公平性和监管。我们借鉴了包括统计学、机器学习和社会科学在内的各个领域的方法，开发出处理数据挑战和复杂偏见的新方法，这些偏见嵌入在社会技术系统中。我们通过开发考虑到选择偏差、混淆和bandit反馈的算法风险评估方法，解决了挑战算法决策支持系统有效性的数据问题。我们对整个系统中使用算法进行决策的偏见进行了因果审计。在整个过程中，我们提出了使用双重稳健技术进行偏差修正的新方法。我们使用来自阿利根尼县人力服务部、澳大利亚联邦银行和斯坦福公开警察项目的数据，展示了在儿童福利、消费者信贷和刑事司法环境中的实证结果。机器学习越来越多地被用于做出高风险决策，例如儿童福利、刑事司法、消费者贷款、教育和医疗保健（Saxena等人，2020；Vaithianathan等人，2017；Raghavan等人，2020a；Chouldechova，2017；Cattell等人，2021）。这些决策影响未来的健康和经济机会，总的来说，它们塑造了我们的社会结构。通常，这类任务可用的数据丰富，但往往噪音大，存在偏见或不完整。如果不能妥善处理这些数据问题，可能会对弱势和历史上边缘化的群体造成不成比例的伤害（Barocas和Selbst，2016b；Obermeyer等人，2019a；Coston等人，2020b, 2021a）。在这篇论文中，我们开发了统计方法和一个审议框架，用来识别并解决挑战机器学习在重要环境中负责任使用的数据问题。当机器学习被用于高风险决策时，一个常见的方法是应用标准的监督学习范式。在这种方法下，人们识别出一个感兴趣的结果（通常是实际感兴趣的结果的代理），然后使用其他变量作为预测因子，构建一个对这个结果的预测模型。当数据集并不代表机器学习工具将要部署的目标人群，且预测结果与决策任务相关的结果可能大相径庭时，这种标准方法通常并不适合，这在现实世界的应用中是常见的（Mullainathan和Obermeyer，2021；Coston等人，2020b；Fogliato等人，2021；Wang等人，2022）。此外，计算在保留的集合上的测试指标的标准性能评估方法，往往不能对目标人口的性能提供有效的评估（Kallus和Zhou，2018b；Coston等人，2021b）。

这篇论文的一个核心原则是，我们必须确保我们打算测量的内容（例如，我们希望机器学习工具预测的内容，或者我们希望评估衡量的内容）与方法实际测量的内容保持一致。这种属性被称为有效性（Coston等人，2023）。未处理的数据问题，如选择偏见或缺失数据，可能导致不一致，使机器学习工具无效。我们讨论了在儿童福利、刑事司法和消费者贷款环境中这些问题的例子，并提出了解决方法。我们展示了有效性和我们的第二个原则，公平性，之间的关系，公平性要求机器学习工具不无理由地使某些人口群体比其他群体获得优势。我们表明，通常是弱势或历史上处于劣势的人群最有可能在可用数据中被忽视或被误解。我们提出了可靠评估算法中人口偏见的方法，以及在算法工具部署的更广泛环境中审查有效性和公平性的方法。在实践中有效地分析有效性和公平性需要治理工具，提供保护和结构化流程，以谨慎设计和评估机器学习工具。我们开发了一个框架，指导围绕威胁预测算法的有效性和合法性的常见问题进行审议。本文提出的方法构成了对于重大决策的标准机器学习范式的一种替代方法。我们的原则性方法明确了目标人口和目标结果，调整了数据样本和目标人口之间的任何差异，做出了合理的假设以确定目标结果和评估指标。我们开发了高效的方法，使用来自因果推断的影响函数技术来估计这些量，这是一种适用于决策可以改变下游结果的决策环境的学科。我们为我们的方法提供了理论分析，说明如何适当地量化不确定性。本论文提出的方法套件组成了一套用于模型构建、评估和公平性评估的负责任使用的工具包。

我们在§ 0.1中描述了问题设定和符号。接下来的三个部分考虑在缺失数据的性质不同假设下如何获得有效的预测、评估和公平性评估。§ 1描述了当我们已经测量了所有共同影响决策和感兴趣结果的混淆因素时的方法。在许多决策支持环境中，混淆因素可能难以在运行时测量并输入到预测模型中，但在离线数据集中可能仍然可用于训练和评估。§ 2为这种“运行时混淆”设置提供了方法。§ 3通过拉舍蒙效应的视角深入研究公平和公正的问题，拉舍蒙效应是一种实证现象，即多种模型在总体上达到可比较的好的表现，但在个别预测上却明显不同。§ 4描述了一个框架，用于在算法设计中审查有效性，并最终决定是否在高风险环境中部署一个工具。扩大我们的范围到算法被训练和使用的更广泛的背景中，§ 5提出了一个对刑事司法系统中人类决策的种族偏见进行回顾性统计审计的方法。我们在本节提出的方法也展示了如何在对社会有重大影响的领域使用机器学习来评估这些系统以及在其中行使权力的行动者。我们将本论文中提出的工作与我们的三个指导原则：有效性、公平性和治理，联系起来。

成为VIP会员查看完整内容

相关内容

博士论文

关注 114

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【CMU博士论文】基于数据的决策 — 从异常检测的视角, 163页pdf

专知会员服务

48+阅读 · 2023年7月31日

【普林斯顿博士论文】面向决策的模型正则化机器学习，199页pdf

专知会员服务

34+阅读 · 2023年7月22日

【CMU博士论文】可解释机器学习方法与应用，127页pdf

专知会员服务

76+阅读 · 2023年6月6日

【MIT博士论文】因果推论在社会和工程系统应用，348页pdf

专知会员服务

50+阅读 · 2022年9月17日