【博士论文】机器学习模型的可解释性：从数据适应性到用户感知

这篇论文探讨了为已部署的机器学习模型生成局部解释的方法，旨在确定生成有意义解释的最优条件，同时考虑数据和用户需求。主要目标是开发出一种为任何模型生成解释的方法，同时确保这些解释对于底层模型保持忠实并且对用户来说易于理解。论文分为两个部分。第一部分增强了一个广泛使用的基于规则的解释方法，并引入了一个评估线性解释适用于近似模型的适宜性的新方法。此外，它进行了一个比较实验，分析了两大类反事实解释方法之间的优势。第二部分专注于用户实验，评估三种解释方法和两种不同表示的影响。这些实验测量了用户在理解和信任方面如何感知他们与模型的互动，这取决于解释和表示方法。这项研究为更好的解释生成做出了贡献，可能对提高部署的AI系统的透明度、可信度和可用性产生影响。在近几十年里，人工智能（AI）的迅速进步，特别是机器学习（ML）模型的发展，显著影响了我们的日常生活。这一显著的进步可以归因于数据可用性的指数级增长和这些模型精确度的提高。结果，AI和ML模型已经能够实现诸如提供医疗诊断、生成连贯文本、高效识别环境问题等显著成就。这些进步已经转变了众多行业，并且有潜力进一步革命化我们的社会。然而，这一进展也导致了复杂性的增加，这使得ML模型变成了“黑盒子”。它们不透明的本质使得检查它们的推理、进行审计或从中获得洞见变得具有挑战性。那么问题来了：在我们不知道这些模型的局限性和潜在失败的情况下，我们能依赖这些模型在关键情况下作出决策吗？在预测个人娱乐偏好（如Spotify或Netflix）的场景中，模型不准确的后果可能是微小的。但在预测自然灾害或在医学、工作机会或正义等领域做出关键决策的情况下，理解模型的可靠性和推理变得至关重要。实际上，对模型的不信任或误解可能会导致错误的决策。此外，这些模型在对少数群体的偏见和对人类眼睛不可见的对抗性攻击方面展示了脆弱性。

成为VIP会员查看完整内容

相关内容

博士论文

关注 126

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【博士论文】连接状态和行动:迈向持续强化学习

专知会员服务

24+阅读 · 2024年1月31日

【CMU博士论文】以人为中心的机器学习:统计和算法视角

专知会员服务

40+阅读 · 2023年10月1日

【2023新书】针对工程师的数据驱动模型学习及其在单变量时间序列中的应用

专知会员服务

68+阅读 · 2023年8月22日

【CMU博士论文】概率强化学习：使用数据定义期望的结果并推断如何达到

专知会员服务

42+阅读 · 2023年7月31日