随着机器学习(ML)系统在现实世界中的部署,这些系统的可靠性和信任度成为更加突出的挑战。本论文旨在通过两个关键推动力来应对这一挑战:(1)通过利用机器学习模型的一个被认为是其弱点的方面——对抗性扰动,使机器学习模型更值得信赖;(2)探索可靠的机器学习部署的基础

具体来说,在第一个推动力中,我们关注对抗性扰动,这是对机器学习模型完整性的一个众所周知的威胁,并展示如何构建对所谓的对抗性贴片具有鲁棒性的机器学习模型。然后,我们展示对抗性扰动可以被重新利用,不仅仅是机器学习模型的弱点,而且还可以增强这些模型的韧性和可靠性。为此,我们利用这些扰动来首先开发一种创建易于机器学习模型识别的对象的方法,然后设计一种保护图像免受不希望的AI驱动修改的方法,最后改进迁移学习的性能。

本论文的第二个推动力围绕机器学习模型的可解释性和调试,以确保机器学习系统的安全性、公平性和无偏见的决策制定。特别是,我们研究构建更易于调试的机器学习模型的方法,并提供诊断其故障模式的工具。然后,我们研究数据如何影响模型行为,识别数据可能以意想不到的方式引入机器学习模型偏见的情况,特别是在迁移学习的背景下。最后,我们提出了一个基于数据的框架来研究迁移学习,这可以帮助我们发现从预训练数据中继承的问题偏见。

在过去的十年中,机器学习(ML)在各个领域推动了显著的进步,例如计算机视觉[KSH12]、自然语言处理[VSP+17; DCL+19]和语音识别[GMH13; BZM+20; ZQP+20]。机器学习在多个领域的广泛应用强调了全面评估其在现实世界系统中的可靠性、信任度和可部署性的重要性。随着机器学习继续扩展到复杂且不断变化的领域,确保其可靠和公平地运作至关重要。

尽管机器学习模型取得了显著成就,但它们并非没有缺点。有趣的是,这些模型很脆弱,不经意间与一些表面模式对齐,从而延续了它们所训练数据中现有的偏见。这种脆弱性的一个明显例证是对抗性示例[BCM+13; SZS+14]的现象,其中对图像的微小扰动可以干扰机器学习模型,导致错误分类(参见图1)。 对抗性示例仅仅代表了更广泛问题的一种表现形式,即机器学习模型在暴露于分布偏移时缺乏鲁棒性,此时测试时的数据分布与训练时的不同。这使得人们对机器学习在现实世界中的部署准备产生疑问,强调了需要可靠的系统能够承受动态、真实世界的条件。因此,以下关键问题出现了: 我们如何自信和负责地在现实环境中部署机器学习?

本论文通过两个主要推动力来推进这一总体挑战,都致力于解决机器学习在现实世界部署中面临的一些最关键问题。这两个推动力是: 对抗性扰动与更好的机器学习。新机器学习模型的开发通常涉及对静态基准的优化,这可能与这些模型在部署过程中面临的场景大不相同。这种差异要求创建鲁棒和可靠的模型,特别是在预测准确性至关重要的高风险应用中。本论文的第一部分解决了这一需求,重点关注由对抗性扰动所表现的最坏情况分布偏移。我们首先展示如何构建对这些扰动鲁棒的模型,并证明从安全角度看,这些鲁棒模型在部署时更安全外,当用于下游任务(例如,在迁移学习中)时,它们的泛化能力更好。然后,我们转换方向,展示如何利用这些(看似不好的)对抗性扰动来(1)创建在分布偏移下易于被机器学习模型识别的鲁棒对象,以及(2)保护图像免受不希望的AI操纵,这两者也有助于使机器学习部署更可靠和值得信赖。

理解可靠机器学习部署的基础。现实世界中的机器学习部署不仅需要鲁棒和可靠的模型;它还要求深入理解模型的决策过程,以确保安全性、公平性和偏见检测。本论文的第二部分专注于解密和故障排除机器学习模型。它探索了(1)构建可调试的机器学习模型,(2)开发用于检测和理解机器学习模型失败原因的工具,以及(3)研究数据如何以意外的方式偏见和影响机器学习模型。这种多方面的方法旨在增强我们对实际应用中机器学习模型的理解和控制。

在本引言的后续部分,我们将介绍这些主要关注领域的总结,概述我们的主要概念和发现,并将它们与论文的相应部分对齐。

可部署的机器学习(ML)仍然面临重大挑战,随着模型的演变和能力增强,例如大型语言模型(LLMs),复杂性也随之增加。虽然本论文阐明了可部署ML的某些方面,但要实现自信的ML部署仍有很长的路要走。这一领域需要进一步研究,以下几个紧迫的未解决问题值得关注。

重新评估LLMs的对抗性示例。尽管已努力增强ML模型对抗对抗性示例的鲁棒性,但这仍是一个困难的开放性问题。鉴于解决最坏情况鲁棒性问题的困难,研究重点最近已转向一般分布偏移的平均情况鲁棒性。然而,随着LLMs的进步,重新审视对抗性示例变得至关重要。例如,我们如何加强LLMs以抵御越狱[WHS23; ZWK+23],一种特别影响LLMs的对抗性示例?随着LLMs变得更加强大并包含各种模态,如图像、视频和音频,预防越狱变得更加困难[CNC+23]。

此外,解决方案可能不仅在于加固ML模型,还在于加强整个ML流程。当前的研究经常忽视了ML模型在复杂系统中运行的上下文。如果ML模型是复杂系统的一部分,鲁棒性评估将如何改变?内容审核技术是否有效对抗越狱,以及如何改进它们?随着LLMs对社会影响的日益增加,这些问题变得异常相关。 创建与人类对齐的表征。对抗性示例的存在说明了机器学习(ML)模型与人类之间在决策上的显著差异。目标是使模型与人类特征的利用对齐,从而消除对抗性漏洞。如何指导模型使用“正确”的特征?尽管在与人类表征对齐方面,对抗性鲁棒性取得了一些成功,但这个领域仍是一个开放的挑战。在追求与人类对齐的学习中,可能需要全新的技术和方法论。

探索计算机视觉之外的非对抗性示例。本论文探讨了作为增强图像分类中ML模型鲁棒性和可靠性的方法的非对抗性示例。然而,这一概念可以扩展到其他领域,如目标检测、图像分割等。在自然语言处理、语音识别和表格数据处理等领域,非对抗性示例可能发挥关键作用。是否可以合成非对抗性的语音信号或文本,以促进未来的识别?将这一点与水印技术相结合,特别是在检测由LLMs和扩散模型生成的伪造内容方面,呈现出另一个令人兴奋的探索方向。 将调试ML模型作为一个全面系统的一部分。本论文展示了偏见如何渗透整个ML流程,强调了调试整个过程以识别故障模式的必要性。重点特别放在源自模型本身的故障模式,或者基于其构建的预训练模型。ML系统的哪些其他关键组成部分可能同样引入偏见或故障?在ML部署的更广泛背景下,开发专门的综合调试工具的必要性日益增长。

成为VIP会员查看完整内容
50

相关内容

麻省理工学院(Massachusetts Institute of Technology,MIT)是美国一所研究型私立大学,位于马萨诸塞州(麻省)的剑桥市。麻省理工学院的自然及工程科学在世界上享有极佳的盛誉,该校的工程系曾连续七届获得美国工科研究生课程冠军,其中以电子工程专业名气最响,紧跟其后的是机械工程。其管理学、经济学、哲学、政治学、语言学也同样优秀。
【MIT博士论文】人工智能系统的组合泛化,194页pdf
专知会员服务
53+阅读 · 2023年11月15日
【MIT博士论文】垂直领域生成式模型,107页pdf
专知会员服务
60+阅读 · 2023年11月13日
【MIT博士论文】高效可靠深度学习的共形方法,213页pdf
专知会员服务
35+阅读 · 2023年11月12日
【MIT博士论文】从未整理数据中的鲁棒学习,220页pdf
专知会员服务
48+阅读 · 2023年11月10日
【MIT博士论文】异构医疗数据表示学习,193页pdf
专知会员服务
53+阅读 · 2022年9月3日
【2022新书】深度学习归一化技术,117页pdf
专知
17+阅读 · 2022年11月25日
深度多模态表示学习综述论文,22页pdf
专知
29+阅读 · 2020年6月21日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
29+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
15+阅读 · 2013年12月31日
Arxiv
133+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
327+阅读 · 2023年3月31日
Arxiv
56+阅读 · 2023年3月26日
Arxiv
115+阅读 · 2023年3月24日
Arxiv
16+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【MIT博士论文】人工智能系统的组合泛化,194页pdf
专知会员服务
53+阅读 · 2023年11月15日
【MIT博士论文】垂直领域生成式模型,107页pdf
专知会员服务
60+阅读 · 2023年11月13日
【MIT博士论文】高效可靠深度学习的共形方法,213页pdf
专知会员服务
35+阅读 · 2023年11月12日
【MIT博士论文】从未整理数据中的鲁棒学习,220页pdf
专知会员服务
48+阅读 · 2023年11月10日
【MIT博士论文】异构医疗数据表示学习,193页pdf
专知会员服务
53+阅读 · 2022年9月3日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
29+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
15+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员