机器学习,尤其是深度神经网络,所带来的广泛影响不言而喻。这类能力卓越的模型如今已部署在自动驾驶、医疗诊断、金融与制造等关键领域。尽管其应用得益于在基准任务上的优异表现,但其以数据为驱动的特性常使其在遭遇非常规输入时表现出不可预测性。在与人类交互或存在系统失效可能性的安全关键应用中,这种不可预测性构成了重大挑战。这进一步凸显了“可信机器学习”的必要性:模型不仅要在标准指标上表现出色,还必须在真实世界环境中体现出可靠与稳健的特性。
我们的工作正是围绕这一需求展开:改进能够为此类系统提供鲁棒性认证的方法,或在最低限度上,给出有力的实证评估,以支撑其负责任的部署。具体而言,我们在通过随机平滑实现图像分类的概率化认证方面提出了进展;引入了一个用于验证神经网络偏导数的通用框架,可用于对物理驱动神经网络(PINNs)的正确性进行认证;并分析了在任务特定数据上微调大型语言模型时所涉及的安全风险及其缓解策略。此外,我们还探讨了开源生成式 AI 模型在提升可信度方面的更广泛影响。上述贡献共同推动了可信机器学习系统的发展。最后,我们对这些工作的优势与局限进行了讨论,并指出了该领域亟待解决的关键开放问题。