鉴于深度学习模型在安全关键型应用中的广泛使用,确保这些模型的决策在面对对抗性利用时依然具备鲁棒性具有根本性的重要意义。本文将讨论在设计具备理想鲁棒性特性的算法方面的最新进展。首先,我们探讨计算机视觉中的对抗样本问题,并提出新的技术成果、训练范式以及认证算法。接下来,我们考虑领域泛化问题,其任务是训练神经网络能够从一组训练分布泛化到未见过的测试分布。我们提出的新算法在医学影像、分子识别和图像分类中实现了当前最先进的泛化性能。最后,我们研究大语言模型(LLMs)越狱(jailbreaking)的场景,即对抗性用户试图设计提示词以引导模型生成不当内容。我们提出了新的攻击与防御方法,这些方法代表了在设计鲁棒的语言类智能体方面的前沿进展。

成为VIP会员查看完整内容
0
微信扫码咨询专知VIP会员