【ICML2022】通过凸对偶揭示注意力:视觉Transformers的分析与解读

利用自注意或其提出的替代方案的视觉transformers 在许多与图像相关的任务中显示出良好的结果。然而，归纳性注意偏差的基础还没有被很好地理解。为了解决这一问题，本文通过凸二象性的视角来分析注意力。对于非线性点积自注意，以及MLP混合器和傅立叶神经算子(FNO)等替代机制，我们导出了可解释和可求解全局最优的等价有限维凸问题。凸规划导致阻塞核范数正则化，在潜在特征和令牌维度上提高低秩。特别地，我们展示了自注意力网络如何基于它们的潜在相似性隐式聚集令牌。我们通过对各种凸注意力头进行微调，实现了用于CIFAR-100分类的预训练transformers 骨干的转移实验。结果表明，与现有的MLP或线性磁头相比，由注意力引起的偏置具有优越性。

https://www.zhuanzhi.ai/paper/bdf2d9661e9c0ed0cb8e6b6dfcb965d4

成为VIP会员查看完整内容

相关内容

ICML 2022

关注 0

国际机器学习大会(International Conference on Machine Learning，简称ICML ) 是由国际机器学习学会（IMLS）主办的机器学习国际顶级会议，也是CCF-A类学术会议。ICML 2022 共收到5630 投稿，接收1117 篇 short oral，118篇 long oral，录用率为21.94%。

[ICML2022]在DINO训练的视觉Transformers中探索对抗性攻击和防御

专知会员服务

12+阅读 · 2022年6月16日

【ICML2022】图神经网络异常检测的再思考

专知会员服务

35+阅读 · 2022年6月3日

【NeurIPS 2021 】MST: 用于Transformer视觉表征的Masked自监督解读

专知会员服务

42+阅读 · 2021年12月11日

注意力图神经网络的小样本学习

专知会员服务

192+阅读 · 2020年7月16日