有监督解耦与信息压缩相结合,上交新型信息瓶颈算法实现良好的泛化、鲁棒性能

2020 年 12 月 19 日 机器之心

机器之心发布

作者:潘子琦
单位:上交BCMI实验室
现有的有监督解耦方法,比如把中间表征解耦成种类相关的表征和种类无关的表征,大多基于交换生成的经验性框架,缺乏理论指导,无法保证种类相关表征中不包含种类无关的信息。在本文中,来自上海交通大学的研究者尝试建立信息瓶颈(Information Bottleneck, IB)和有监督解耦之间的联系,为有监督解耦提供理论指导。
信息瓶颈是一种从源数据中提取出与任务目标有关信息的方法,一般通过优化权衡压缩项和预测项的 IB Lagrangian 来实现。现有文献已经指出 IB Lagrangian 存在的一些问题,比如期望的压缩水平与控制权衡的 Lagrangian 乘子之间没有因果关联,因此对于 IB Lagrangian 来说需要多次尝试优化来实现期望目标。

研究者在文中具体分析了 IB Lagrangian 中存在的权衡问题,表明随着压缩程度增大,预测性能严格减小。为了克服这些问题,研究者一方面期望在不损害预测性能的前提下能够实现最大化压缩,简称为「最大化压缩」;另一方面期望无需多次尝试优化,即模型能够一致地实现最大化压缩。

为此,研究者首先考察了最大化压缩实现时对应的量化条件,之后对优化目标给出了最大化压缩一致性的性质定义,即只要优化目标满足该性质就能够一致地实现最大化压缩。在此基础上,研究者给出自己的方案设计。与现有的 IB Lagrangian 不同,研究者 从有监督解耦的角度来实现信息压缩,这是因为他们认为信息压缩与有监督解耦本质上是同一回事 :在有监督解耦任务中,需要将源数据中与给定标签有关的信息和其它信息分开,如给定图像的类别标签,将图像信息解耦为类别有关的和类别无关的信息;而类似地,在信息压缩任务中,要将源数据中与给定标签无关的信息丢弃从而实现压缩,同样需要区分出与给定标签有关的信息和与给定标签无关的信息。

基于此,研究者将有监督解耦与信息压缩相联系,提出了 基于解耦的信息瓶颈算法 。研究者给出了一些结论,同时在多个数据集上验证了这些结论,并验证了所提方法在包括信息压缩等多个评估指标上的性能。本文已被 AAAI 2021 会议接收。


论文地址:https://arxiv.org/pdf/2012.07372.pdf

IB Lagrangian 中压缩项与预测项的权衡

研究者分析了 IB Lagrangian 中存在的压缩项与预测项之间的权衡问题。形式如下:

具体来说,本文的结论表明 IB Lagrangian 最优解对应的预测性能是随着压缩程度的增大而严格下降的。

最大化压缩一致性、方法设计

为了实现一致的最大化压缩,研究者首先给出了最大化压缩对应的量化条件。首先考虑了 I(X;Y) = H(Y)的情形,应用互信息的基本性质及信息处理不等式,可以得到


接着给出了关于优化目标的最大化压缩一致性的性质定义:


即任意优化目标,只要满足这一性质,就会一致地实现最大化压缩,即上述量化条件。在此基础上给出了本文方法的优化目标函数


具体来说,研究者通过最大化 I(X;S;Y)来约束 (S;Y) 能够表示出 X 的全部信息,则可知 S 至少包含了 X 中与 Y 无关的信息;通过最大化 I(T;Y)来约束 T 能够无损地预测出 Y,则可知至少 T 包含了 X 中与 Y 有关的信息。在此基础上通过最小化 I(S;T)来约束 S 与 T 中的信息互不交叠,从而精确地约束 T 保留与 Y 有关的信息而 S 保留与 Y 无关的信息。可以证明,研究者的优化目标满足最大化压缩一致性,即


对于方案的工程实现,现有的文献提供了直接可用的方法。对于最大化 T(T;Y)和 I(X;S;Y)来说,可以采用变分逼近;而对于最小化 I(S;T)来说,可以采用 Density-Ratio Trick 并以对抗方式进行训练。

研究者的方案与信息压缩和有监督解耦两个领域有关。对于信息压缩的有关方法,大多采用了优化 IB Lagrangian 的形式,因此根据上述结论,它们的压缩项和预测项权衡无法避免,从而在信息压缩的同时带来预测性能的损失;而与有监督解耦的有关方法相比,如前所述,本文方法能够确保 T 和 S 分别精确地保留与 Y 有关和无关的信息,而它们在信息量控制方面没有保证。

实验结果

本文的主要目标是克服 IB Lagrangian 中的权衡问题,因此首先验证所提方法在 IB 平面(横轴代表 I(X;T),纵轴代表 I(T;Y))上的表现行为。结果如下图所示:


通过上图可以看出,本文方法能够 在压缩信息的同时避免对预测性能的影响,最大化压缩的量化条件得以较好地逼近 ;而在 IB Lagrangian 的优化中,预测性能会随着压缩程度加大而下降。除此之外,参照信息压缩方法相关文献中的其它评估指标,本文方法在泛化能力、鲁棒性以及离群样本检测方面也表现良好。

本文方法额外带来的收获是能够进行有监督地解耦。通过可视化结果,本文方法可以较好地展示出解耦效果。


总结

总的来说,为了克服优化 IB Lagrangian 的信息压缩方法中存在的压缩项与预测项的权衡问题,研究者从有监督解耦的角度实现了信息压缩的方法,并提出了基于有监督解耦的信息瓶颈算法。研究者给出了一些结论并进行了实验验证,同时在最大化压缩、泛化能力、鲁棒性、离群样本检测、有监督解耦等方面对方法进行评估,得到了良好的实验效果。

本周日,在北京有一场属于开发者的冬日狂欢。


  • 王海峰、朱军、李宏毅等AI大咖畅聊产业、人才与开源。

  • 30场技术公开课干货满满。
  • 伴手礼人手一份,互动展区还有众多礼品等你来拿。
    DJ、乐队、街舞、脱口秀同台 AI 狂欢夜。
12月20日,798大罐等你。 点击 阅读原文 ,立即报名。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

登录查看更多
0

相关内容

【CVPR2021】反事实的零次和开集识别
专知会员服务
25+阅读 · 2021年5月7日
专知会员服务
22+阅读 · 2021年5月1日
【CVPR2021】背景鲁棒的自监督视频表征学习
专知会员服务
16+阅读 · 2021年3月13日
【ICLR2021】通过多种自监督方式提升GAT中注意力
专知会员服务
43+阅读 · 2021年2月27日
【ICLR2021】对未标记数据进行深度网络自训练的理论分析
【AAAI2021】基于双任务一致性的半监督医学图像分割
专知会员服务
30+阅读 · 2021年2月7日
【AAAI2021】信息瓶颈和有监督表征解耦
专知会员服务
20+阅读 · 2021年1月27日
【CVPR2020】跨模态哈希的无监督知识蒸馏
专知会员服务
59+阅读 · 2020年6月25日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
37+阅读 · 2019年7月25日
虚拟对抗训练:一种新颖的半监督学习正则化方法
人工智能前沿讲习班
8+阅读 · 2019年6月9日
CVPR 2019 | 图像压缩重建也能抵御对抗样本
计算机视觉life
3+阅读 · 2019年4月26日
结合弱监督信息的凸聚类
计算机研究与发展
6+阅读 · 2017年8月30日
Disentangled Information Bottleneck
Arxiv
12+阅读 · 2020年12月22日
Arxiv
19+阅读 · 2019年11月23日
Arxiv
8+阅读 · 2018年5月17日
VIP会员
相关VIP内容
【CVPR2021】反事实的零次和开集识别
专知会员服务
25+阅读 · 2021年5月7日
专知会员服务
22+阅读 · 2021年5月1日
【CVPR2021】背景鲁棒的自监督视频表征学习
专知会员服务
16+阅读 · 2021年3月13日
【ICLR2021】通过多种自监督方式提升GAT中注意力
专知会员服务
43+阅读 · 2021年2月27日
【ICLR2021】对未标记数据进行深度网络自训练的理论分析
【AAAI2021】基于双任务一致性的半监督医学图像分割
专知会员服务
30+阅读 · 2021年2月7日
【AAAI2021】信息瓶颈和有监督表征解耦
专知会员服务
20+阅读 · 2021年1月27日
【CVPR2020】跨模态哈希的无监督知识蒸馏
专知会员服务
59+阅读 · 2020年6月25日
Top
微信扫码咨询专知VIP会员