有监督解耦与信息压缩相结合，上交新型信息瓶颈算法实现良好的泛化、鲁棒性能

2020 年 12 月 19 日 机器之心

机器之心发布

作者：潘子琦

单位：上交BCMI实验室

现有的有监督解耦方法，比如把中间表征解耦成种类相关的表征和种类无关的表征，大多基于交换生成的经验性框架，缺乏理论指导，无法保证种类相关表征中不包含种类无关的信息。在本文中，来自上海交通大学的研究者尝试建立信息瓶颈（Information Bottleneck, IB）和有监督解耦之间的联系，为有监督解耦提供理论指导。

信息瓶颈是一种从源数据中提取出与任务目标有关信息的方法，一般通过优化权衡压缩项和预测项的 IB Lagrangian 来实现。现有文献已经指出 IB Lagrangian 存在的一些问题，比如期望的压缩水平与控制权衡的 Lagrangian 乘子之间没有因果关联，因此对于 IB Lagrangian 来说需要多次尝试优化来实现期望目标。

研究者在文中具体分析了 IB Lagrangian 中存在的权衡问题，表明随着压缩程度增大，预测性能严格减小。为了克服这些问题，研究者一方面期望在不损害预测性能的前提下能够实现最大化压缩，简称为「最大化压缩」；另一方面期望无需多次尝试优化，即模型能够一致地实现最大化压缩。

为此，研究者首先考察了最大化压缩实现时对应的量化条件，之后对优化目标给出了最大化压缩一致性的性质定义，即只要优化目标满足该性质就能够一致地实现最大化压缩。在此基础上，研究者给出自己的方案设计。与现有的 IB Lagrangian 不同，研究者 从有监督解耦的角度来实现信息压缩，这是因为他们认为信息压缩与有监督解耦本质上是同一回事 ：在有监督解耦任务中，需要将源数据中与给定标签有关的信息和其它信息分开，如给定图像的类别标签，将图像信息解耦为类别有关的和类别无关的信息；而类似地，在信息压缩任务中，要将源数据中与给定标签无关的信息丢弃从而实现压缩，同样需要区分出与给定标签有关的信息和与给定标签无关的信息。

基于此，研究者将有监督解耦与信息压缩相联系，提出了 基于解耦的信息瓶颈算法 。研究者给出了一些结论，同时在多个数据集上验证了这些结论，并验证了所提方法在包括信息压缩等多个评估指标上的性能。本文已被 AAAI 2021 会议接收。

论文地址：https://arxiv.org/pdf/2012.07372.pdf

IB Lagrangian 中压缩项与预测项的权衡

研究者分析了 IB Lagrangian 中存在的压缩项与预测项之间的权衡问题。形式如下：

具体来说，本文的结论表明 IB Lagrangian 最优解对应的预测性能是随着压缩程度的增大而严格下降的。

最大化压缩一致性、方法设计

为了实现一致的最大化压缩，研究者首先给出了最大化压缩对应的量化条件。首先考虑了 I(X;Y) = H(Y)的情形，应用互信息的基本性质及信息处理不等式，可以得到

接着给出了关于优化目标的最大化压缩一致性的性质定义：

即任意优化目标，只要满足这一性质，就会一致地实现最大化压缩，即上述量化条件。在此基础上给出了本文方法的优化目标函数

具体来说，研究者通过最大化 I(X;S;Y)来约束 (S;Y) 能够表示出 X 的全部信息，则可知 S 至少包含了 X 中与 Y 无关的信息；通过最大化 I(T;Y)来约束 T 能够无损地预测出 Y，则可知至少 T 包含了 X 中与 Y 有关的信息。在此基础上通过最小化 I(S;T)来约束 S 与 T 中的信息互不交叠，从而精确地约束 T 保留与 Y 有关的信息而 S 保留与 Y 无关的信息。可以证明，研究者的优化目标满足最大化压缩一致性，即

对于方案的工程实现，现有的文献提供了直接可用的方法。对于最大化 T(T;Y)和 I(X;S;Y)来说，可以采用变分逼近；而对于最小化 I(S;T)来说，可以采用 Density-Ratio Trick 并以对抗方式进行训练。

研究者的方案与信息压缩和有监督解耦两个领域有关。对于信息压缩的有关方法，大多采用了优化 IB Lagrangian 的形式，因此根据上述结论，它们的压缩项和预测项权衡无法避免，从而在信息压缩的同时带来预测性能的损失；而与有监督解耦的有关方法相比，如前所述，本文方法能够确保 T 和 S 分别精确地保留与 Y 有关和无关的信息，而它们在信息量控制方面没有保证。

实验结果

本文的主要目标是克服 IB Lagrangian 中的权衡问题，因此首先验证所提方法在 IB 平面（横轴代表 I(X;T)，纵轴代表 I(T;Y)）上的表现行为。结果如下图所示：

通过上图可以看出，本文方法能够 在压缩信息的同时避免对预测性能的影响，最大化压缩的量化条件得以较好地逼近 ；而在 IB Lagrangian 的优化中，预测性能会随着压缩程度加大而下降。除此之外，参照信息压缩方法相关文献中的其它评估指标，本文方法在泛化能力、鲁棒性以及离群样本检测方面也表现良好。

本文方法额外带来的收获是能够进行有监督地解耦。通过可视化结果，本文方法可以较好地展示出解耦效果。

总结

总的来说，为了克服优化 IB Lagrangian 的信息压缩方法中存在的压缩项与预测项的权衡问题，研究者从有监督解耦的角度实现了信息压缩的方法，并提出了基于有监督解耦的信息瓶颈算法。研究者给出了一些结论并进行了实验验证，同时在最大化压缩、泛化能力、鲁棒性、离群样本检测、有监督解耦等方面对方法进行评估，得到了良好的实验效果。

本周日，在北京有一场属于开发者的冬日狂欢。