The Information bottleneck (IB) method enables optimizing over the trade-off between compression of data and prediction accuracy of learned representations, and has successfully and robustly been applied to both supervised and unsupervised representation learning problems. However, IB has several limitations. First, the IB problem is hard to optimize. The IB Lagrangian $\mathcal{L}_{IB}:=I(X;Z)-\beta I(Y;Z)$ is non-convex and existing solutions guarantee only local convergence. As a result, the obtained solutions depend on initialization. Second, the evaluation of a solution is also a challenging task. Conventionally, it resorts to characterizing the information plane, that is, plotting $I(Y;Z)$ versus $I(X;Z)$ for all solutions obtained from different initial points. Furthermore, the IB Lagrangian has phase transitions while varying the multiplier $\beta$. At phase transitions, both $I(X;Z)$ and $I(Y;Z)$ increase abruptly and the rate of convergence becomes significantly slow for existing solutions. Recent works with IB adopt variational surrogate bounds to the IB Lagrangian. Although allowing efficient optimization, how close are these surrogates to the IB Lagrangian is not clear. In this work, we solve the IB Lagrangian using augmented Lagrangian methods. With augmented variables, we show that the IB objective can be solved with the alternating direction method of multipliers (ADMM). Different from prior works, we prove that the proposed algorithm is consistently convergent, regardless of the value of $\beta$. Empirically, our gradient-descent-based method results in information plane points that are comparable to those obtained through the conventional Blahut-Arimoto-based solvers and is convergent for a wider range of the penalty coefficient than previous ADMM solvers.


翻译:信息瓶颈( IB) 方法能够优化数据压缩和所学表现的预测准确性之间的权衡, 并且成功和有力地应用到受监管和不受监管的演示学习问题。 但是, IB 有几个限制。 首先, IB 问题很难优化。 IB Lagrangian $\ mathcal{L ⁇ IB} : = I( X; Z)\beta I( Y; Z) 美元是非默认的, 现有解决方案只能保证本地的趋同。 因此, 获得的解决方案取决于初始化。 其次, 对解决方案的评估也是一项具有挑战性的任务。 公约性, IB 使用信息平台, 即绘制美元( Y; Z) 美元对美元对美元( 美元) 美元( 美元) 的问题很难优化 。 此外, IB Lagrangician 的阶段性过渡性, 以美元( 美元( Z) 和 美元( 美元) 现有解决方案的递增率值不同。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
【AAAI2021】信息瓶颈和有监督表征解耦
专知会员服务
20+阅读 · 2021年1月27日
因果图,Causal Graphs,52页ppt
专知会员服务
238+阅读 · 2020年4月19日
开源书:PyTorch深度学习起步
专知会员服务
49+阅读 · 2019年10月11日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
已删除
将门创投
5+阅读 · 2019年9月10日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Arxiv
0+阅读 · 2021年7月15日
Disentangled Information Bottleneck
Arxiv
12+阅读 · 2020年12月22日
VIP会员
相关VIP内容
【AAAI2021】信息瓶颈和有监督表征解耦
专知会员服务
20+阅读 · 2021年1月27日
因果图,Causal Graphs,52页ppt
专知会员服务
238+阅读 · 2020年4月19日
开源书:PyTorch深度学习起步
专知会员服务
49+阅读 · 2019年10月11日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
相关资讯
已删除
将门创投
5+阅读 · 2019年9月10日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Top
微信扫码咨询专知VIP会员