熵与其它信息量估计—国科大UCAS胡包钢教授《信息论与机器学习》课程第四讲

【导读】在信息论或机器学习教学中，通常不包含熵估计内容。由于现代通讯应用中是数字通讯，对于离散随机变量，熵估计方法成熟，因此不是问题。而在机器学习或大数据处理中，大量数据是以连续随机变量方式出现（如图像、语音等）。而对连续随机变量及其混合随机变量，目前熵估计仍然处于方法研究发展阶段。机器学习传统教学中会包括分布估计，而不包括熵估计内容。我们知道熵估计类似于随机变量分布估计，需求大量且在低维数据中方可获得较好的近似解。熵估计或分布估计均属于“生成式（discriminative）学习”，会比“判别式（generative）学习”更难于处理，且预测结果误差更大。熵估计可以被认为是信息论与机器学习“综合”中的最大障碍。而这些障碍有些是本质性的，比如高维数据情况下的维数灾难(Curse of Dimensionality)问题。当估计结果很差时，基于信息论机器学习方法将不可能有效。比如对同样一组数据，应用不同估计方法或不同内部参数会有很大不同结果。因此可以认为基于信息论机器学习中，熵与其它信息量估计是关键性的基础问题。因此本教学中，增加该章为独立内容。我们认为对抗网络（GAN）中的“生成式”方法结合“判别式”方法是赋予智能机器进化功能中的重要学习方式，其中信息论会扮演重要角色（想想为什么）。该章是讲解熵与其它信息量估计这样基础问题与必要知识，由此也理解为什么近年来这个主题研究开始活跃起来。

第17-22页: 在第一章中我们介绍了美国佛罗里达大学Principe教授是国际上首次提出“信息论机器学习（ITL）”理论框架的学者。基于此框架他们团队发展了许多基础性的原创工作。这里主要是他们关于二次Renyi熵中的部分贡献。其中从物理视角提出信息势、信息势场、信息力的定义（第19页），并与二次Renyi熵建立关联的学术思想十分重要并具启迪性。本人理解这是对机器学习从信息论角度提供解释性的重要基础。其中给我的启迪是未来要打通机器学习、信息论、物理原理之间的关联。第22页中的要点也可以理解为熵估计方法中期望的性质。

第30-37页: 我认为MIC方法给出了信息论中互信息定义扩展应用与估计方法创新的典型样例。他们首先发现现有指标应用中的问题，然后提出基于信息论为基础思想的指标，再后对这个指标提出需求满足两个启发式属性。这是一种顶层的先验知识。我们将其称为“元准则”，即关于准则之上的准则。最后是发展了具体MIC方法并从数据实验中表明该方法是基本符合两个启发式属性。希望读者能够从从这个研究样例中“悟”出一种个人总结的方法论？