国科大UCAS胡包钢教授《信息论与机器学习》课程第三讲：信息论基础二

【导读】这章主要是对连续变量熵等相关内容进行了介绍。其中美国物理学家Jaynes教授1957 年提出的最大熵原理是最为核心的理论贡献。该原理特别深刻，要知道它不仅是应用在统计推断方面，在很多领域中都可以成为一种原理给出信息论层面上的解释。基于最大熵原理可以根据不同约束导出各种概率分布函数（第8页）。过去认为熵是基于概率分布为已知而得到的一种结果。而最大熵原理给我的理解熵犹似“源”，因为它可导出概率分布表达。反之则不然，因为计算与导出表达是不同的。本章中另一个重要知识是不等式的学习与理解。如同香港中文大学杨伟豪教授指出的那样（第39页）：信息论不等式给出了不可能发生的界，因此这将犹如信息论中的定律。比如其中Fano不等式与Kovalevskij不等式建立了条件熵与误差之间的关系，对机器学习中应用信息论指标有着直接的指导意义，并提供理论解释性。

第8页: 该页介绍了最大互信息可以导出经验式定义的相关系数，而其中的约束是随机变量最高阶次统计量只有二阶。由此例子我学到的内涵有：一是信息论指标更是“源”指标（导出其它，而非相反）。二是熵函数优化加约束可以提供更大的理论解释空间。三是熵指标原理上包容高阶统计量。

第27页: 这页内容是关于二值分类问题中，条件熵与误差之间界关系的讨论。本人2015年文章中的图给出了Fano下界曲线与Kovalevskij上界曲线。由于该文是讨论贝叶斯分类器，因此两类中的类别分布信息p_1与p_2已知。比如T中100个样本，有20个苹果，有80个鸭梨为标签。则p_1=0.2，p_2=0.8。由贝叶斯误差是分类器中理论上最小值这个知识（见Duda《模式分类》中文版第36页），文章添加了另一个上界，在此是蓝色横线p_min=p_1=0.2表示的。此界说明对于给定类别分布的贝叶斯分类器，不可能出现误差大于0.2的情况。图中三角代表贝叶斯分类器计算结果，而圆圈代表互信息分类器计算结果。可以看到该结果已经超出Kovalevskij上界，这里就引出了我们后来发展的界研究工作。这将是第5章中的内容。

该图示意了贝叶斯误差最小学习目标与条件熵最小学习目标在作用力方面有着等价的内涵。都是趋向原点。但是分类问题中多数情况是无法到达原点。因此两者通常没有一对一的关系。即根据给定样本分布得到的最小贝叶斯误差，其对应的条件熵有多解，可以不是最小条件熵。反之亦然。由此要理解条件熵有误差的近似内涵，但本质上是两个随机变量独立性的指标（第22页）。

ITML.pdf

相关内容

信息论

关注 14

信息论（英语：information theory）是运用概率论与数理统计的方法研究信息、信息熵、通信系统、数据传输、密码学、数据压缩等问题的应用数学学科。信息论将信息的传递作为一种统计现象来考虑，给出了估算通信信道容量的方法。信息传输和信息压缩是信息论研究中的两大领域。这两个方面又由信道编码定理、信源－信道隔离定理相互联系。

非凸优化与统计学，89页ppt，普林斯顿Yuxin Chen博士

专知会员服务

103+阅读 · 2020年6月28日

贝叶斯分类器以及与互信息分类器—国科大UCAS胡包钢教授《信息论与机器学习》课程第七讲

专知会员服务

69+阅读 · 2020年3月30日

普渡大学2020硬核课程《鲁棒机器学习理论》课件与笔记，38讲173页pdf

专知会员服务

180+阅读 · 2020年3月28日

国科大UCAS胡包钢教授《信息论与机器学习》课程第六讲：信息指标与拒识分类评价

专知会员服务

62+阅读 · 2020年3月23日