啥是深度学习中的信息理论概念(AI)
信息理论是一个重要的领域,它对深度学习和人工智能作出了重大贡献,但许多人都不了解。信息理论可以看作是深度学习基本构建模块的复杂融合:微积分,概率和统计。
人工智能中的一些概念来自信息理论或相关领域:
- 流行的交叉熵损失函数
- 根据最大信息增益构建决策树
- 维特比算法(Viterbi)广泛应用于NLP和Speech
- 编码器 - 解码器的概念广泛用于机器翻译RNN和各种其他类型的模型
信息理论史简介
在20世纪初,科学家和工程师们正在努力解决这个问题:“如何量化信息?是否存在可以告诉我们有关信息内容的分析方法或数学方法?“
例如,请考虑以下两句话:
- 布鲁诺是一只狗。
- 布鲁诺是一只大棕狗。
不难说第二句话给了我们更多的信息,因为它还告诉布鲁诺除了是“狗”之外还是“大”和“棕色”。我们如何量化两句话之间的差异?
我们能否有一个数学测量,告诉我们第二句话与第一句相比有多少信息?
语义,域和数据形式只会增加问题的复杂性。然后,数学家和工程师克劳德·香农提出了“熵”的概念,它永远改变了我们的世界,标志着“数字信息时代”的开始。
Shannon提出“数据的语义方面是不太重要的”(semantic aspects of data are irrelevant),数据的性质和含义在信息内容方面并不重要。相反,他根据概率分布和“不确定性”来量化信息。
香农还引入了“bit”这个词,这一革命性的想法不仅奠定了信息理论的基础,而且为人工智能等领域的进步开辟了新的途径。
下面我们将讨论深度学习和数据科学中四种流行的,广泛使用的和必须已知的信息理论概念:
熵Entropy,也称为信息熵或香农熵Intuition
介绍
熵给出了实验中不确定性的度量。让我们考虑两个实验:
- H说,扔一个公平的硬币(P(H)= 0.5)并观察它的输出
- 抛出一个有偏见的硬币(P(H)= 0.99)并观察它的输出,比如H
如果我们比较两个实验,exp 2与exp 1相比,更容易预测结果。因此,我们可以说exp 1本质上比exp 2更不确定/不可预测。
实验中的这种不确定性是使用熵测量的。
因此,如果实验中存在更多固有的不确定性,那么它具有更高的熵。或者更少的实验是可预测的更多是熵。
实验的概率分布用于计算熵:
- 一个完全可预测的确定性实验,即投掷P(H)= 1的硬币具有的熵为0。
- 一个完全随机的实验,比如滚动公平骰子,是最不可预测的,具有最大的不确定性,并且在这些实验中具有最高的熵。
另一种观察熵的方法是我们观察随机实验结果时获得的平均信息。将实验结果获得的信息定义为该结果发生概率的函数。更为罕见的是结果,更多的是通过观察获得的信息。
例如,在确定性实验中,我们总是知道结果,因此通过观察结果没有获得新信息,因此熵为零。
数学
对于离散随机变量X,可能的结果(状态)x_1,...,x_n,以比特为单位的熵定义为:
其中p(x_i)是X的第i个结果的概率。
应用
- 熵用于自动决策树构造。在树构建的每个步骤中,使用熵标准来完成特征选择。
- 基于最大熵原理的模型选择是从具有最高熵的竞争模型中得出的最佳状态。
交叉熵
介绍
交叉熵用于比较两个概率分布。它告诉我们两个分布是如何相似的。
数学
在相同的结果集上定义的两个概率分布p和q之间的交叉熵由下式给出:
应用
- 交叉熵损失函数广泛用于逻辑回归等分类模型。随着预测偏离真实输出,交叉熵损失函数增加。
- 在诸如卷积神经网络的深度学习架构中,最终输出“softmax”层经常使用交叉熵损失函数。
Mutual Information(互信息)
介绍
Mutual Information是两种概率分布或随机变量之间相互依赖性的度量。
它告诉我们有关一个变量的信息是由另一个变量承载的。
Mutual Information捕获随机变量之间的依赖性,并且比香草相关系数更普遍,后者仅捕获线性关系。
数学
两个离散随机变量X和Y的Mutual Information定义为:
其中p(x,y)是X和Y的联合概率分布,p(x)和p(y)分别是X和Y的边际概率分布。
应用
- 特征选择:可以使用互信息,而不是使用相关性。相关性仅捕获线性依赖性并忽略非线性依赖性,但互信息不会。互信息为0则保证随机变量是独立的,但零相关则不能。
- 在贝叶斯网络中,互信息用于学习随机变量之间的关系结构,并定义这些关系的强度。
Kullback Leibler(KL)Divergence
也称为相对熵。
介绍
KL分歧是发现两个概率分布之间相似性的另一种方法。它衡量一个分布与另一个分布的差异。
假设,我们有一些数据和真正的分布,它是'P'。但我们不知道这个'P',所以我们选择一个新的分布'Q'来估算这些数据。由于“Q”只是一个近似值,因此无法将数据逼近“P”,并且会发生一些信息丢失。这种信息丢失由KL分歧给出。
'P'和'Q'之间的KL差异告诉我们当我们尝试用'Q'逼近'P'给出的数据时,我们失去了多少信息。
数学
来自另一概率分布P的概率分布Q的 KL偏差定义为:
应用
KL散度通常用于无监督机器学习技术变分自动编码器。
信息理论最初是由数学家和电气工程师克劳德·香农在1948年的开创性论文“交流数学理论”中提出的。
注意:术语实验,随机变量和AI,机器学习,深度学习,数据科学已被广泛使用,但具有技术上不同的含义。