今日面试题分享：什么是最大熵

2019 年 3 月 10 日 七月在线实验室

undefined

今日面试题分享

什么是最大熵？

参考答案：

解析：

熵是随机变量不确定性的度量，不确定性越大，熵值越大；若随机变量退化成定值，熵为0。如果没有外界干扰，随机变量总是趋向于无序，在经过足够时间的稳定演化，它应该能够达到的最大程度的熵。

为了准确的估计随机变量的状态，我们一般习惯性最大化熵，认为在所有可能的概率模型（分布）的集合中，熵最大的模型是最好的模型。换言之，在已知部分知识的前提下，关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断，其原则是承认已知事物（知识），且对未知事物不做任何假设，没有任何偏见。

例如，投掷一个骰子，如果问"每个面朝上的概率分别是多少"，你会说是等概率，即各点出现的概率均为1/6。因为对这个"一无所知"的色子，什么都不确定，而假定它每一个朝上概率均等则是最合理的做法。从投资的角度来看，这是风险最小的做法，而从信息论的角度讲，就是保留了最大的不确定性，也就是说让熵达到最大。

3.1 无偏原则

下面再举个大多数有关最大熵模型的文章中都喜欢举的一个例子。

例如，一篇文章中出现了“学习”这个词，那这个词是主语、谓语、还是宾语呢？换言之，已知“学习”可能是动词，也可能是名词，故“学习”可以被标为主语、谓语、宾语、定语等等。

令x1表示“学习”被标为名词， x2表示“学习”被标为动词。

令y1表示“学习”被标为主语， y2表示被标为谓语， y3表示宾语， y4表示定语。

且这些概率值加起来的和必为1，即，

，则根据无偏原则，认为这个分布中取各个值的概率是相等的，故得到：

因为没有任何的先验知识，所以这种判断是合理的。如果有了一定的先验知识呢？即进一步，若已知：“学习”被标为定语的可能性很小，只有0.05，即

，剩下的依然根据无偏原则，可得：

再进一步，当“学习”被标作名词x1的时候，它被标作谓语y2的概率为0.95，即

，此时仍然需要坚持无偏见原则，使得概率分布尽量平均。但怎么样才能得到尽量无偏见的分布？

实践经验和理论计算都告诉我们，在完全无约束状态下，均匀分布等价于熵最大（有约束的情况下，不一定是概率相等的均匀分布。比如，给定均值和方差，熵最大的分布就变成了正态分布）。

于是，问题便转化为了：计算X和Y的分布，使得H(Y|X)达到最大值，并且满足下述条件：

因此，也就引出了最大熵模型的本质，它要解决的问题就是已知X，计算Y的概率，且尽可能让Y的概率最大（实践中，X可能是某单词的上下文信息，Y是该单词翻译成me，I，us、we的各自概率），从而根据已有信息，尽可能最准确的推测未知信息，这就是最大熵模型所要解决的问题。

相当于已知X，计算Y的最大可能的概率，转换成公式，便是要最大化下述式子H(Y|X)：

且满足以下4个约束条件：

题目来源：七月在线官网（www.julyedu.com）——面试题库——面试大题——机器学习

今日学习推荐

【机器学习集训营第八期】

火热报名中

前三十人特惠价:14199

2019年4月15日开课

报名加送18VIP[包2018全年在线课程和全年GPU]

且两人及两人以上组团还能各减500元

有意的亲们抓紧时间喽

咨询/报名/组团可添加微信客服

julyedukefu_02

扫描下方二维码

免费试听

☟

长按识别二维码

助力“金三银四”

分享一套全体系人工智能学习资料

600G资料 限时限额0元领

小伙伴们可以屯起来，慢慢学习喔~

扫描下方海报二维码

立即领取

☟

▼

往期推荐

▼

【实战分享】电影推荐系统项目实战应用

万字长文概述NLP中的深度学习技术

34个最优秀好用的Python开源框架

神经网络P图新神器：摘墨镜戴美瞳都能搞定，加首饰换发型真假难分 | 代码开源

一文详解机器学习中最好用的提升方法：Boosting 与 AdaBoost

点

咨询，查看课程，请点击“阅读原文”

给我【好看】

你也越好看！

登录查看更多

相关内容

随机变量

关注 0

【经典书】算法基础：打开算法之门，Algorithm unlocked，237页pdf

专知会员服务

147+阅读 · 2020年7月3日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知会员服务

85+阅读 · 2020年6月9日

【经典】《上海交通大学生存手册》，一本让你在大学活出精彩的秘籍

专知会员服务

203+阅读 · 2020年4月18日

机器学习速查手册，135页pdf

专知会员服务

345+阅读 · 2020年3月15日

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

专知会员服务

34+阅读 · 2020年3月4日

国科大UCAS胡包钢教授《信息论与机器学习》课程第三讲：信息论基础二

专知会员服务

71+阅读 · 2020年3月2日

居家学习！南京大学吴建鑫教授《模式识别》2020课程，附课件下载

专知会员服务

123+阅读 · 2020年2月24日

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

Andriy又一力作新书「机器学习工程」，177页pdf带你实战机器学习工程项目

专知会员服务

127+阅读 · 2020年1月15日

【经典】深度学习数学宝典《深度学习所需要的矩阵微积分》

专知会员服务

287+阅读 · 2019年12月2日

面试时让你手推公式不在害怕 | 梯度下降

计算机视觉life

14+阅读 · 2019年3月27日

今日面试题分享：请问（决策树、Random Forest、Booting、Adaboot）GBDT和XGBoost的区别是什么？

七月在线实验室

11+阅读 · 2019年3月12日

今日面试题分享：熵、联合熵、条件熵、相对熵、互信息的定义

七月在线实验室

8+阅读 · 2019年2月28日

今日面试题分享：简单介绍下LR

七月在线实验室

7+阅读 · 2019年2月20日

BAT机器学习面试题1000题（331~335题）

七月在线实验室

12+阅读 · 2018年8月13日

深度学习面试100题（第71-75题）

七月在线实验室

6+阅读 · 2018年8月2日

深度学习面试100题（第41-45题）

七月在线实验室

15+阅读 · 2018年7月18日

详解常见的损失函数

七月在线实验室

20+阅读 · 2018年7月12日

BAT机器学习面试1000题系列（第51~55题）

七月在线实验室

10+阅读 · 2017年10月8日

干货 | 机器学习算法大总结(ML岗面试常考)

机器学习算法与Python学习

6+阅读 · 2017年8月1日

Video2Commonsense: Generating Commonsense Descriptions to Enrich Video Captioning

Arxiv

3+阅读 · 2020年3月17日

Interference and Generalization in Temporal Difference Learning

Arxiv

8+阅读 · 2020年3月13日

Towards Understanding Acceleration Tradeoff between Momentum and Asynchrony in Nonconvex Stochastic Optimization

Arxiv

3+阅读 · 2018年10月1日

Towards Understanding Regularization in Batch Normalization

Arxiv

4+阅读 · 2018年9月27日

Two Stream 3D Semantic Scene Completion

Arxiv

4+阅读 · 2018年7月16日

Measurement-wise Occlusion in Multi-object Tracking

Arxiv

3+阅读 · 2018年5月21日

Improved Image Captioning with Adversarial Semantic Alignment

Arxiv

6+阅读 · 2018年4月30日

Self-Attention with Relative Position Representations

Arxiv

27+阅读 · 2018年4月12日

Generative Adversarial Autoencoder Networks

Arxiv

11+阅读 · 2018年3月23日

Improved Training of Generative Adversarial Networks Using Representative Features

Arxiv

7+阅读 · 2018年1月28日

VIP会员