BAT机器学习面试1000题(451~455题)

2018 年 9 月 18 日 七月在线实验室

点击上方     蓝字关注七月在线实验室




BAT机器学习面试1000题(451~455题)


451题

基于统计的分词方法为( )


A、正向量最大匹配法


B、逆向量最大匹配法


C、最少切分


D、条件随机场



点击下方空白区域查看答案

正确答案是:D

解析:

   中文分词的基本方法可以分为基于语法规则的方法、基于词典的方法和基于统计的方法。


   基于语法规则的分词法基本思想是在分词的同时进行句法、语义分析, 利用句法信息和语义信息来进行词性标注, 以解决分词歧义现象。因为现有的语法知识、句法规则十分笼统、复杂, 基于语法和规则的分词法所能达到的精确度远远还不能令人满意, 目前这种分词系统应用较少。


   在基于词典的方法中,可以进一步分为最大匹配法,最大概率法,最短路径法等。最大匹配法指的是按照一定顺序选取字符串中的若干个字当做一个词,去词典中查找。根据扫描方式可细分为:正向最大匹配,反向最大匹配,双向最大匹配,最小切分。最大概率法指的是一个待切分的汉字串可能包含多种分词结果,将其中概率最大的那个作为该字串的分词结果。最短路径法指的是在词图上选择一条词数最少的路径。


   基于统计的分词法的基本原理是根据字符串在语料库中出现的统计频率来决定其是否构成词。词是字的组合,相邻的字同时出现的次数越多, 就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映它们成为词的可信度。常用的方法有HMM(隐马尔科夫模型),MAXENT(最大熵模型),MEMM(最大熵隐马尔科夫模型),CRF(条件随机场)。


   本题中,基于统计的方法为条件随机场。ABC三个选项为基于词典的方法。




452题

下列哪个不属于CRF模型对于HMM和MEMM模型的优势( )


A、特征灵活


B、速度快


C、可容纳较多上下文信息


D、全局最优



点击下方空白区域查看答案

正确答案是:B

解析:

   HMM模型是对转移概率和表现概率直接建模,统计共现概率。而MEMM模型是对转移概率和表现概率建立联合概率,统计时统计的是条件概率。CRF是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。MEMM容易陷入局部最优,是因为MEMM只在局部做归一化。CRF模型中,统计了全局概率,在做归一化时,考虑了数据在全局的分布,而不是仅仅在局部归一化,这样就解决了MEMM中的标记偏置的问题。


   CRF没有HMM那样严格的独立性假设条件,因而可以容纳任意的上下文信息,特征设计灵活。CRF需要训练的参数更多,与MEMM和HMM相比,它存在训练代价大、复杂度高的缺点。





453题

隐马尔可夫模型(HMM),设其观察值空间为

 状态空间为

如果用维特比算法(Viterbi algorithm)进行解码,时间复杂度为( )


A、O(NK)


B、O(NK^2)  


C、O(N^2K)    


D、以上都不是


点击下方空白区域查看答案

正确答案是:D

解析:





454题

 在二分类问题中,当测试集的正例和负例数量不均衡时,以下评价方案哪个是相对不合理的( )

(假设precision=TP/(TP+FP),recall=TP/(TP+FN)。)


A、 Accuracy:(TP+TN)/all


B、 F-value:2*recall*precision/(recall+precision)


C、 G-mean:sqrt(precision*recall)


D、 AUC:ROC曲线下面积


点击下方空白区域查看答案

正确答案是:A

解析:

   对于分类器,主要的评价指标有precision,recall,F-score,以及ROC曲线等。


   在二分类问题中,我们主要关注的是测试集的正样本能否正确分类。当样本不均衡时,比如样本中负样本数量远远多于正样本,此时如果负样本能够全部正确分类,而正样本只能部分正确分类,那么(TP+TN)可以得到很高的值,也就是Accuracy是个较大的值,但是正样本并没有取得良好的分类效果。因此A选项是不合理的。在样本不均衡时,可以采用BCD选项方法来评价。




455题

下面关于ID3算法中说法错误的是( )


A、ID3算法要求特征必须离散化


B、信息增益可以用熵,而不是GINI系数来计算


C、选取信息增益最大的特征,作为树的根节点


D、ID3算法是一个二叉树模型


点击下方空白区域查看答案

正确答案是:D

解析:

ID3算法(IterativeDichotomiser3迭代二叉树3代)是一个由RossQuinlan发明的用于决策树的算法。可以归纳为以下几点:
使用所有没有使用的属性并计算与之相关的样本熵值
选取其中熵值最小的属性
生成包含该属性的节点

D3算法对数据的要求:
1)所有属性必须为离散量;
2)所有的训练例的所有属性必须有一个明确的值;
3)相同的因素必须得到相同的结论且训练例必须唯一。




题目来源:七月在线官网(https://www.julyedu.com/)——面试题库——笔试练习——机器学习



今日分享

【计算机视觉】干货大礼包

限量免费送

5G计算机视觉定会论文

10本CV领域经典电子书籍

另外还有一整套视频课程等

这套资料将助你在

CV进阶之路上快人一步

名额有限喔

有意的亲们抓紧时间喽,扫码立即参加



 更多资讯

 请戳一戳


往期推荐

干货 | 一图掌握整个深度学习核心知识体系【高清下载】

为什么程序员总喜欢在半夜写代码?

2019校招面试必备,15个CNN关键回答集锦【建议收藏】

年薪25万的程序员都选择转行了,究竟是什么行业这么热门?

看懂深度学习真的那么难吗?初中数学,就用10分钟

点击“阅读原文”,查看更多

登录查看更多
0

相关内容

将一个汉字序列切分成一个一个单独的词
【经典书】机器学习:贝叶斯和优化方法,1075页pdf
专知会员服务
392+阅读 · 2020年6月8日
【经典书】贝叶斯编程,378页pdf,Bayesian Programming
专知会员服务
244+阅读 · 2020年5月18日
【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
40+阅读 · 2020年3月21日
机器学习速查手册,135页pdf
专知会员服务
336+阅读 · 2020年3月15日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
347+阅读 · 2020年2月15日
谷歌机器学习速成课程中文版pdf
专知会员服务
143+阅读 · 2019年12月4日
【机器学习课程】Google机器学习速成课程
专知会员服务
162+阅读 · 2019年12月2日
学习自然语言处理路线图
专知会员服务
133+阅读 · 2019年9月24日
BAT机器学习面试1000题(721~725题)
七月在线实验室
11+阅读 · 2018年12月18日
BAT机器学习面试1000题(716~720题)
七月在线实验室
19+阅读 · 2018年12月17日
BAT机器学习面试题1000题(376~380题)
七月在线实验室
9+阅读 · 2018年8月27日
BAT机器学习面试题1000题(331~335题)
七月在线实验室
12+阅读 · 2018年8月13日
BAT机器学习面试题1000题(316~320题)
七月在线实验室
14+阅读 · 2018年1月18日
机器学习面试题精讲(一)
七月在线实验室
4+阅读 · 2018年1月11日
BAT题库 | 机器学习面试1000题系列(第211~215题)
七月在线实验室
9+阅读 · 2017年11月22日
BAT题库 | 机器学习面试1000题系列(第196~200题)
七月在线实验室
17+阅读 · 2017年11月16日
BAT机器学习面试1000题系列(第76~80题)
七月在线实验室
5+阅读 · 2017年10月13日
BAT机器学习面试1000题系列(第51~55题)
七月在线实验室
10+阅读 · 2017年10月8日
Arxiv
18+阅读 · 2019年1月16日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
7+阅读 · 2019年1月8日
Neural Architecture Optimization
Arxiv
8+阅读 · 2018年9月5日
Arxiv
5+阅读 · 2018年6月12日
Arxiv
6+阅读 · 2018年4月24日
Arxiv
6+阅读 · 2018年4月23日
Arxiv
7+阅读 · 2018年3月22日
Arxiv
4+阅读 · 2018年1月29日
VIP会员
相关VIP内容
【经典书】机器学习:贝叶斯和优化方法,1075页pdf
专知会员服务
392+阅读 · 2020年6月8日
【经典书】贝叶斯编程,378页pdf,Bayesian Programming
专知会员服务
244+阅读 · 2020年5月18日
【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
40+阅读 · 2020年3月21日
机器学习速查手册,135页pdf
专知会员服务
336+阅读 · 2020年3月15日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
347+阅读 · 2020年2月15日
谷歌机器学习速成课程中文版pdf
专知会员服务
143+阅读 · 2019年12月4日
【机器学习课程】Google机器学习速成课程
专知会员服务
162+阅读 · 2019年12月2日
学习自然语言处理路线图
专知会员服务
133+阅读 · 2019年9月24日
相关资讯
BAT机器学习面试1000题(721~725题)
七月在线实验室
11+阅读 · 2018年12月18日
BAT机器学习面试1000题(716~720题)
七月在线实验室
19+阅读 · 2018年12月17日
BAT机器学习面试题1000题(376~380题)
七月在线实验室
9+阅读 · 2018年8月27日
BAT机器学习面试题1000题(331~335题)
七月在线实验室
12+阅读 · 2018年8月13日
BAT机器学习面试题1000题(316~320题)
七月在线实验室
14+阅读 · 2018年1月18日
机器学习面试题精讲(一)
七月在线实验室
4+阅读 · 2018年1月11日
BAT题库 | 机器学习面试1000题系列(第211~215题)
七月在线实验室
9+阅读 · 2017年11月22日
BAT题库 | 机器学习面试1000题系列(第196~200题)
七月在线实验室
17+阅读 · 2017年11月16日
BAT机器学习面试1000题系列(第76~80题)
七月在线实验室
5+阅读 · 2017年10月13日
BAT机器学习面试1000题系列(第51~55题)
七月在线实验室
10+阅读 · 2017年10月8日
相关论文
Arxiv
18+阅读 · 2019年1月16日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
7+阅读 · 2019年1月8日
Neural Architecture Optimization
Arxiv
8+阅读 · 2018年9月5日
Arxiv
5+阅读 · 2018年6月12日
Arxiv
6+阅读 · 2018年4月24日
Arxiv
6+阅读 · 2018年4月23日
Arxiv
7+阅读 · 2018年3月22日
Arxiv
4+阅读 · 2018年1月29日
Top
微信扫码咨询专知VIP会员