机器学习面试概念重点汇总

2020 年 11 月 1 日 深度学习自然语言处理

点击上方,选择星标置顶,每天给你送干货

阅读大概需要6分钟

跟随小博主,每天进步一丢丢


机器学习

编辑:小舟

转自:机器之心

机器学习面试宝典,有这一本就够了。
在机器学习和数据科学岗位的面试中,机器学习领域的概念是经常考察的内容。一位近期经过 27 次 AI 领域面试(包括 Google 等大型公司和一些初创公司)的开发者根据自己的面试实战经验撰写了一份机器学习资料。

这份资料适用于机器学习初学者,包含机器学习中经典常用的基础概念。值得一提的是,每个章节的末尾还附带教程和练习题,帮助读者进一步掌握书中讲解的概念知识。


下载地址:https://www.confetti.ai/assets/ml-primer/ml_primer.pdf

这本书包括监督学习、机器学习实践、无监督学习和深度学习四章。

第一章:监督学习

该章节介绍了线性回归、logistic 回归、朴素贝叶斯、支持向量机、决策树和 K - 近邻算法。

线性回归

线性回归是最常见且使用范围最广的一种机器学习技术。它是一种非常直观的监督学习算法。顾名思义,线性回归是一种回归方法,这意味着它适用于标签是连续值(如室温)的情况。此外,线性回归试图寻求与线性数据的拟合。

logistic 回归

现实世界中绝大多数问题都涉及到分类,比如图像标注、垃圾邮件检测、预测明天是否为晴天等。这里介绍的第一个分类算法是 logistic 回归。

朴素贝叶斯

朴素贝叶斯是一种优秀的机器学习模型。它之所以优秀,是因为它的核心假设可以用一句话来描述,但它在许多问题中都很有效。在深入了解朴素贝叶斯之前,这里首先探讨了判别模型和生成模型这两种机器学习模型的区别。

支持向量机

这部分探讨了支持向量机这种分类算法。21 世纪初深度学习兴起之前,支持向量机是人工智能领域的主流技术。即使在今天,支持向量机依然是用于新分类任务的最佳算法之一。这是因为它具有表示数据中多种类型统计关系的能力,并且易于训练。

决策树

决策树是一种出色的模型,它不仅功能强大,而且易于解释。实际上,该模型的基础结构与人类做出决策的方式非常相似。一些机器学习开发者认为决策树在新的问题域上提供了最佳的开箱即用性能。

K - 近邻算法

K - 近邻算法是一种监督学习模型。它没有正式的训练程序,因此它在模型中显得有些异常。正因如此,K - 近邻算法是一个解释和实现都相对简单的模型。

第二章:机器学习实践

控制模型偏见

构建监督学习模型背后有哪些理论支撑呢?这里探讨了偏差 - 方差权衡,这是机器学习中最重要的原则之一。

如何选择模型

模型选择过程中有哪些细节?这通常需要评估多个模型的泛化误差。这里主要关注的是,如何使用现有数据和建立的模型来选择最佳模型,而不考虑模型的具体细节如何。

你需要什么特征

特征选择与模型选择紧密相关。

模型正则化

模型正则化在机器学习中极为重要,也是 AI 从业者最强大的工具之一。

模型集成

顾名思义,集成的核心思想是将一组模型组合在一起,以获得性能更高的模型,就像在管弦乐队中组合乐器一样。这一部分就讲述了如何在机器学习中获得和谐的「声音」。

模型评估

模型评估对于训练和交叉验证尤其重要。

无监督学习

购物篮分析

购物篮分析是无监督学习算法的一个示例,它要解决的问题是分析不同物品组合之间的关系及其在特定篮子中出现的频率。

K-Means 聚类算法

这一部分从数据聚类的角度进一步介绍了无监督学习。这里介绍了 K-means 聚类算法,这是 AI 从业者最常用的聚类算法之一。

主成分分析

主成分分析是这本资料介绍的首个数据降维技术。听起来有点复杂,但其核心降维技术是一个相当直观的想法。

深度学习

前馈神经网络

从前馈神经网络开始,作者开始深入探讨深度学习。由于深度学习主要是对神经网络的研究,因此在资料中作者也详细介绍了神经网络模型,首先就从前馈神经网络展开。

神经网络实践

上一节介绍了前馈神经网络的示例,但漏掉了一些细节,如激活函数、权重设置以及神经网络理论的其他方面。本节将对这些问题进行总结。

卷积神经网络

2012 年,来自多伦多大学的研究团队提出世界上第一个完全使用神经网络构建的图像识别系统 AlexNet,并在 ImageNet 竞赛中脱颖而出。这一里程碑事件对今天的人工智能浪潮起到推动作用,卷积神经网络架构是这一转折点的核心。

循环神经网络

卷积神经网络与视觉任务相关,而循环神经网络曾经是语言相关问题的标准模型。实际上,很长一段时间以来,自然语言研究者认为,循环网络能够在任何自然语言问题上取得 SOTA 结果。对于单个模型来说,这是很高的要求。但时至今日,循环神经网络仍然在自然语言任务上表现出色。

作者介绍


这本资料的作者是亚马逊 Alexa AI 的机器学习科学家 Mihail Eric,其主要研究方向是对话式人工智能。Mihail Eric 此前在斯坦福大学获得了计算机科学硕士学位。Mihail Eric 花了数年的时间建立面向目标的对话机器人,并从事计算语义和文本推断方面的研究。



  
  
    
下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套!
后台回复【五件套


下载二:南大模式识别PPT
后台回复南大模式识别



说个正事哈



由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:

(1)点击页面最上方深度学习自然语言处理”,进入公众号主页。

(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。

感谢支持,比心



投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等

记得备注呦


推荐两个专辑给大家:
专辑 | 李宏毅人类语言处理2020笔记
专辑 | NLP论文解读
专辑 | 情感分析

整理不易,还望给个在看!

登录查看更多
1

相关内容

线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w'x+e,e为误差服从均值为0的正态分布。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
最新《监督机器学习可解释性》2020大综述论文,74页pdf
专知会员服务
129+阅读 · 2020年11月19日
最新《机器学习:基本原理》2021新书,209页pdf
专知会员服务
130+阅读 · 2020年10月24日
机器学习的可解释性
专知会员服务
172+阅读 · 2020年8月27日
【普林斯顿】持续视角下的机器学习,31页ppt及视频
专知会员服务
23+阅读 · 2020年8月19日
打怪升级!2020机器学习工程师技术路线图
专知会员服务
96+阅读 · 2020年6月3日
Sklearn 与 TensorFlow 机器学习实用指南,385页pdf
专知会员服务
126+阅读 · 2020年3月15日
春招已近,这份GitHub万星的ML算法面试大全请收下
全球人工智能
4+阅读 · 2019年2月22日
BAT机器学习面试题1000题(376~380题)
七月在线实验室
9+阅读 · 2018年8月27日
BAT机器学习面试题1000题(331~335题)
七月在线实验室
12+阅读 · 2018年8月13日
【干货】数据科学与机器学习面试指南
专知
4+阅读 · 2018年5月1日
【干货】监督学习与无监督学习简介
专知
13+阅读 · 2018年4月4日
机器学习面试题精讲(一)
七月在线实验室
4+阅读 · 2018年1月11日
资源 |​ 史上最全机器学习笔记
AI100
9+阅读 · 2017年11月21日
从概念到案例:初学者须知的十大机器学习算法
算法与数学之美
7+阅读 · 2017年11月16日
BAT机器学习面试1000题系列(第116~120题)
七月在线实验室
16+阅读 · 2017年10月24日
干货 | 机器学习算法大总结(ML岗面试常考)
机器学习算法与Python学习
6+阅读 · 2017年8月1日
Arxiv
15+阅读 · 2020年2月5日
Knowledge Representation Learning: A Quantitative Review
Paraphrase Generation with Deep Reinforcement Learning
Arxiv
25+阅读 · 2018年8月19日
Learning to Focus when Ranking Answers
Arxiv
5+阅读 · 2018年8月8日
Bidirectional Attention for SQL Generation
Arxiv
4+阅读 · 2018年6月21日
VIP会员
相关VIP内容
最新《监督机器学习可解释性》2020大综述论文,74页pdf
专知会员服务
129+阅读 · 2020年11月19日
最新《机器学习:基本原理》2021新书,209页pdf
专知会员服务
130+阅读 · 2020年10月24日
机器学习的可解释性
专知会员服务
172+阅读 · 2020年8月27日
【普林斯顿】持续视角下的机器学习,31页ppt及视频
专知会员服务
23+阅读 · 2020年8月19日
打怪升级!2020机器学习工程师技术路线图
专知会员服务
96+阅读 · 2020年6月3日
Sklearn 与 TensorFlow 机器学习实用指南,385页pdf
专知会员服务
126+阅读 · 2020年3月15日
相关资讯
春招已近,这份GitHub万星的ML算法面试大全请收下
全球人工智能
4+阅读 · 2019年2月22日
BAT机器学习面试题1000题(376~380题)
七月在线实验室
9+阅读 · 2018年8月27日
BAT机器学习面试题1000题(331~335题)
七月在线实验室
12+阅读 · 2018年8月13日
【干货】数据科学与机器学习面试指南
专知
4+阅读 · 2018年5月1日
【干货】监督学习与无监督学习简介
专知
13+阅读 · 2018年4月4日
机器学习面试题精讲(一)
七月在线实验室
4+阅读 · 2018年1月11日
资源 |​ 史上最全机器学习笔记
AI100
9+阅读 · 2017年11月21日
从概念到案例:初学者须知的十大机器学习算法
算法与数学之美
7+阅读 · 2017年11月16日
BAT机器学习面试1000题系列(第116~120题)
七月在线实验室
16+阅读 · 2017年10月24日
干货 | 机器学习算法大总结(ML岗面试常考)
机器学习算法与Python学习
6+阅读 · 2017年8月1日
Top
微信扫码咨询专知VIP会员