当看到这些材料时,一个明显的问题可能会出现:“为什么还要写一本深度学习和自然语言处理的书呢?”一些优秀的论文已经出版,涵盖了深度学习的理论和实践方面,以及它在语言处理中的应用。然而,从我教授自然语言处理课程的经验来看,我认为,尽管这些书的质量非常好,但大多数都不是针对最有可能的读者。本书的目标读者是那些在机器学习和自然语言处理之外的领域有经验的人,并且他们的工作至少部分地依赖于对大量数据,特别是文本数据的自动化分析。这些专家可能包括社会科学家、政治科学家、生物医学科学家,甚至是对机器学习接触有限的计算机科学家和计算语言学家。

现有的深度学习和自然语言处理书籍通常分为两大阵营。第一个阵营专注于深度学习的理论基础。这对前面提到的读者肯定是有用的,因为在使用工具之前应该了解它的理论方面。然而,这些书倾向于假设一个典型的机器学习研究者的背景,因此,我经常看到没有这种背景的学生很快就迷失在这样的材料中。为了缓解这个问题,目前存在的第二种类型的书集中在机器学习从业者;也就是说,如何使用深度学习软件,而很少关注理论方面。我认为,关注实际方面同样是必要的,但还不够。考虑到深度学习框架和库已经变得相当复杂,由于理论上的误解而滥用它们的可能性很高。这个问题在我的课程中也很常见。

因此,本书旨在为自然语言处理的深度学习搭建理论和实践的桥梁。我涵盖了必要的理论背景,并假设读者有最少的机器学习背景。我的目标是让任何上过线性代数和微积分课程的人都能跟上理论材料。为了解决实际问题,本书包含了用于讨论的较简单算法的伪代码,以及用于较复杂体系结构的实际Python代码。任何上过Python编程课程的人都应该能够理解这些代码。读完这本书后,我希望读者能有必要的基础,立即开始构建真实世界的、实用的自然语言处理系统,并通过阅读有关这些主题的研究出版物来扩展他们的知识。

http://clulab.cs.arizona.edu/gentlenlp/gentlenlp-book-05172020.pdf

成为VIP会员查看完整内容
0
26

相关内容

机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

概率论起源于17世纪的法国,当时两位伟大的法国数学家,布莱斯·帕斯卡和皮埃尔·德·费马,对两个来自机会博弈的问题进行了通信。帕斯卡和费马解决的问题继续影响着惠更斯、伯努利和DeMoivre等早期研究者建立数学概率论。今天,概率论是一个建立良好的数学分支,应用于从音乐到物理的学术活动的每一个领域,也应用于日常经验,从天气预报到预测新的医疗方法的风险。

本文是为数学、物理和社会科学、工程和计算机科学的二、三、四年级学生开设的概率论入门课程而设计的。它提出了一个彻底的处理概率的想法和技术为一个牢固的理解的主题必要。文本可以用于各种课程长度、水平和重点领域。

在标准的一学期课程中,离散概率和连续概率都包括在内,学生必须先修两个学期的微积分,包括多重积分的介绍。第11章包含了关于马尔可夫链的材料,为了涵盖这一章,一些矩阵理论的知识是必要的。

文本也可以用于离散概率课程。材料被组织在这样一种方式,离散和连续的概率讨论是在一个独立的,但平行的方式,呈现。这种组织驱散了对概率过于严格或正式的观点,并提供了一些强大的教学价值,因为离散的讨论有时可以激发更抽象的连续的概率讨论。在离散概率课程中,学生应该先修一学期的微积分。

为了充分利用文中的计算材料和例子,假设或必要的计算背景很少。所有在文本中使用的程序都是用TrueBASIC、Maple和Mathematica语言编写的。

成为VIP会员查看完整内容
0
12

有很多关于傅里叶变换的书; 然而,很少有面向多学科读者的。为工程师写一本关于代数概念的书是一个真正的挑战,即使不是太难的事,也要比写一本关于理论应用的代数书更有挑战性。这就是本书试图面对的挑战。因此,每个读者都能够创建一个“按菜单”的程序,并从语句或计算机程序中提取特定元素,以建立他们在该领域的知识,或将其运用于更具体的问题。

本文叙述是非常详细的。读者可能偶尔需要一些关于有限组的高级概念,以及对组行为的熟悉程度。我强调了那些重要的定义和符号。例如,从多个角度(交换群、信号处理、非交换群)研究卷积的概念,每次都要放在它的背景知识中。因此,不同的段落,虽然遵循一个逻辑递进,有一个真正的统一,但可以根据自己需要选取阅读。

第一章用群论的语言来解释主要概念,并解释后面将用到的符号。第二章将所得结果应用于各种问题,并首次接触快速算法(例如Walsh 变换)。第三章对离散傅里叶变换进行了阐述。第四章介绍了离散傅里叶变换的各种应用,并构成了对前一章的必要补充,以充分理解所涉及的机制以及在实际情况中使用。第五章围绕傅里叶变换提出了更多新颖的思想和算法,产生了大量的应用。第六章需要一些更高级的知识,特别是对有限场理论的一些熟悉。它研究了有限域中的值变换,并给出了在校正码中的应用。最后两章(最困难的一章),具有更多的代数性质,并建议推广已经在有限非交换群的情况下进行的构造。第七章揭示了线性表示的理论。第八章和最后一章将这一理论应用于理论(群的简洁性研究)和实际(光谱分析)领域。

https://mathematical-tours.github.io/daft/

成为VIP会员查看完整内容
0
20

这本书的前半部分快速而彻底地概述了Python的所有基础知识。你不需要任何以前的经验与编程开始,我们将教你一切你需要知道,一步一步。

第二部分着重于用Python以实用的方式解决有趣的、真实的问题。一旦你掌握了基础知识,你就会通过跟随我们的动手编程练习和项目迅速提高。

我们在书中的每一页都精心安排了漂亮的排版,代码示例的语法高亮显示,以及教学截图,这样你可以有效地处理和记忆信息:

所有材料都是Python 3.9的最新版本,Python编程语言在2020年发布的最新和最好的版本。简而言之,以下是你将学到的Python基础知识:Python 3的实用介绍:

安装和运行Python:在Windows、macOS或Linux上设置Python 3.9编码环境

  • 核心Python 3概念和约定:解释器会话、脚本、查找和修复代码bug、如何组织代码和构造Python程序、如何有效地学习和实践

  • Python 3.9基本原理:变量、基本数据类型、函数和循环、条件逻辑和控制流、字符串格式、列表/元组/字典、文件输入和输出、错误处理。

  • 中级Python概念:面向对象编程(OOP)、正则表达式、名称空间和作用域、异常处理、安装第三方包。

  • Python的实际使用:创建和修改PDF文件、使用数据库、从web下载和抓取内容、数据科学基础(科学计算和绘图)、图形用户界面和GUI编程。

成为VIP会员查看完整内容
0
31

这是一本关于理论计算机科学的本科入门课程的教科书。这本书的教育目的是传达以下信息:

• 这种计算出现在各种自然和人为系统中,而不仅仅是现代的硅基计算机中。 • 类似地,除了作为一个极其重要的工具,计算也作为一个有用的镜头来描述自然,物理,数学,甚至社会概念。 • 许多不同计算模型的普遍性概念,以及代码和数据之间的二元性相关概念。 • 一个人可以精确地定义一个计算的数学模型,然后用它来证明(有时只是猜测)下界和不可能的结果。 • 现代理论计算机科学的一些令人惊讶的结果和发现,包括np完备性的流行、交互作用的力量、一方面的随机性的力量和另一方面的去随机化的可能性、在密码学中“为好的”使用硬度的能力,以及量子计算的迷人可能性。

成为VIP会员查看完整内容
0
38

自Goodfellow等人2014年开创性的工作以来,生成式对抗网(GAN)就受到了相当多的关注。这种关注导致了GANs的新思想、新技术和新应用的爆炸。为了更好地理解GANs,我们需要理解其背后的数学基础。本文试图从数学的角度对GANs进行概述。许多学数学的学生可能会发现关于GAN的论文更难以完全理解,因为大多数论文是从计算机科学和工程师的角度写的。这篇论文的目的是用他们更熟悉的语言来介绍GANs。

成为VIP会员查看完整内容
0
33

使用Python进行自然语言处理(NLP),学习如何设置健壮环境来执行文本分析。这第二版经历了一个重大的修改,并介绍了几个重要的变化和基于NLP的最新趋势的新主题。

您将了解如何在NLP中使用最新的、最先进的框架,以及机器学习和深度学习模型,用于Python支持的监督情感分析,以解决实际的案例研究。首先回顾Python中关于字符串和文本数据的NLP基础知识,然后讨论文本数据的工程表示方法,包括传统的统计模型和新的基于深度学习的嵌入模型。本文还讨论了解析和处理文本的改进技术和新方法。

文本摘要和主题模型已经全面修订,因此本书展示了如何在NIPS会议论文的兴趣数据集上下文中构建、调整和解释主题模型。此外,这本书涵盖了文本相似性技术与现实世界的电影推荐人的例子,以及情绪分析使用监督和非监督的技术。还有一章专门讨论语义分析,您将了解如何从头构建自己的命名实体识别(NER)系统。虽然该书的整体结构保持不变,但整个代码库、模块和章节都已更新到最新的Python 3。x版本。

你将学习

  • 理解NLP和文本的语法、语义和结构
  • 发现文本清理和功能工程
  • 回顾文本分类和文本聚类
  • 评估文本摘要和主题模型
  • 学习NLP的深度学习

这本书是给谁的

  • IT专业人员、数据分析师、开发人员、语言学专家、数据科学家和工程师,以及任何对语言学、分析和从文本数据中产生见解有浓厚兴趣的人。
成为VIP会员查看完整内容
0
63

本备忘单是机器学习手册的浓缩版,包含了许多关于机器学习的经典方程和图表,旨在帮助您快速回忆起机器学习中的知识和思想。

这个备忘单有两个显著的优点:

  1. 清晰的符号。数学公式使用了许多令人困惑的符号。例如,X可以是一个集合,一个随机变量,或者一个矩阵。这是非常混乱的,使读者很难理解数学公式的意义。本备忘单试图规范符号的使用,所有符号都有明确的预先定义,请参见小节。

  2. 更少的思维跳跃。在许多机器学习的书籍中,作者省略了数学证明过程中的一些中间步骤,这可能会节省一些空间,但是会给读者理解这个公式带来困难,读者会在中间迷失。

成为VIP会员查看完整内容
0
106

机器学习有很多名称,如机器学习、人工智能、模式识别、数据挖掘、数据同化和大数据等等。它在许多科学领域都有发展,比如物理学、工程学、计算机科学和数学。例如,它被用于垃圾邮件过滤、光学字符识别(OCR)、搜索引擎、计算机视觉、自然语言处理(NLP)、广告、欺诈检测、机器人技术、数据预测、材料发现、天文学。这使得有时在文献中很难找到一个特定问题的解决方案,仅仅是因为不同的单词和短语用于同一个概念。

这本书旨在缓解这一问题。一个共同的概念,但已知在几个学科不同的名称,是描述使用数学作为共同的语言。读者会发现索引对他们所知的特定主题有用。该索引是全面的,使它很容易找到所需的信息。希望这本书能成为有用的参考书,并成为任何使用机器学习技术的人书架上的必备品

这本书的重点是为什么——只有当一个算法是成功的被理解的时候,它才能被正确的应用,并且结果是可信的。算法经常被并排讲授,却没有显示出它们之间的异同。这本书解决了共性,并旨在给一个彻底和深入的处理和发展直觉,同时保持简洁。

对于任何使用机器学习技术的人来说,这本有用的参考书应该是必备的。

课件:

成为VIP会员查看完整内容
0
166

斯坦福大学Stephen Boyd教授与加州大学Lieven Vandenberghe教授合著的应用线性代数导论:向量、矩阵和最小二乘法《Introduction to Applied Linear Algebra – Vectors, Matrices, and Least Squares》在2018年由剑桥大学出版社发行,开源书包含19章,473页pdf,这本书的目的是提供一个介绍向量,矩阵,最小二乘方法,应用线性代数的基本主题。目标是让学生通俗易懂,入门学习。让学习者了解在包括数据拟合、机器学习和人工智能,断层、导航、图像处理、金融、和自动控制系统的应用。是一本不可多得好教材。​

Stephen P. Boyd是斯坦福大学电子工程Samsung 教授,信息系统实验室电子工程教授,斯坦福大学电子工程系系主任。他在管理科学与工程系和计算机科学系任职,是计算与数学工程研究所的成员。他目前的研究重点是凸优化在控制、信号处理、机器学习和金融方面的应用。 https://web.stanford.edu/~boyd/

Lieven Vandenberghe,美国加州大学洛杉矶分校电子与计算机工程系和数学系教授

这本书的目的是提供一个介绍向量,矩阵,最小二乘方法,应用线性代数的基本主题。我们的目标是让很少或根本没有接触过线性代数的学生快速学习,以及对如何使用它们在许多应用程序中, 包括数据拟合、机器学习和人工智能, 断层、导航、图像处理、金融、和自动控制系统。

读者所需要的背景知识是熟悉基本的数学符号。我们只在少数地方使用微积分,但它并不是一个关键的角色,也不是一个严格的先决条件。虽然这本书涵盖了许多传统上作为概率和统计的一部分来教授的话题,比如如何将数学模型与数据相匹配,但它并不需要概率和统计方面的知识或背景。

这本书涉及的数学比应用线性代数的典型文本还少。我们只使用线性代数中的一个理论概念,线性无关,和一个计算工具,QR分解;我们处理大多数应用程序的方法只依赖于一种方法,即最小二乘(或某种扩展)。从这个意义上说,我们的目标是知识经济:仅用一些基本的数学思想、概念和方法,我们就涵盖了许多应用。然而,我们所提供的数学是完整的,因为我们仔细地证明了每一个数学命题。然而,与大多数介绍性的线性代数文本不同,我们描述了许多应用程序,包括一些通常被认为是高级主题的应用程序,如文档分类、控制、状态估计和组合优化。

这本书分为三部分。第一部分向读者介绍向量,以及各种向量运算和函数,如加法、内积、距离和角度。我们还将描述如何在应用程序中使用向量来表示文档中的字数、时间序列、病人的属性、产品的销售、音轨、图像或投资组合。第二部分对矩阵也做了同样的处理,最终以矩阵的逆和求解线性方程的方法结束。第三部分,关于最小二乘,是回报,至少在应用方面。我们展示了近似求解一组超定方程的简单而自然的思想,以及对这一基本思想的一些扩展,可以用来解决许多实际问题。

成为VIP会员查看完整内容
0
123
小贴士
相关VIP内容
专知会员服务
12+阅读 · 11月25日
专知会员服务
20+阅读 · 11月2日
专知会员服务
31+阅读 · 10月11日
专知会员服务
38+阅读 · 9月17日
专知会员服务
33+阅读 · 9月3日
机器学习速查手册,135页pdf
专知会员服务
106+阅读 · 3月15日
【2020新书】简明机器学习导论,电子书与500页PPT
相关论文
Maxime Pietrantoni,Boris Chidlovskii,Tomi Silander
0+阅读 · 11月23日
Anik Das,Sumaiya Amin,Muhammad Ashad Kabir,Md. Sabir Hossain,Mohammad Mainul Islam
0+阅读 · 11月20日
Dongruo Zhou,Jiahao Chen,Quanquan Gu
0+阅读 · 11月19日
Tiffany Fan,Kailai Xu,Jay Pathak,Eric Darve
0+阅读 · 11月18日
Advances in Natural Language Question Answering: A Review
K. S. D. Ishwari,A. K. R. R. Aneeze,S. Sudheesan,H. J. D. A. Karunaratne,A. Nugaliyadde,Y. Mallawarrachchi
3+阅读 · 2019年4月10日
Antoine J. -P. Tixier
10+阅读 · 2018年8月30日
Sandeep Subramanian,Tong Wang,Xingdi Yuan,Saizheng Zhang,Yoshua Bengio,Adam Trischler
4+阅读 · 2018年5月30日
Yu-Xiong Wang,Ross Girshick,Martial Hebert,Bharath Hariharan
14+阅读 · 2018年4月3日
Yann N. Dauphin,Angela Fan,Michael Auli,David Grangier
5+阅读 · 2017年9月8日
Top