算法与理论是计算机科学的核心领域之一。随着大数据时代的来临,传统的算法理论已经不能很好地解决人工智能、 物联网、工业制造等领域所遇到的实际问题。本门课程主要介绍基于大数据的新型算法技术,如随机采样、数据降维、数据压缩、分布式计算、 流数据计算、聚类、分类、随机优化等,以及相关的理论和数学技巧,如概率计算方法、vc维、通信复杂度、机器学习、深度学习理论等。作为一门理论方向课程,帮助学生掌握解决大数据问题所需的理论和算法工具,为相关领域的工程实践打好基础。

课程简介ppt (pdf) 主成分分析 (pdf) JL-变换 (pdf) LSH(局部敏感哈希) (pdf) Product Quantization (pdf) VC-dimension (pdf) 聚类 (pdf) 分类 (pdf) Gilbert Algorithm (pdf) MaxCut (pdf)

成为VIP会员查看完整内容
1
47

相关内容

从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。

本书介绍了数据科学的数学和算法基础,包括机器学习、高维几何和大型网络的分析。主题包括高维数据的反直觉性质、重要的线性代数技术,如奇异值分解、随机游动和马尔科夫链理论、机器学习的基本原理和重要算法、聚类算法和分析、大型网络的概率模型、表示学习,包括主题建模和非负矩阵分解、小波和压缩感知。本文提出了一种正概率技术,包括大数定律、尾部不等式、随机投影分析、机器学习中的泛化保证以及分析大随机图相变的矩量法。此外,还讨论了重要的结构和复杂性度量,如矩阵范数和vc维。本书适用于设计和分析数据算法的本科和研究生课程。

成为VIP会员查看完整内容
0
20

本文介绍了一阶优化方法及其在机器学习中的应用。这不是一门关于机器学习的课程(特别是它不涉及建模和统计方面的考虑),它侧重于使用和分析可以扩展到具有大量参数的大型数据集和模型的廉价方法。这些方法都是围绕“梯度下降”的概念而变化的,因此梯度的计算起着主要的作用。本课程包括最优化问题的基本理论性质(特别是凸分析和一阶微分学)、梯度下降法、随机梯度法、自动微分、浅层和深层网络。

成为VIP会员查看完整内容
0
41

本文采用了一种独特的机器学习方法,它包含了对进行研究、开发产品、修补和玩耍所必需的所有基本概念的全新的、直观的、但又严谨的描述。通过优先考虑几何直观,算法思维,和实际应用的学科,包括计算机视觉,自然语言处理,经济学,神经科学,推荐系统,物理,和生物学,这篇文章为读者提供了一个清晰的理解基础材料以及实际工具需要解决现实世界的问题。通过深入的Python和基于MATLAB/ octave的计算练习,以及对前沿数值优化技术的完整处理,这是学生的基本资源,也是从事机器学习、计算机科学、电子工程、信号处理和数值优化的研究人员和实践者的理想参考。其他资源包括补充讨论主题、代码演示和练习,可以在官方教材网站mlrefined.com上找到。

  • 建立在清晰的几何直觉上的讲述
  • 最先进的数值优化技术的独特处理
  • 逻辑回归和支持向量机的融合介绍
  • 将功能设计和学习作为主要主题
  • 通过函数逼近的视角,先进主题的无与伦比的呈现
  • 深度神经网络和核方法的细化描述
成为VIP会员查看完整内容
0
55

课程内容:

  • 数学基础:矩阵、向量、Lp范数、范数的几何、对称性、正确定性、特征分解。无约束最优化,graident下降法,凸函数,拉格朗日乘子,线性最小二乘法。概率空间,随机变量,联合分布,多维高斯。

  • 线性分类器:线性判别分析,分离超平面,多类分类,贝叶斯决策规则,贝叶斯决策规则几何,线性回归,逻辑回归,感知机算法,支持向量机,非线性变换。

  • 鲁棒性:对抗性攻击、定向攻击和非定向攻击、最小距离攻击、最大允许攻击、基于规则的攻击。通过纳微扰。支持向量机的鲁棒性。

  • 学习理论:偏差和方差,训练和测试,泛化,PAC框架,Hoeffding不等式,VC维。

参考书籍:

  • Pattern Classification, by Duda, Hart and Stork, Wiley-Interscience; 2 edition, 2000.
  • Learning from Data, by Abu-Mostafa, Magdon-Ismail and Lin, AMLBook, 2012.
  • Elements of Statistical Learning, by Hastie, Tibshirani and Friedman, Springer, 2 edition, 2009.
  • Pattern Recognition and Machine Learning, by Bishop, Springer, 2006.

讲者: Stanley Chan 教授 https://engineering.purdue.edu/ChanGroup/stanleychan.html

课程目标: 您将能够应用基本的线性代数、概率和优化工具来解决机器学习问题

•你将了解一般监督学习方法的原理,并能评论它们的优缺点。 •你会知道处理数据不确定性的方法。 •您将能够使用学习理论的概念运行基本的诊断。 •您将获得机器学习算法编程的实际经验。

成为VIP会员查看完整内容
0
98

本文介绍了一阶优化方法及其在机器学习中的应用。这不是一门关于机器学习的课程(特别是它不涉及建模和统计方面的考虑),它侧重于使用和分析可以扩展到具有大量参数的大型数据集和模型的廉价方法。这些方法都是围绕“梯度下降”的概念而变化的,因此梯度的计算起着主要的作用。本课程包括最优化问题的基本理论性质(特别是凸分析和一阶微分学)、梯度下降法、随机梯度法、自动微分、浅层和深层网络。

成为VIP会员查看完整内容
0
54

** 简介:**

计算机科学作为一门学科开始于1960年代。重点放在支持这些领域的编程语言,编译器,操作系统和数学理论上。理论计算机科学课程涵盖了有限自动机,正则表达式,无上下文语言和可计算性。在1970年代,算法研究被添加为理论的重要组成部分。重点是使计算机变得有用。如今,正在发生根本性的变化,重点更多地放在大量应用程序上。发生此更改的原因很多。计算和通信的融合发挥了重要作用。在自然科学,商业和其他领域中观察,收集和存储数据的能力增强,要求改变我们对数据的理解以及如何在现代环境中处理数据。网络和社交网络作为日常生活的中心方面的出现给理论带来了机遇和挑战。 尽管计算机科学的传统领域仍然非常重要,但未来越来越多的研究者将使用计算机来理解和从应用程序中产生的大量数据中提取可用信息,而不仅仅是如何使计算机在明确定义的问题上有用。考虑到这一点,我们已经写了这本书,以涵盖我们期望在未来40年中有用的理论,就像对自动机理论,算法和相关主题的理解使学生在过去40年中获得了优势一样。主要变化之一是对概率,统计和数值方法的重视程度有所提高。 本书的早期草稿已用于本科和研究生课程。附录中提供了本科课程所需的背景材料。因此,附录存在作业问题。诸如信息处理,搜索和机器学习之类的不同领域中的现代数据通常被有利地表示为具有大量组件的向量。向量表示不仅是用于保存记录的许多字段的簿记设备。确实,向量的两个显着方面:几何(长度,点积,正交性等)和线性代数(独立性,秩,奇异值等)被证明是相关且有用的。

部分目录:

成为VIP会员查看完整内容
0
64

康奈尔大学Jon Kleinberg 与Éva Tardos 两位著名教授编著的算法设计《Algorithm Design》是关于算法经典的教科书。在普林斯顿大学wayne个人主页下配备了关于算法设计的相关课件,以及电子书864页pdf,值得查看学习。

算法设计通过观察激发算法的现实问题来引入算法。这本书教学生在计算应用中出现的问题的一系列设计和分析技术。本文鼓励对算法设计过程的理解和算法在更广泛的计算机科学领域的作用的欣赏。

目录:

Algorithm Design

  1. Representative Problems

  2. Algorithm Analysis

  3. Graphs

  4. Greedy Algorithms

  5. Divide and Conquer

  6. Dynamic Programming

  7. Network Flow

  8. Intractability

  9. PSPACE

  10. Limits of Tractability

  11. Approximation Algorithms

  12. Local Search

  13. Randomized Algorithms

Extra Topics

Data Structures

Linear Programming

算法设计课件

算法设计 电子书

成为VIP会员查看完整内容
0
106

简介: 宾夕法尼亚大学计算逻辑研究院Jean Gallier等人近期在之前发布的书的基础上进行修改,于2019年10月24日发布了一本长达753页的书籍,详细地列出了对机器学习等领域有重要意义的数学理论基础知识。近年来,计算机视觉、机器人、机器学习和数据科学一直是推动技术重大进步的一些关键领域。任何看过上述领域的论文或书籍的人都会被一个奇怪的术语所困扰,这些术语涉及核主成分分析、岭回归、lasso回归、支持向量机(SVM)、拉格朗日乘子、KKT条件等奇怪的术语。但人们很快就会发现,行话背后总是伴随着一个新的领域,背后隐藏着许多经典的“线性代数和优化理论技术”。我们面临的主要挑战是:要从机器学习、计算机视觉等方面了解和使用工具,必须具备线性代数和优化理论的坚实背景。

本书的主要目标是介绍线性代数和优化理论的基本原理,同时考虑到机器学习、机器人和计算机视觉的应用。这项工作由两部分组成,第一个是线性代数,第二个优化理论和应用,尤其是机器学习。 第一部分涉及经典的线性代数,包括主分解和Jordan形式。除了讨论标准的一些主题外,我们还讨论了一些对应用很重要的主题。这些主题包括:

  • Haar基和相应的Haar小波
  • Hadamard矩阵
  • Affine maps
  • 规范和矩阵规范
  • 向量空间中序列和序列的收敛性。矩阵指数e_A及其基本性质
  • The group of unit quaternions, SU(2), and the representation of rotations in SO(3) by unit quaternions
  • 代数与谱图论简介
  • SVD和伪逆的应用,尤其是主成分分析
  • 特征值和特征向量的计算方法,重点是QR算法

另外有比平常更详细介绍的四个主题:

  • Duality
  • Dual norms
  • The geometry of the orthogonal groups O(n) and SO(n), and of the unitary groups U(n) and SU(n)
  • 谱理论

作者介绍: Jean Gallier是宾夕法尼亚大学的教授,拥有法国和美国双国籍,1978年取得博士后学位就从事于计算机领域工作,发表过许多研究论文和书籍,其中《Computational geometry》、《Low-dimensional topology》、《Discrete mathematics》、《Discrete mathematics》等书籍的作者就是Jean Gallier

成为VIP会员查看完整内容
面向计算机视觉、机器人和机器学习的线性代数.pdf
0
39
Top