现代数据分析方法被期望处理大量的高维数据,这些数据被收集在不同的领域。这种数据的高维性带来了许多挑战,通常被称为“维数灾难”,这使得传统的统计学习方法在分析时不切实际或无效。为了应对这些挑战,人们投入了大量精力来开发几何数据分析方法,这些方法对处理数据的固有几何形状进行建模和捕获,而不是直接对它们的分布进行建模。在本课程中,我们将探讨这些方法,并提供他们使用的模型和算法的分析研究。我们将从考虑监督学习开始,并从后验和似然估计方法中区分基于几何原则的分类器。接下来,我们将考虑聚类数据的无监督学习任务和基于密度估计的对比方法,这些方法依赖于度量空间或图结构。最后,我们将考虑内在表示学习中更基本的任务,特别关注降维和流形学习,例如,使用扩散图,tSNE和PHATE。如果时间允许,我们将包括与本课程相关的研究领域的客座演讲,并讨论图形信号处理和几何深度学习的最新发展。

目录内容:

Topic 01 - Intoduction (incl. curse of dimensionality & overiew of data analysis tasks)

Topic 02 - Data Formalism ((incl. summary statistics, data types, preprocessing, and simple visualizations)

Topic 03 - Bayesian Classification (incl. decision boundaries, MLE, MAP, Bayes error rate, and Bayesian belief networks)

Topic 04 - Decision Trees (incl. random forests, random projections, and Johnson-Lindenstrauss lemma)

Topic 05 - Principal Component Analysis (incl. preprocessing & dimensionality reduction)

Topic 06 - Support Vector Machines (incl. the "kernel trick" & mercer kernels)

Topic 07 - Multidimensional Scaling (incl. spectral theorem & distance metrics)

Topic 08 - Density-based Clustering (incl. intro. to clustering & cluster eval. with RandIndex)

Topic 09 - Partitional Clustering (incl. lazy learners, kNN, voronoi partitions)

Topic 10 - Hierarchical Clustering (incl. large-scale & graph partitioning)

Topic 11 - Manifold Learning (incl. Isomap & LLE)

Topic 12 - Diffusion Maps

成为VIP会员查看完整内容
0
33

相关内容

该课程将发展数据科学的核心领域(如:模型的回归和分类)从几个角度:概念的形成和属性,解决算法及其实现,数据可视化的探索性数据分析和建模输出的有效表示。课程将以使用Python、scikit-learn和TensorFlow的实践课程作为补充。

引言 Introduction. Motivation, applications, examples, common data formats (csv, json), loading data with Python, calculating statistics over a dataset with numpy, logistics and overview of the course.

线性回归 Linear Regression. Defining a model, fitting a model, least squares regression, linear regression, gradient descent, scikit-learn.

Practical: Linear Regression

分类 Classification, part I. Classification, logistic regression, perceptron, multi-class classification, classification performance measures.

Practical: Classification I

Classification, part II. An overview of other classification techniques (e.g., decision trees, SVMs) and more advanced techniques including ensemble-based models (boosting, bagging, exemplified with AdaBoost and Random Forests).

Practical: Classification II

深度学习基础 Deep learning basics. Neural networks, applications in the world, optimization, stochastic gradient descent, backpropagation, learning rates

TensorFlow深度学习 Deep learning with TensorFlow. Introduction to TensorFlow, minimal TensorFlow example, symbolic graphs, training a network, practical tips for deep learning.

Practical: Deep learning with TensorFlow

深度学习架构 Deep learning architectures. Convolutional networks, RNNs, LSTMs, autoencoders, regularization.

Practical: Deep learning architectures

Visualization, part I. Scales and coordinates, depicting comparisons.

Visualization, part II. Common plotting patterns, including dimension reduction.

可视化 Practical: Visualization

Challenges in Data Science. Summary of the course, ethics and privacy in data science, P-hacking, look-everywhere effect, bias in the training data, interpretability, information about the hand out test.

https://www.cl.cam.ac.uk/teaching/1920/M20/materials.html

成为VIP会员查看完整内容
1
27

https://sites.google.com/view/ift6268-a2020/schedule

近年来,表示学习取得了很大的进展。大多数都是以所谓的自监督表示学习的形式。在本课程中,我们将对什么是自我监督的学习方法有一个相当广泛的解释,并在适当的时候包括一些无监督学习方法和监督学习方法。我们感兴趣的方法,学习有意义的和有效的语义表示,而不(专门)依赖标签数据。更具体地说,我们将对以下方法感兴趣,如: 数据增广任务,知识蒸馏,自蒸馏,迭代学习,对比方法 (DIM, CPC, MoCo, SimCLR等),BYOL,以及自监督方法的分析。

我们的目标是了解自监督学习方法是如何工作的,以及起作用的基本原理是什么。

这是一个关于这一主题的高级研讨会课程,因此,我们将阅读和讨论大量的最近的和经典的论文。讲座将主要由学生主导。我们假设了解了机器学习的基础知识 (特别是深度学习——正如你在IFT6135中看到的那样),我们还将探索自监督表示学习在广泛领域的应用,包括自然语言处理、计算机视觉和强化学习。

在本课程中,我们将广泛讨论自监督学习(SSL),特别是深度学习。最近,深度学习在许多应用领域取得了大量令人印象深刻的经验收益,其中最引人注目的是在目标识别和图像和语音识别的检测领域。

在本课程中,我们将探讨表示学习领域的最新进展。通过学生领导研讨会,我们将回顾最近的文献,并着眼于建立

本课程所涵盖的特定主题包括以下内容:

  • Engineering tasks for Computer Vision
  • Contrastive learning methods
  • Generative Methods
  • Bootstrap Your Own Latents (BYoL)
  • Self-distillation Methods
  • Self-training / Pseudo-labeling Methods
  • SSL for Natural Language Processing
  • Iterated Learning / Emergence of Compositional Structure
  • SSL for Video / Multi-modal data
  • The role of noise in representation learning
  • SSL for RL, control and planning
  • Analysis of Self-Supervised Methods
  • Theory of SSL
  • Unsupervised Domain Adaptation
成为VIP会员查看完整内容
1
64

因果学习

因果推理在许多领域都很重要,包括科学、决策制定和公共政策。确定因果关系的金标准方法使用随机控制扰动实验。然而,在许多情况下,这样的实验是昂贵的、耗时的或不可能的。从观察数据中获得因果信息是可替代的一种选择,也就是说,从通过观察感兴趣系统获得的数据中获得而不使其受到干预。在这次演讲中,我将讨论从观察数据中进行因果学习的方法,特别关注因果结构学习和变量选择的结合,目的是估计因果效果。我们将用例子来说明这些概念。

成为VIP会员查看完整内容
0
120

本课程探索了生成式模型的各种现代技术。生成模型是一个活跃的研究领域: 我们在本课程中讨论的大多数技术都是在过去10年发展起来的。本课程与当前的研究文献紧密结合,并提供阅读该领域最新发展的论文所需的背景。课程将集中于生成式建模技术的理论和数学基础。作业将包括分析练习和计算练习。本课程专题旨在提供一个机会,让你可以将这些想法应用到自己的研究中,或更深入地研究本课程所讨论的主题之一。

  • 自回归模型 Autoregressive Model
    • The NADE Framework
    • RNN/LSTM and Transformers
  • 变分自编码器 Variational Autoencoders
    • The Gaussian VAE
    • ConvNets and ResNets
    • Posterior Collapse
    • Discrete VAEs
  • 生成式对抗网络 Generative Adversarial Nets
    • f-GANs
    • Wasserstein GANs
    • Generative Sinkhorn Modeling
  • 生成流 Generative Flow
    • Autoregressive Flows
    • Invertible Networks
    • Neural Ordinary Differential Equations
  • 基于能量的模型 Energy-Based Models
    • Stein's Method and Score Matching
    • Langevin Dynamics and Diffusions

成为VIP会员查看完整内容
0
26

COMS 4771是一个研究生水平的机器学习入门。本课程涵盖监督机器学习的基本统计原理,以及一些常见的算法范例。

https://www.cs.columbia.edu/~djhsu/coms4771-f20/#description

主题:

  • Overview of machine learning
  • Nearest neighbors
  • Prediction theory
  • Regression I: Linear regression
  • Regression II: Regularization
  • Multivariate Gaussians and PCA
  • Regression III: Kernels
  • Classification I: Linear classification
  • Optimization I: Convex optimization
  • Classification II: Margins and SVMs
  • Classification III: Classification objectives
  • Optimization II: Neural networks
成为VIP会员查看完整内容
0
26

http://www.math.arizona.edu/∼hzhang/math574.html

随着信息技术的飞速发展,在各个领域产生了大量的科学和商业数据。例如,人类基因组数据库项目已经收集了千兆字节的人类遗传密码数据。万维网提供了另一个例子,它拥有由数百万人使用的文本和多媒体信息组成的数十亿Web页面。

本课程涵盖了现代数据科学技术,包括基本的统计学习理论及其应用。将介绍各种数据挖掘方法、算法和软件工具,重点在概念和计算方面。将涵盖生物信息学、基因组学、文本挖掘、社交网络等方面的应用。

本课程着重于现代机器学习的统计分析、方法论和理论。它是为学生谁想要实践先进的机器学习工具和算法,也了解理论原理和统计性质的算法。主题包括回归、分类、聚类、降维和高维分析。

成为VIP会员查看完整内容
0
53

本文为大家带来了一份斯坦福大学的最新课程CS236——深度生成模型,目前更新到第一课,感兴趣的同学可以多多关注,跟随学习。

生成式模型被广泛应用到人工智能和机器学习的诸多领域当中。最近,通过结合随机梯度下降的优化方法,使用深度神经网络参数化这些模型所取得的进展,已经使得对于包括图像,文本和语音在内的复杂,高维度数据建模成为可能。在本次课程中,我们将要学习深度生成式模型的概率基础和学习算法,包括自动编码器(AE)的各种变体,生成式对抗网络,自回归模型和标准化流模型(normalizing flow models)。本课程还将讨论从深度生成式模型中获益的应用领域,例如计算机视觉,语音,自然语言处理,图挖掘和强化学习。

成为VIP会员查看完整内容
0
38
小贴士
相关VIP内容
专知会员服务
27+阅读 · 2021年1月20日
专知会员服务
120+阅读 · 2020年12月12日
专知会员服务
26+阅读 · 2020年12月11日
专知会员服务
53+阅读 · 2020年8月30日
Yann Lecun 纽约大学《深度学习(PyTorch)》课程(2020)PPT
专知会员服务
135+阅读 · 2020年3月16日
专知会员服务
118+阅读 · 2020年1月16日
相关论文
Mark Helman,Dominique Laurain,Ronaldo Garcia,Dan Reznik
0+阅读 · 2021年2月21日
Sowmen Das,Arup Datta,Md. Saiful Islam,Md. Ruhul Amin
0+阅读 · 2021年2月18日
Quantum field-theoretic machine learning
Dimitrios Bachtis,Gert Aarts,Biagio Lucini
0+阅读 · 2021年2月18日
Claudio Gambella,Bissan Ghaddar,Joe Naoum-Sawaya
10+阅读 · 2019年1月16日
Parsimonious Bayesian deep networks
Mingyuan Zhou
3+阅读 · 2018年10月17日
Speeding-up Object Detection Training for Robotics with FALKON
Elisa Maiettini,Giulia Pasquale,Lorenzo Rosasco,Lorenzo Natale
6+阅读 · 2018年8月27日
Alexander Jung
15+阅读 · 2018年8月19日
Yong Wang,Xiao-Ming Wu,Qimai Li,Jiatao Gu,Wangmeng Xiang,Lei Zhang,Victor O. K. Li
9+阅读 · 2018年7月8日
Haiping Zhu,Qi Zhou,Junping Zhang,James Z. Wang
5+阅读 · 2018年4月8日
Top
微信扫码咨询专知VIP会员