上线数天获2400星,这个GitHub项目帮你从头开始学习数据科学

2021 年 2 月 7 日 机器之心

机器之心报道

作者:魔王、陈萍
头开始学习数据科学的免费资源

如何入门数据科学?

这个 GitHub 项目提供了一份免费学习资源,既包括超详细的学习路线图,又涵盖多个免费线上课程、大量数据科学项目和 100 多本免费机器学习书籍,项目上线数天即获得 2.4k 星。


项目地址:https://github.com/therealsreehari/Learn-Datascience-for-Free#5_-expressions

该项目收集了散布在网络上的不同资源,并按照一定的顺序进行组合,以帮助数据科学初学者解决如何搜索免费和结构化学习资源的问题。项目作者表示,该项目将基于新的免费资源持续更新。

数据科学家学习路线图


「磨刀不误砍柴工。」该项目首先详细介绍了一份数据科学路线图,罗列了数据科学学习者需要掌握的内容:

  • 基础知识(矩阵和代数基础等);

  • 统计学(概率论、贝叶斯定理等);

  • 编程;

  • 机器学习;

  • 文本挖掘 / 自然语言处理;

  • 数据可视化;

  • 大数据;

  • 数据获取;

  • 数据再加工(Data Munging);

  • 工具箱。


成为数据科学家需要掌握的基础知识

在成为数据科学家之前,你需要掌握关于矩阵的理论知识,了解其操作方式,熟悉矩阵的各种变换。项目作者还向我们介绍了多种数据结构,包括哈希函数、二叉树等。

以二叉树为例,项目作者解释了什么是二叉树:「在计算机科学中,二叉树是一种树数据结构,其中每个节点最多具有两个子节点,称为左子节点和右子节点。」

二叉树

除了矩阵知识以外,数据科学初学者还需掌握关系代数、数据库基础知识、CAP 原理、ETL 等多达十多个知识点(有些部分还在更新中)。

统计学

该项目介绍了许多关于统计学的知识,包括数据集的选择、描述性统计、探索性数据分析、直方图、概率论、贝叶斯定理等内容。

以探索性数据分析为例,项目作者从数据的可视化和分析两方面着手,向我们介绍了完成整个数据分析任务需要的开发环境、依赖库、安装方式以及分析方式。

在数据可视化方面,项目作者介绍了三个数据可视化库 Matplotlib、Pandas、Seaborn,每个库都有相应的链接,点击链接即可进入相应的网页进行查看。

点击 Seaborn 链接,可进入 Seaborn 主页,该图为链接到的主页内容。

在数据分析方面,项目作者介绍了 PCA 降维方法,帮助学习者了解什么是主成分分析,以及如何在 Python 中实现。

编程

成为数据科学家离不开编程,该项目介绍了需要掌握的编程语言 Python、R setup/R studio 等内容。以 R setup / R studio 为例,项目作者介绍了两种安装方式 Linux、Windows。但是本部分内容还有许多待补充知识。

待补充内容

机器学习

该项目还列举了掌握数据科学需要了解的机器学习知识,包括数值变量、分类变量、监督学习、无监督学习、训练集和测试集、分类器、过拟合、偏差和方差、支持向量机等 30 项内容。

以支持向量机为例,项目作者首先介绍了支持向量机的作用——可用于分类和回归任务,接着用简单明了的语言解释了支持向量机的原理。此外,项目作者还列举了关于支持向量机的其他知识,读者可通过链接自行学习。

支持向量机

除了上述介绍的内容外,项目作者还整理了文本挖掘、数据可视化等内容,此处不再赘述。

免费线上课程

该项目基于 GitHub 用户 Developer-Y 的项目整理了大量线上免费课程的资源,包括人工智能、机器学习、机器人学三个主要部分。其中机器学习部分又细分为机器学习导论、数据挖掘、数据科学、概率图模型、深度学习、强化学习、进阶版机器学习课程、基于机器学习的自然语言处理与计算机视觉、时序分析、概率与统计学、线性代数等。

该项目提供的免费线上课程列表部分截图。

从该项目列表中,我们可以看到熟悉的吴恩达机器学习课程,以及来自卡内基梅隆大学、斯坦福大学、苏黎世联邦理工学院、加州大学伯克利分校、微软等机构的丰富课程资源。

人工智能开源项目

此外,该项目还罗列了大量人工智能开源项目,涵盖机器学习、深度学习、自然语言处理、计算机视觉这些领域。

这一资源来自 AI 研究者、数据科学家 Ashish Patel 创建的 GitHub 库,目前包含 71 个条目,点开链接即可获取相应的项目和代码资源。

项目列表部分截图。

从目前的列表中,我们可以看到它包括目标检测、聊天机器人、GUI、无监督学习、回归分析、情感分析、推荐系统、数据科学、NLP、计算机视觉等细分领域的相关项目资源。盖列表将持续更新。

100+ 免费机器学习书籍

项目作者整理了一份来自 Insane 的机器学习书籍列表文章。该列表在 2021 年 1 月份刚刚更新过,包括我们熟悉的「花书」《深度学习》,以及主题为图算法、自然语言处理、数据挖掘、GAN、Python 等的书籍。

图源:https://www.theinsaneapp.com/2020/12/download-free-machine-learning-books.html

项目作者表示,希望这些免费资源能够帮助到无法支付教育费用的人们,从头开始掌握数据科学。

2021年 2 月的第一周,机器之心将携手二十余位 AI 人耳熟能详的重磅嘉宾进行在线直播,通过圆桌探讨、趋势Talk,报告解读及案例分享等形式,为关注人工智能产业发展趋势的AI人解读技术演进趋势,共同探究产业发展脉络。连续七天,精彩不停。

添加机器之心Pro小助手(syncedai 或 syncedproii),备注「2021」,进群一起看直播。

登录查看更多
0

相关内容

数据科学(英語:data science)是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。 它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。 数据科学通过运用各种相关的数据来帮助非专业人士理解问题。
【干货书】数据科学手册,456页pdf
专知会员服务
145+阅读 · 2021年4月27日
专知会员服务
90+阅读 · 2020年12月26日
【干货书】Python数据科学入门,464页pdf
专知会员服务
71+阅读 · 2020年9月20日
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
190+阅读 · 2020年6月29日
【实用书】Python数据科学从零开始,330页pdf
专知会员服务
139+阅读 · 2020年5月19日
Python导论,476页pdf,现代Python计算
专知会员服务
254+阅读 · 2020年5月17日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
160+阅读 · 2020年5月14日
【资源】100+本免费数据科学书
专知会员服务
105+阅读 · 2020年3月17日
最全Python算法实现资源汇总!
AI100
3+阅读 · 2019年5月13日
这个开源项目有意思,用动画教你学算法
算法与数据结构
4+阅读 · 2018年12月27日
最全数据科学学习资源:Python、线性代数、机器学习...
人工智能头条
10+阅读 · 2018年5月14日
GitHub上12月份最热门开源项目
程序猿
4+阅读 · 2018年1月9日
独家 | 这15个最热门的GitHub库你不可错过!
数据派THU
3+阅读 · 2018年1月5日
28 款 GitHub 最流行的开源机器学习项目(附地址)
七月在线实验室
4+阅读 · 2017年12月18日
Arxiv
49+阅读 · 2020年12月16日
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Arxiv
3+阅读 · 2019年11月28日
Arxiv
3+阅读 · 2018年12月18日
Arxiv
4+阅读 · 2017年4月12日
VIP会员
相关VIP内容
【干货书】数据科学手册,456页pdf
专知会员服务
145+阅读 · 2021年4月27日
专知会员服务
90+阅读 · 2020年12月26日
【干货书】Python数据科学入门,464页pdf
专知会员服务
71+阅读 · 2020年9月20日
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
190+阅读 · 2020年6月29日
【实用书】Python数据科学从零开始,330页pdf
专知会员服务
139+阅读 · 2020年5月19日
Python导论,476页pdf,现代Python计算
专知会员服务
254+阅读 · 2020年5月17日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
160+阅读 · 2020年5月14日
【资源】100+本免费数据科学书
专知会员服务
105+阅读 · 2020年3月17日
相关资讯
最全Python算法实现资源汇总!
AI100
3+阅读 · 2019年5月13日
这个开源项目有意思,用动画教你学算法
算法与数据结构
4+阅读 · 2018年12月27日
最全数据科学学习资源:Python、线性代数、机器学习...
人工智能头条
10+阅读 · 2018年5月14日
GitHub上12月份最热门开源项目
程序猿
4+阅读 · 2018年1月9日
独家 | 这15个最热门的GitHub库你不可错过!
数据派THU
3+阅读 · 2018年1月5日
28 款 GitHub 最流行的开源机器学习项目(附地址)
七月在线实验室
4+阅读 · 2017年12月18日
相关论文
Arxiv
49+阅读 · 2020年12月16日
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Arxiv
3+阅读 · 2019年11月28日
Arxiv
3+阅读 · 2018年12月18日
Arxiv
4+阅读 · 2017年4月12日
Top
微信扫码咨询专知VIP会员