每日三篇 | Kaggle数据科学术语大全;机器学习特征数据库;单机大数据处理

2018 年 12 月 9 日 论智

1

Kaggle数据科学术语大全

数据科学有太多算法和概念需要学习,Kaggle上有大量资源(超过20万Kaggle Kernel)。数据科学家Shivam Bansal整理了一份详尽的列表,囊括了Kaggle上的众多优质资源:回归、正则化、基于决策树的模型、神经网络和深度学习、聚类、朴素贝叶斯、SVM、K近邻、推荐引擎、预处理、降维、后建模、集成、文本处理、工具、可视化、时序,等等。

地址: https://www.kaggle.com/shivamb/data-science-glossary-on-kaggle-updated

2

EuclidesDB多模态机器学习特征嵌入数据库

多模态机器学习特征嵌入数据库EuclidesDB最近发布了0.2.0版。EuclidesDB提供了一个后端,供查询模型特征空间中的数据。EuclidesDB使用C++编写,基于protobuf实现数据序列化,基于gRPC通讯,深度支持PyTorch,实现了Annoy、Faiss等多种索引方法。

地址: https://euclidesdb.readthedocs.io/

3

Python for big data computation on a single computer

在日常电脑上进行大数据处理并非遥不可及。Turi Create这一优秀的Python库为此提供了便利的高层抽象。Turi Create使用SFrame作为基本数据结构。SFrame和Pandas的DataFrame很像,但支持核外计算。如果你的电脑配备了SSD,那么使用Turi Create在单台日常电脑上处理中等规模的数据集(100GB)效率不低。Yuxi Global数据分析主管Mateo Restrepo的这篇教程简明扼要地介绍了Turi Create的用法,值得一读。

地址:https://blog.usejournal.com/python-for-big-data-computation-on-a-single-computer-c232046df3c3

星标 论智,每天获取最新资讯

登录查看更多
1

相关内容

【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
190+阅读 · 2020年6月29日
【经典书】Python数据数据分析第二版,541页pdf
专知会员服务
189+阅读 · 2020年3月12日
【新书】傻瓜式入门深度学习,371页pdf
专知会员服务
183+阅读 · 2019年12月28日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
94+阅读 · 2019年12月4日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
140+阅读 · 2019年10月10日
21个必须知道的机器学习开源工具!
AI100
13+阅读 · 2019年9月13日
一文看懂怎么用 Python 做数据分析
大数据技术
23+阅读 · 2019年5月5日
数据科学、机器学习IDE概览
论智
9+阅读 · 2018年11月12日
Python中机器学习的特征选择工具
云栖社区
8+阅读 · 2018年7月16日
基于 Storm 的实时数据处理方案
开源中国
4+阅读 · 2018年3月15日
可视化多维数据的艺术
论智
10+阅读 · 2018年1月23日
28 款 GitHub 最流行的开源机器学习项目(附地址)
七月在线实验室
4+阅读 · 2017年12月18日
手写决策树
七月在线实验室
4+阅读 · 2017年9月20日
Arxiv
12+阅读 · 2018年9月5日
Arxiv
5+阅读 · 2018年6月5日
Arxiv
11+阅读 · 2018年1月11日
VIP会员
相关VIP内容
相关资讯
21个必须知道的机器学习开源工具!
AI100
13+阅读 · 2019年9月13日
一文看懂怎么用 Python 做数据分析
大数据技术
23+阅读 · 2019年5月5日
数据科学、机器学习IDE概览
论智
9+阅读 · 2018年11月12日
Python中机器学习的特征选择工具
云栖社区
8+阅读 · 2018年7月16日
基于 Storm 的实时数据处理方案
开源中国
4+阅读 · 2018年3月15日
可视化多维数据的艺术
论智
10+阅读 · 2018年1月23日
28 款 GitHub 最流行的开源机器学习项目(附地址)
七月在线实验室
4+阅读 · 2017年12月18日
手写决策树
七月在线实验室
4+阅读 · 2017年9月20日
Top
微信扫码咨询专知VIP会员