2020 Kaggle年度报告发布:美国公司最容易「人均百万」,90%数据科学家坚持终生学习

2020 年 12 月 16 日 机器之心

机器之心报道

作者:蛋酱、魔王
日,Kaggle 正式发布了 2020 年度报告,总共调查了 2 万多名开发者,但美国实体单上的个人 / 实体代表除外。


Kaggle 是重要的数据建模和数据分析竞赛平台。近日,Kaggle 发布了第四次年度报告,试图从中一窥社区趋势。该调查涉及 20036 名 Kaggle 会员,此报告主要聚焦其中当前职位为「数据科学家」的受访者,约占 13%(2675 名)。

值得注意的是,想要成为参与调查并获得所设奖项,必须满足以下条件:

  • 年满 18 岁(或满足你所居住地区的成年年龄);

  • 不是克里米亚、古巴、伊朗、叙利亚、朝鲜或苏丹的居民;

  • 不是受美国出口管控条例制裁的个人 / 实体代表。


因此,这份报告可能会缺少相当一部分来自中国的 Kaggle 数据科学家的情况。

在众多回答中,Kaggle 总结了以下要点:

群体画像

  • 数据科学领域仍然存在严重的性别不均衡,大部分从业人员为男性;

  • 大部分数据科学家年龄在 35 岁以下;

  • 过半数据科学家有硕士学位。


教育和雇佣情况

  • 大多数数据科学家在正式教育之外继续学习;

  • 大多数数据科学家码龄不超过十年;

  • 过半数据科学家具备三年以下的机器学习经验;

  • 美国的数据科学家比其他国家的同行挣更多钱。


技术

  • 与 2019 年的调查结果相比,2020 年更多的数据科学家使用云计算;

  • scikit-learn 是 2020 年最流行的机器学习工具,超过五分之四的数据科学家使用 scikit-learn;

  • Tableau 和 PowerBI 是最流行的商业智能工具。


下面,我们来看每个层面的具体细节。

数据科学家群体画像

性别

数据科学领域仍然存在较大的性别差距,82% 为男性,相比去年的 84%,略有下降。


年龄

与去年的调查结果类似,数据科学家多为 30 岁左右,约 60% 的受访者年龄在 22-34 岁,只有 1/5 的职业数据科学家是 40 岁及以上。


国家

在本次报告中,印度开发者所占的比例最多(21.8%),美国紧随其后(14.5%),再往下是巴西和英国。



教育

高等教育

数据科学家大多有硕士学位,68% 获得了硕士或博士文凭,不到 5% 的学历在高中及以下。


终生学习

数据科学和机器学习是快速变化的领域,90% 以上的 Kaggle 数据科学家保持终生学习的习惯。其中约 30% 接受的是传统高等教育课程,更多是通过线上材料学习。线上学习渠道中最常用的媒介是 Coursera、Udemy 和 Kaggle Learn。受访者中很多数据科学家选择多个学习渠道,平均数量为 2.8。


数据科学和机器学习经验

编程经验

大多数 Kaggle 数据科学家都有编程经验。有 20 年以上编程经验的数据科学家仅有大约 8%,去年才开始编程的数据科学家占比约 9%。只有不到 2% 表示自己从未写过代码。

与全球受访者相比,美国数据科学家的编程经验要多得多。在美国,编程经验超过 10 年的占比 27%,而全球范围内这一比例仅为 22%。


机器学习经验

大多数 Kaggle 数据科学家都是机器学习领域的新手。约 55% 的数据科学家机器学习经验不到三年,具备十年及以上机器学习经验的数据科学家占比不到 6%。


薪资水平

调查结果显示,在国家 / 地区的最常见工资中,美国公司可能支付的金额更高,德国和日本紧随其后。地区差别是存在的,比如来自印度的受访群体 90% 表示年收入不足 5 万美元,美国公司最有可能支付六位数的薪水。


技术

交互开发环境

基于 Jupyter 的 IDE 仍然是数据科学家的首选工具,大约 75% 的 Kaggle 数据科学家都在用它,但与去年的 83% 相比有所下降。VS Code 位居第二,仅占约 33%。这是它与 Visual  Studio 分离的第一年,两者今年合计占比超过 43%,而 2019 年不足 30%。


方法 & 算法

数据科学家最常用的算法是线性回归和 logistic 回归,紧随其后是决策树和随机森林。在更加复杂的方法中,梯度提升和卷积神经网络是最受欢迎的方法。


基于 Python 的工具仍然在机器学习框架这一项上占据主导,从统计结果可以看出,scikit-learn 适用于大部分项目,82.8% 的数据科学家都在使用它。各有 50% 左右的数据科学家使用过 TensorFlow 和 Keras,尤其是用于深度学习项目之中。

梯度提升库 xgboost 排名第四,使用率和 2019 年相似。排名第五的 PyTorch 从 2019 年的 26% 左右上升到了 30% 以上。在今年的调查中,最受欢迎的工具是基于 R 的 Tidymodels,占比达到 7% 以上。


企业云计算

这个领域有三个主要成员(不难猜),它们是 AWS、谷歌云平台、微软 Azure。值得注意的是,越来越多的数据科学家开始采用全部上云的方式。在 2019 年的调查中,大约 25% 的人没有使用云计算,但在 2020 年,这一比例下降到了 17%。


在云服务用户中,如果问到他们使用的特定产品,最常见的答案是计算云服务器,其次是无服务器技术,约有五分之一的人未提到云产品。

在使用 AWS 等云服务的用户中,有一半以上表示自己没有使用云上的机器学习工具,而使用的群体中,Amazon SageMaker 是最受欢迎的选项,其次是 Google Cloud AI/ML。

企业大数据

在数据库方面,数据科学家并没有明显的偏好。最常被提及的是 MySQL(35.6%),其次是 PostgreSQL (28.86%) 和 SQL Server (24.93%)。


报告链接:https://www.kaggle.com/c/kaggle-survey-2020


视觉模型核心难点攻破:小目标检测技术详解
「三小时AI开发进阶」公开课上线!本周四(12月17日)20:00,百度高级研发工程师可乐老师将在第一课《小目标检测技术详解》中介绍:
  • 发展原理:目标检测任务综述
  • 技术讲解:小目标检测场景定义、难点分析与相应算法讲解
  • 案例分析:货架挡板与电网巡检效果优化案例解析
  • 现场实战:基于EasyDL完成物体检测模型开发与部署
扫码进群听课 ,还有机会赢取100元京东卡、《智能经济》实体书、限量百度鼠标垫多重好奖!

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

登录查看更多
0

相关内容

专知会员服务
37+阅读 · 2021年5月7日
中国数字经济就业发展研究报告2021,43页pdf
专知会员服务
70+阅读 · 2021年3月27日
美国人工智能国家安全委员会发布最终报告, 130页pdf
专知会员服务
129+阅读 · 2021年3月2日
【机器学习术语宝典】机器学习中英文术语表
专知会员服务
59+阅读 · 2020年7月12日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
212+阅读 · 2020年2月21日
研招网官方:近五年考研数据统计!
材料科学与工程
7+阅读 · 2019年5月31日
一份数据科学家必备的技能清单(附资源)
THU数据派
7+阅读 · 2018年5月29日
30万只是白菜价!这些公司薪水超高!
七月在线实验室
5+阅读 · 2018年3月6日
数据挖掘与人工智能学习进阶指南
数据挖掘入门与实战
4+阅读 · 2018年1月19日
中国高校人工智能专业TOP10榜单及行业薪酬大曝光
人工智能机器人联盟
4+阅读 · 2017年9月17日
Python机器学习Kaggle案例实战
炼数成金订阅号
12+阅读 · 2017年8月10日
Arxiv
9+阅读 · 2020年10月29日
Stock Chart Pattern recognition with Deep Learning
Arxiv
6+阅读 · 2018年8月1日
Adversarial Reprogramming of Neural Networks
Arxiv
3+阅读 · 2018年6月28日
Arxiv
11+阅读 · 2018年4月25日
Arxiv
3+阅读 · 2018年4月10日
Arxiv
9+阅读 · 2018年1月4日
VIP会员
相关VIP内容
相关资讯
研招网官方:近五年考研数据统计!
材料科学与工程
7+阅读 · 2019年5月31日
一份数据科学家必备的技能清单(附资源)
THU数据派
7+阅读 · 2018年5月29日
30万只是白菜价!这些公司薪水超高!
七月在线实验室
5+阅读 · 2018年3月6日
数据挖掘与人工智能学习进阶指南
数据挖掘入门与实战
4+阅读 · 2018年1月19日
中国高校人工智能专业TOP10榜单及行业薪酬大曝光
人工智能机器人联盟
4+阅读 · 2017年9月17日
Python机器学习Kaggle案例实战
炼数成金订阅号
12+阅读 · 2017年8月10日
相关论文
Top
微信扫码咨询专知VIP会员