印度裔Kaggle大神自述:我是如何获得所有4个类别的Grandmaster

2020 年 11 月 6 日 量子位
杨净 发自 凹非寺
量子位 报道 | 公众号 QbitAI

Kaggle大神是如何炼成的?

最近,一个印度裔Kaggle大神在论坛上分享了他获得4个类别的Grandmaster的经历。

嗯,一共就只有四种。

可以看到,他的金牌总数加起来就有84枚,其中Discussion上获得了56枚,数据集这一类别的排名术最高,在27466个选手中位列第7位,最高排名为第6位。

在Competitions里,他共获得了4枚单人金牌和4枚团队金牌。

为此,他就发表了一篇博文回忆了过去一些印象深刻的项目,并感谢Kaggle给他这样一个平台:

我断断续续在Kaggle上跑了七年,这真是一段旅程。

Kaggle不仅仅是网站或竞赛。对于喜欢数据科学和机器学习的人来说,这是一生的经历。

除此之外,他还是一个数独爱好者,多次获得国家冠军,最高排名第8。

4个Kaggle Grandmaster的经历

首先是Competitions

在过去7年中,他共完成了56场比赛,他的最高成绩是4枚个人金牌和4枚团队金牌。

其中Santander、ASHRAE这几个金牌项目令他印象深刻。

Santander Product Recommendation,桑坦德产品推荐。(桑坦德,西班牙的一个银行)

这一挑战中,主要是根据客户过去的行为以及类似客户的行为,来预测现有客户下个月将使用哪些产品,进而将产品和人来匹配。

最终,共有1779支队伍参加,而他与另一位数据科学家合作@sudalairajkumar,排列第11位,摘得他第五枚金牌。

还有像ASHRAE,预测建筑物将消耗多少能量?Rossmann Store Sales,利用商店促销、竞争对手来分析销售情况等等。

作者认为,这是唯一具有意义的积分排名系统类别。他希望可以成为Kaggle以外的行业标准,使其更具价值。

然后是Datasets

作者表示,为数据集争取投票是最具挑战性任务之一。

因此,他就以对终端用户最有用、最为结构化的格式来准备数据集,并加以尽可能多的细节描述。

一些令人印象深刻的数据有这些:

  • 印度的空气质量:作者花了100小时来汇总、清理和准备这个数据集。

  • Chai Time Data Science Show(对ML专家的采访节目)每集的统计数据;

  • 女特级大师的国际象棋比赛(2009-2020年)。嗯,国际象棋是作者的最爱。

不过,在他发布的18个数据集当中,我还是发现了一些有趣的数据集。

比如,拜登的从2007年-2020年数据推特数。

SpaceX的数据(2006-2020)。

还有Notebooks

在比赛结束之前,作者是不会看公共EDA Notebook。一般是在完成自己深度EDA后再看别人的工作。

按照这样的方式,他就获得了15枚金牌,4枚银牌以及6枚铜牌,达到大师级别。

不过,他也感叹道,用Macbook Air赢得比赛的日子已经一去不复返了,但谁说不会再尝试了呢。

最后还有,Discussions


作为喜欢交流的他,除了获得以上成绩之外,他还对社区一些建议,

社区通过帖子的净投票来优先处理有用的讨论,并过滤掉垃圾信息,这一点做得很好。

我希望Datasets和Notebooks也能允许下拉投票,不被区别对待。

2020年亚洲数独锦标赛银牌得主

来介绍一下作者本作——Vopani,真名叫做Rohan Rao,来自印度,是H2O.ai的数据科学家,毕业于印度孟买理工学院应用统计学专业。

而H2O.ai是一家成立于2012年,总部位于硅谷的开源软件公,该公司拥有一个数据科学和机器学习的开源平台H2O。据介绍称,一半的世界五百强公司都在使用这个平台。

除此之外,他还是一个数独爱好者。

他曾获得7次全国数独冠军,5次全国拼图类冠军,4次时代数独国家冠军,2020年亚洲数独锦标赛银牌得主。

目前数独世界排名在第23名,最佳成绩到过第8名。


果然,优秀的人一定不只一个地方优秀。

好了,所以你身边有没有遇到Kaggle大神的经历,欢迎与我们分享。

参考链接:
https://www.kaggle.com/general/195396

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

榜单征集!7大奖项锁定AI TOP企业

「2020中国人工智能年度评选」报名中!评选将从公司、人物、产品、社区四大维度共7个奖项寻找优秀的AI企业,欢迎大家扫码报名参与。 
评选报名截止于11.20,并将于12月16日揭晓,也期待与百万从业者们,共同见证这些优秀企业的荣誉!


量子位 QbitAI · 头条号签约作者


վ'ᴗ' ի 追踪AI技术和产品新动态


一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~


登录查看更多
0

相关内容

【2020新书】金融机器学习和数据科学,400页pdf
专知会员服务
289+阅读 · 2020年12月13日
【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战,80页ppt
【MIT】硬负样本的对比学习
专知会员服务
39+阅读 · 2020年10月14日
专知会员服务
67+阅读 · 2020年7月21日
【2020新书】实战R语言4,323页pdf
专知会员服务
98+阅读 · 2020年7月1日
【Google-CMU】元伪标签的元学习,Meta Pseudo Labels
专知会员服务
31+阅读 · 2020年3月30日
跟Kaggle大神17枚金牌得主学NLP实战
新智元
7+阅读 · 2019年9月20日
Kaggle大神亲述:我是如何半年拿5次金牌晋升Grandmaster的?
机器学习算法与Python学习
14+阅读 · 2019年3月18日
Kaggle 新赛:第二届 YouTube-8M 视频理解挑战赛
AI研习社
10+阅读 · 2018年5月26日
应对时间序列问题有何妙招(Kaggle比赛亚军)
七月在线实验室
30+阅读 · 2018年3月19日
数据科学与机器学习数据集
Datartisan数据工匠
8+阅读 · 2017年12月14日
Kaggle入门手册
Datartisan数据工匠
14+阅读 · 2017年11月9日
视频 | 如何用 AI 预测股价?
AI研习社
5+阅读 · 2017年6月30日
ViZDoom Competitions: Playing Doom from Pixels
Arxiv
5+阅读 · 2018年9月10日
Arxiv
6+阅读 · 2018年2月7日
VIP会员
相关资讯
跟Kaggle大神17枚金牌得主学NLP实战
新智元
7+阅读 · 2019年9月20日
Kaggle大神亲述:我是如何半年拿5次金牌晋升Grandmaster的?
机器学习算法与Python学习
14+阅读 · 2019年3月18日
Kaggle 新赛:第二届 YouTube-8M 视频理解挑战赛
AI研习社
10+阅读 · 2018年5月26日
应对时间序列问题有何妙招(Kaggle比赛亚军)
七月在线实验室
30+阅读 · 2018年3月19日
数据科学与机器学习数据集
Datartisan数据工匠
8+阅读 · 2017年12月14日
Kaggle入门手册
Datartisan数据工匠
14+阅读 · 2017年11月9日
视频 | 如何用 AI 预测股价?
AI研习社
5+阅读 · 2017年6月30日
Top
微信扫码咨询专知VIP会员