中国最好的AI竞赛落幕,我们整理了一份夺宝攻略

2018 年 12 月 20 日 量子位
安妮 发自 凹非寺
量子位 出品 | 公众号 QbitAI

昨天,第二届AI Challenger 2018全球AI挑战赛(后称“AIC”)收官。

相比第一届,今年比赛发布了10个全新赛道,并且在创新工场、搜狗、美团点评,美图公司等主办方推动下,涉足领域更广、数据规模更大,丰富性也更高,10个数据集均在业内首屈一指。

即便AIC还“很年轻”,但无论从数据集规模质量,还是竞赛影响力来看,确已是国内最好的AI竞赛。

今年,他们掀起了更大的风暴。

最终,获奖团队从来自全球81个国家,1000多个大学和公司的过万支参赛团队中脱颖而出,每个赛道各有5组团队获奖。也就是他们,共同瓜分了300万元的奖池

千军万马中,获奖的为什么是他们?

量子位采访了几位名次奖金双丰收的获奖选手,手把手教你AI竞赛的通关秘籍

 获奖选手在颁奖典礼上合影

获奖攻略

1、时间准备:只睡4小时是常态

报名一个AI比赛前,需要提前为自己预留出多少时间?

可能是业余生活的全部

张礼是新加坡Agoda(安可达)的一名数据科学从业者,这次取得了细粒度用户评论情感分析赛道的第四名。

和大多数参赛团队略有不同,张礼单枪匹马选择一人参加竞赛,压力和任务也比多人团战来得更猛烈一些。

张礼表示,从8月底到12月,几乎所有业余时间都花在了这次比赛上。朝九晚六的工作后回到家,每天为竞赛忙到凌晨两三点是常事,每天几乎只睡4个小时。

短视频实时分类赛道的冠军团队Against的选手于佳弘说,团队三个人都来自网易AI Lab,每天还需要正常工作,3人只能牺牲周末的休息时间来准备比赛了。

2、比赛报名:单枪匹马还是人多力大?

在这次AIC比赛中,三人团是最常见的参赛队组成,但也有一些“一个选手的团队”。

四川大学机器智能实验室的博士生胡俊杰是眼底水肿病变区域自动分割赛道的亚军,他觉得单枪匹马与团队参赛各有优劣,自己一个人完成项目反而让他精力更集中。

但一人团也并不代表需要孤军奋战。

细粒度赛道的张礼表示,比赛后期会遇到瓶颈时,经常和AIC的选手群中的其他选手交流,这种类似“社区”概念的微信群,承载了各个选手的思维火花,和同赛道其他团队的交流给了他很大帮助。

3、比赛前期:数据集筛选是法宝

拿到数据集的第一步,应该立马就开始搭建模型吗?

错了,英中文本机器翻译赛道的冠军团队的第一步,是理解数据集。

团队成员郭馨泽现在是金山软件AI Lab中的一名算法工程师,他表示对于机器翻译这一赛道,后期各个团队模型和框架相差已经不大,自己团队脱颖而出和理解数据集较为透彻有关。

郭馨泽认为,首先需要对翻译赛道的1300万个语句对进行抽样检查。对于翻译错的数据,先对其进行剔除,再进行下一步处理,透彻理解数据本身是他们的经验。

4、比赛中期:通读行业论文化解了瓶颈

前期的三分钟热情过去后,瓶颈通常伴随着冷静赶来,此时怎么办?

细粒度赛道的张礼认为,NLP领域推陈出新速度快,要想在AI竞赛中拿到好成绩,一定要时刻关注前沿技术。

张礼几乎看遍了所在领域近两年的所有创新突破论文,想将最这些新方法用到自己的模型里。

在此次比赛中,他将词嵌入技术领域的最新模型ELMo模型应用进去,成绩开始稳定提升。

5、比赛后期:优化代码胜过创新型的模型

和实验室的研究不同,本次AIC的落脚点在“用AI解决真实世界的问题”,所以,对工程实践具体情况的理解也是致胜法宝之一。

中科院自动化所的博士生赵旭所在的SeeLess团队获得了无人驾驶视觉感知的冠军,赵旭表示,自动驾驶方向的赛题评判标准有两部分,一是准确度,二是在实验室研究中很容易忽略的速度。

在测试和实际运行时,能否实现实时性的检测是很多选手比赛前未考虑过的,这次比赛也让团队认识到基础研究更要考虑工程实践的具体情况。

南京理工大学的李剑所在的Amadeus队是本次比赛自动驾驶赛道的第四名。

李剑表示,AIC特别注意培养参赛者的工程能力,一定要做好反复修改的心理准备,学术界的创造能力固然重要,但代码的优化在比赛中更为看重,李剑表示。

6、比赛答辩:多用图表就对了

万千努力,都在最后的答辩环节集中呈现。这十几分钟的表现怎样,就变得尤为重要。

针对最后的答辩环节,南京理工大学的李剑认为答辩时应该特别注意呈现对比实验和对比数据,多用图表的形式展示在基准之上的量化改变。

一句话总结:用数据说话,胜过千言万语。

大咖总结:应用才是机会

主办方介绍,从今年大赛的参赛情况来看,中国AI热度正在快速攀升,随着各项AI技术的不断成熟以及各类应用场景的落地,越来越多的人选择拥抱AI热潮。

本届AI Challenger在全球共有10000多支团队参赛,其中美团点评NLP中心提出的”细粒度用户情感分析”赛道最受欢迎,参赛队伍数量最多。

截至目前,AI Challenger平台用户超过30000名,覆盖国家增至81个,覆盖高校1100所,覆盖公司990家。2018年AI Challenger平台用户增长了170%。

其中,北京、上海、深圳是中国参赛人数最多的TOP 3城市,国际参赛TOP 3城市分别是美国、日本、新加坡。

答辩暨颁奖典礼现场,创新工场董事长兼CEO李开复表示,现阶段高校AI研究的最大限制,往往就是数据不够。

李开复认为,AI研究对数据的需求越多越好,本着开放、透明的原则做研究,才能站在巨人的肩膀上看得更远,这也是AIC设立的初衷。

 李开复

李开复也讲了讲赛题设计的考量,即科研固然重要,但应用才是最大的机会,所以这次竞赛的评分体系看重最终结果如何。

搜狗CEO王小川认为,在本次AIC中发现一些AI解决中国特有问题的实例。就如翻译赛道,对于中国人来说,和全世界沟通有量全球讲英文或者全球讲中文,二者都不太现实。AI的机会就在于此,对中国有特别的意义。

 王小川

王小川表示,做好“体制内”和“体制外”研究的连接是中国特有的优势,这次比赛的气象局的数据,也能帮体制内探索新的路径,对中国AI的发展也有促进作用。

王小川认为,这也是AIC的意义之一。

One More Thing

最后,附上本次大赛获奖团队完整名单:

创新工场人工智能工程院执行院长王咏刚表示,明年的AIC已经开始筹备了。

我们明年见。

作者系网易新闻·网易号“各有态度”签约作者



活动报名

加入社群

量子位AI社群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;


此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。


进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

登录查看更多
0

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
专知会员服务
39+阅读 · 2020年6月19日
【哈佛《CS50 Python人工智能入门》课程 (2020)】
专知会员服务
109+阅读 · 2020年4月12日
报告 | 2020中国5G经济报告,100页pdf
专知会员服务
97+阅读 · 2019年12月29日
2019中国硬科技发展白皮书 193页
专知会员服务
78+阅读 · 2019年12月13日
【机器学习课程】Google机器学习速成课程
专知会员服务
162+阅读 · 2019年12月2日
2019语言与智能技术竞赛报名开启
中国计算机学会
16+阅读 · 2019年2月26日
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Arxiv
14+阅读 · 2020年1月27日
Arxiv
5+阅读 · 2019年10月31日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
5+阅读 · 2018年6月5日
VIP会员
相关VIP内容
专知会员服务
39+阅读 · 2020年6月19日
【哈佛《CS50 Python人工智能入门》课程 (2020)】
专知会员服务
109+阅读 · 2020年4月12日
报告 | 2020中国5G经济报告,100页pdf
专知会员服务
97+阅读 · 2019年12月29日
2019中国硬科技发展白皮书 193页
专知会员服务
78+阅读 · 2019年12月13日
【机器学习课程】Google机器学习速成课程
专知会员服务
162+阅读 · 2019年12月2日
相关论文
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Arxiv
14+阅读 · 2020年1月27日
Arxiv
5+阅读 · 2019年10月31日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
5+阅读 · 2018年6月5日
Top
微信扫码咨询专知VIP会员