近日,国际数据挖掘顶级会议 KDD (ACM SIGKDD CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING) 官网正式公布了 KDD Cup 2019 三项重大比赛,其中首次引入的 AutoML 挑战赛受到众多学术及工业界专业人士的密切关注。作为 KDD Cup 历史上的首次 AutoML 挑战赛,第四范式将联手 ChaLearn、微软共同承担此次大赛重任,并为此次比赛设置了“史上”难度最高的比赛项目。
第四范式、ChaLearn 和微软将联合主办 KDD Cup 2019 AutoML 挑战赛,这是 KDD Cup 22 年历史中首次举办 AutoML 挑战赛,同时也是历史上首个基于时序关系型数据的 AutoML 比赛。
大赛官网:
https://www.4paradigm.com/competition/kddcup2019
报名地址:
https://competitions.codalab.org/competitions/21948
时序关系型数据在在线广告、推荐系统、金融市场分析、医疗等应用场景中非常常见,人们往往需要利用这样的数据去构建机器学习模型,并应用机器学习模型提升对应业务的效果。以在线广告点击率预测问题为例,每个样本就是向用户展示广告,样本标记为用户是否点击广告。因为是实际的服务系统,所有样本都是时序产生。
时序信息不仅用来表示事件的时间顺序,合理的利用可能还可以提高机器学习模型的效果。数据科学家可以利用这些时序信息生成时间特征,使数据更具预测性。同时,在线广告系统中除了表示广告展示和点击行为的样本主表之外,还可能会使用相关表来存储用户、广告和广告投放者的特性,这些辅助信息可以进一步丰富数据,提高广告点击率预测模型的性能。
此外,当知道不同表之间的关系时,数据科学家可以将不同表结合,产生有意义的联系,进一步提高预测能力。与一般的用来建模的单张样本表的数据相比,时序关系型数据通常包含更多有用的特殊信息,可以利用这些信息来进一步提高机器学习性能。
在传统的机器学习应用中,需要经验丰富的专家才能从时序关系型数据中挖掘出有效的时序信息,并加以利用提升机器学习模型的效果。即使具备较深的知识储备,专家也需要通过不断的尝试和试错,才能构建出有价值的时序特征,并且利用好多个相关联表来提升机器学习模型的性能。此外,选择合适的机器学习模型和超参数也需要强大的机器学习专业知识作为支撑。
因此,传统机器学习极为耗费人力、技术门槛高,也让没有机器学习背景的人无法高效利用时序关系型数据。AutoML 近年来成为了机器学习重要的研究方向。该技术在模型选择、神经架构搜索、特征工程等方面取得了较大的成功,大幅降低了机器学习的应用门槛,让没有机器学习背景的人同样可以轻松使用。
因此,为了让更多的科学家关注 AutoML 领域,让更多的非专业人士能够利用时序关系型数据轻松地构建有效的机器学习模型,与以往的仅关注单样本表的 AutoML 挑战赛不同,第四范式和 ChaLearn 决定举办专门针对时序关系型数据的 AutoML 挑战赛,希望让更多的数据科学家和开发者加入其中,集思广益,从而让 AutoML 更好的利用时序关系型数据,提升模型的预测性能,让 AutoML 解决方案能够更加符合实际应用的需求。
竞赛者将利用时序关系数据,设计一个能够自主(无人为干预)实现监督学习的AutoML计算机程序。该比赛将聚焦在二分类问题,且时序关系数据均来自实际业务场景。根据大多数实际应用的时间属性,数据集按时间顺序划分为训练集和测试集。训练集和测试集都由一个主表、一组相关表和一个关系图组成:
主表包含带有样本标记、部分特征和时序标签的实例,用于二分类;
相关表包含了主表中实例的重要辅助信息,可用于提高预测效果。相关表中的字段可能含有时间标签,意味着该表中的信息与时间有关。
不同表中数据之间的关系用关系图描述。需要注意的是,任何两个表(主表或相关表)都可以有一个关系,任何一对表最多只能有一个关系。主办方保证训练集和测试集的关系图是相同的。
参赛者需要提交通过主表、相关表和关系图自动构建机器学习模型的 AutoML 方案。一旦经过训练,模型将以测试主表(不包括样本标记)、相关表和关系图作为输入,并预测测试集的样本标记。参赛者提交的方案将在受限制的计算资源和时间内进行测试。
为了让参赛者能够更好的开发并评估方案,我们提供了 10 个时序关系数据集,其中 5 个公共数据集,5 个私有数据集。
参赛者设计的 AutoML 方案中,应具备高效发现时序特征、捕获多个表之间信息的能力,并以全自动的方式构建机器学习模型。具体的挑战如下:
如何自动生成有效的时序信息?
如何将多个相关表信息有效整合?
如何解决数据分布随时序缓慢变化的问题?
如何自动捕获有意义的表间联系?
如何自动高效地选择合适的机器学习模型和超参数?
如何让方案更通用,即如何使其适用于未知的任务?
如何保持计算和内存成本可接受?
Feedback 阶段:即反馈阶段。在此阶段,参赛者可以在五个公共数据集上进行训练,开发 AutoML 方案。参赛者可以进行有限数量的提交,并获得作为反馈的所有五个公共数据集的测试数据的性能。参赛者可以下载有标记的训练数据集和未标记的测试数据集。因此,参赛者可以在线下准备他们的代码并提交。该阶段最后的代码提交将最终作为下一阶段进行盲测的代码。
Check 阶段:即校验阶段。该阶段将在五个私有数据集上对第一阶段的最后一次提交的代码进行盲测,确保提交的方案顺利运行,不会出现例如超时或者内存溢出等问题,但参赛者无法看到具体的结果,所有小组具备一次更新代码的机会,以保证在最终阶段正确的运行自己的代码。
AutoML 阶段:即盲试阶段。该阶段将测试方案在私有数据集上的性能。参赛者的代码将在无需人为干预情况下完成训练和预测。AUC 作为评价指标,最终将根据五个私有数据集的平均排名进行评分。若最终比分相同,则优先考虑可解释性更好的方案,可解释性将由专家团队评审。
以上三个阶段的计算及内存资源均有所限制,因此方案应兼顾效果及效率。
2019 年 4 月 1 日:比赛开始,发布公共数据集。参与者可以开始提交代码并在排行榜上获得即时反馈信息。
2019 年 6 月 27 日:Feedback 阶段结束,Feedback 阶段的代码自动迁移到 Test 阶段。
2019 年 7 月 7 日:Check 阶段结束,主办方开始代码验证。
2019 年 7 月 11 日:提交报告的截止日期。
2019 年 7 月 16 日:AutoML 阶段结束,开始评审流程。
2019 年 7 月 20 日:宣布 KDD Cup 冠军。
2019 年 8 月 4 日:在 KDD 上举办颁奖仪式。
第一名:15000 美元
第二名:10000 美元
第三名:5000 美元
第 4-10 名:每人 500 美元
本次竞赛将在 CodaLab 竞赛平台上进行。
本次竞赛对所有感兴趣的研究人员、专家和学生完全开放,竞赛组委会成员及相关人员不得参赛。
参赛者可以由一人或多人组成的团队提交方案。
每个团队都需要指定领队,负责与组织者沟通。
一个人只能加入一个团队。
根据 AutoML 阶段的最终得分来选出比赛的胜利者。
若最终比分相同,则优先考虑解释性更好的方案。
每个参赛团队都必须提供描述其最终解决方案的简短报告(情况说明书)。
通过参加本次竞赛,您将授权组织者权利,对您提交的作品以进行评估和赛后研究。
所有参赛队伍必须在 Check 阶段两周前至少有一次成功的代码提交,否则视为无效队伍,不参与最终评测。
第四范式
第四范式是国际领先的企业级人工智能技术与服务提供商,核心业务是利用机器学习技术,帮助企业提升效率、降低风险,获得更大的商业价值。其核心产品——企业级人工智能 PaaS 平台“第四范式先知”,帮助企业级用户及合作伙伴构建从数据到 AI 产业落地的闭环,做出更智能、更快速的商业决策。以平台推动人工智能快速、规模化产业落地的同时,第四范式也深耕人工智能基础性研究领域。
在 AuroML 方面,第四范式已自主研发了传统机器学习、深度学习等多方向的自动化技术,囊括了自动特征组合(FeatureGo)、自动时序特征(TemporalGo)、自动深度稀疏网络DSN(Deep Sparse Network)、Auto-SSL(自动半监督学习)、AutoCV、AutoNLP、多保真度优化等多项 AutoML 支撑技术,并成功应用在金融反欺诈、个性化推荐等多个业务场景中,让企业普通开发人员取得了接近甚至超过数据科学家的业务效果。
此外,第四范式多次获得 PAKDD、NeurIPS、KDD 等顶级学术会议的 AutoML 比赛主办权,并在 PRICAI 2018 上举办 AutoML Workshop:
2018.4——PAKDD 2018 AutoML Challenge
https://www.4paradigm.com/competition/pakdd2018
2018.12——NeurIPS 2018 AutoML Challenge
https://www.4paradigm.com/competition/nips2018
2019.4——PAKDD 2019 AutoML Challenge
https://www.4paradigm.com/competition/pakdd2019
2019.8——KDD Cup 2019 AutoML Challenge
https://www.4paradigm.com/competition/kddcup2019
2019.12——2019 AutoDL Challenge
https://autodl.chalearn.org/
ChaLearn
Chalearn(http://chalearn.org)是 AutoML 领域最权威的学术组织,在组织学术挑战赛方面拥有丰富的经验。ChaLearn 囊括了数据收集程序、评估协议、新颖的挑战场景(如竞赛)、赛事组织者培训、挑战赛分析、赛事宣传等内容,积极推动 AutoML 的前沿技术的发展。
KDD Cup 是由 ACM 的数据挖掘及知识发现专委会(SIGKDD)主办的数据挖掘研究领域的国际顶级赛事,同时也是数据挖掘国际顶级会议 KDD 上的重头戏,至今已有 22 年历史。作为目前数据挖掘领域最有影响力、最高水平的国际顶级赛事,KDD Cup 每年都会吸引来自世界各地数据挖掘领域的顶尖专家、学者和工程师参赛,因此也有“大数据奥运会”之名。
点击以下标题查看更多往期内容:
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。
▽ 点击 | 阅读原文 | 访问大赛官网