【NIPS挑战赛优胜解】用机器学习判断基因变异所属类别

2017 年 11 月 4 日 新智元 王飞

 【AI WORLD 2017世界人工智能大会倒计时 4 

“AI达摩”齐聚世界人工智能大会,AI WORLD 2017议程嘉宾重磅发布 

2017年11月8日,在北京国家会议中心举办的AI World 2017世界人工智能大会上,我们邀请到康奈尔大学威尔医学院助理教授王飞,卡内基梅隆大学计算机学院计算生物学副教授马坚,大数医达创始人、CMU计算机学院暨机器人研究所博士邓侃,中国科学技术大学示范性微电子学院院长、信息科学技术学院执行院长吴枫,中国科学技术大学机器人实验室主任陈小平教授等多位重量级专家共论以智能医疗、机器人为代表的 AI 产业应用前沿趋势。


抢票链接:http://www.huodongxing.com/event/2405852054900?td=4231978320026

大会官网:http://www.aiworld2017.com

  新智元推荐  

作者:王飞


【新智元导读】在刚刚结束的 NIPS Challenge on Predicting the Genetic Variants to Enable Precision Medicine (organized by MSKCC)中,康奈尔大学威尔医学院助理教授王飞所带领的实验室在1300多个参赛队伍中脱颖而出,获得前三的成绩。王飞教授特为新智元撰写此文,介绍研究成果。


2017年11月8日,国家会议中心,王飞教授将在AI WORLD 2017世界人工智能大会AI Industry论坛进行以《人工智能与智慧医疗》为题的主题演讲。



一年一度的神经信息处理大会(NIPS)将于今年12月在加州长滩召开。由于近些年来机器学习以及人工智能的兴起,NIPS更是成为了一年一度相关方向学者不容错过的盛会。今年的NIPS更是门票早早便已售罄,连赞助商的席位也都已经soldout。

 

NIPS Competition是今年新增的环节,旨在吸引众多的机器学习爱好者来用他们所知道的方法来解决实际问题。由于我本人从事医疗健康方面的研究,就鼓励我实验室的人员参加其中的基因变异分类(Classifying Clinically Actionable Genetic Mutations)挑战。经过调研,大家也都感兴趣,所以一拍即合,一做就是四个月。

 

该挑战是由著名的Memorial Sloan Kattering Cancer Center (MSKCC)组织。众所周知在强调精准医疗的今天,理解不同的基因变异是一个核心问题。这个挑战就是根据基因的名字以及其出现的变异来预测该基因变异所属的类别,在竞赛中一共有9类,但并没有对这9类有明确的描述。也就是说,我们只有类别代号,没有类别信息。除此之外,对于每一个基因和对应的变异,还有一篇相应的学术文章,正是该学术文章提到了这个特定的基因变异对。

 

因此这个挑战实际上是一个9个类别的多分类问题,可以用到的信息有基因名字,变异描述以及提到的文章。在实际当中,对基因变异的分类由分子病理(MolecularPathologist)学家完成,这通常需要长时间的专业训练。即便如此,他们也经常会有不同的意见,从而有分类不一致的现象,因此这是一个非常困难的问题。挑战的组织者将竞赛设成两个阶段,第一阶段有大约三个月,而第二阶段只有一周。第一阶段与第二阶段的测试数据完全不一致。竞赛的组织者为了获得第二阶段的数据,重新组织了专家进行标注,而且这些专家与第一阶段的略有不同。并且第二阶段有新的变异出现,这些变异从未在第一阶段的数据中出现过。这是一个费时费力的过程,两个月之内只能得到150个新的标注。

 

显然该挑战涉及自然语言处理和机器学习,但又有些独特的挑战。比如竞赛数据中包含的文章通常都很长,是整片的学术文章,而其中只有很小一部分提到基因和变异。这就使得训练数据中有大量的噪声。不仅如此,基因和变异还有有别名,我们试图在文章中匹配基因和变异时经常匹配不上。还有就是一篇文章中经常会多次提到不同的基因和不同的变异,这给预测带来了更多的难度。

 

为了解决这一问题,我们提出了如下图所示的框架。输入包括基因以及变异本身的名字以及相应的文章。我们从中提取三个级别的特征,第一是它们的名字本身,第二是提到它们的整篇文章,第三是从整篇文章中提取的包含提到基因和变异的句子。这些特征中既包括了相对直接的特征,例如文本长度以及某些关键词的词频,又包括间接特征,例如通过LatentDirichlet Allocation (LDA)以及非负矩阵分解(NMF)降维得到的特征,以及通过词嵌入(word2vec)和文本嵌入(Doc2Vec)得到的特征。我们花费了非常大的功夫在特征工程上,测试了各种深度学习和非深度学习的方法,最终确定了20类特征(如表格中所示)。随后这些特征通过不同的组合输入到分类器当中,我们也测试了很多种分类器,最终根据效果选定了GradientBoosting Decision Tree (GDBT)。不同分类器的预测结果又被集成(Ensemble)起来,从而得到最终的预测。在特征工程的过程中,为了解决别名的问题,我们还利用了额外的数据,包括PubMed上相关文章的题目和摘要,以及一些额外的基因和变异的名称库。我们后面会写一篇学术文章详细介绍各个环节。



该竞赛吸引了全球超过1300个队伍参赛,最终我们的方法被选为最顶尖的解决方案之一,并获邀在NIPS的Competition Workshop上进行报告。我们会通过这个竞赛建立与MSKCC的合作,从而继续完善我们的方法并希望能最终应用在临床医学当中,为医学研究作出贡献。



AI World 2017 世界人工智能大会(11月8日,北京国家会议中心)上,我们邀请到了本文作者、康奈尔大学威尔医学院助理教授王飞,为我们现场解读人工智能技术在医疗应用中的常见误区及挑战,并展望发展趋势。







王飞   康奈尔大学威尔医学院助理教授


王飞,博士,康奈尔大学威尔医学院助理教授,IBM沃森研究中心顾问,法国液空集团研究顾问。曾任职于康涅狄格大学以及IBM沃森研究中心。他于2008年在清华大学自动化系获得博士学位,其博士学位论文“图上的半监督学习算法研究”获得了2011年全国优秀博士论文奖。主要研究方向包括数据挖掘,机器学习技术在医疗信息学中的应用。王飞博士已经在相关方向的顶级国际会议和杂志上发表了近190篇学术论文,引用超过5000次,H指数39。


 

演讲题目:人工智能与智慧医疗


摘要:人工智能正在改变着这个世界。医疗健康,作为每个人生活中不可分割的一部分,也正在被人工智能改变着。全球的IT巨头,例如谷歌、微软、IBM,以及国内的IT巨头BAT,都在试图用先进的人工智能技术来提高医疗质量,让每个人变得更加健康。本报告将对目前人工智能技术在医疗中应用的现状做以小结,指出这一领域的常见误区及挑战,进而展望未来的发展方向。




深入了解AI 技术进展和产业情况,参加新智元世界人工智能大会,马上抢票!



【AI WORLD 2017世界人工智能大会倒计时 4 点击图片查看嘉宾与日程。



抢票链接:http://www.huodongxing.com/event/2405852054900?td=4231978320026


AI WORLD 2017 世界人工智能大会购票二维码: 




登录查看更多
0

相关内容

康奈尔大学(Cornell University)是一所位于美国纽约州伊萨卡的私立研究型大学,另有两所分校位于纽约市和卡塔尔教育城,是著名的常春藤盟校成员,在世界范围内享有极高的学术声誉。康奈尔大学有七个本科生学院和七个研究生学院,是一所松散型的大学,其下属学院在运作时拥有很大的自主权,它们可以自己制订学术计划、自主招生和自行授予学位。
【硬核课】统计学习理论,321页ppt
专知会员服务
135+阅读 · 2020年6月30日
基于深度学习的多标签生成研究进展
专知会员服务
140+阅读 · 2020年4月25日
《人工智能2020:落地挑战与应对 》56页pdf
专知会员服务
195+阅读 · 2020年3月8日
【BAAI|2019】用深度学习模拟原子间势,王涵  (附pdf)
专知会员服务
17+阅读 · 2019年11月21日
【综述】智能医疗综述,48页论文详述医学AI最新进展
专知会员服务
68+阅读 · 2019年9月1日
计算机经典算法回顾与展望——机器学习与数据挖掘
中国计算机学会
5+阅读 · 2019年10月11日
特征工程方法:一、类别变量编码
论智
5+阅读 · 2018年11月20日
最强数据集集合:50个最佳机器学习公共数据集丨资源
深度学习世界
4+阅读 · 2018年11月6日
机器学习预测世界杯:巴西夺冠
新智元
5+阅读 · 2018年6月11日
侦测欺诈交易(异常点检测)
GBASE数据工程部数据团队
19+阅读 · 2017年5月10日
Arxiv
8+阅读 · 2019年2月15日
Arxiv
7+阅读 · 2018年8月28日
Arxiv
6+阅读 · 2018年4月4日
VIP会员
Top
微信扫码咨询专知VIP会员