Cancer is one of the leading cause of death, worldwide. Many believe that genomic data will enable us to better predict the survival time of these patients, which will lead to better, more personalized treatment options and patient care. As standard survival prediction models have a hard time coping with the high-dimensionality of such gene expression (GE) data, many projects use some dimensionality reduction techniques to overcome this hurdle. We introduce a novel methodology, inspired by topic modeling from the natural language domain, to derive expressive features from the high-dimensional GE data. There, a document is represented as a mixture over a relatively small number of topics, where each topic corresponds to a distribution over the words; here, to accommodate the heterogeneity of a patient's cancer, we represent each patient (~document) as a mixture over cancer-topics, where each cancer-topic is a mixture over GE values (~words). This required some extensions to the standard LDA model eg: to accommodate the "real-valued" expression values - leading to our novel "discretized" Latent Dirichlet Allocation (dLDA) procedure. We initially focus on the METABRIC dataset, which describes breast cancer patients using the r=49,576 GE values, from microarrays. Our results show that our approach provides survival estimates that are more accurate than standard models, in terms of the standard Concordance measure. We then validate this approach by running it on the Pan-kidney (KIPAN) dataset, over r=15,529 GE values - here using the mRNAseq modality - and find that it again achieves excellent results. In both cases, we also show that the resulting model is calibrated, using the recent "D-calibrated" measure. These successes, in two different cancer types and expression modalities, demonstrates the generality, and the effectiveness, of this approach.


翻译:癌症是全世界死亡的主要原因之一。 许多人相信基因组数据将使我们能够更好地预测这些病人的存活时间, 从而导致更好的、 更个性化的治疗选项和病人护理。 由于标准的生存预测模型很难适应基因表达( GE) 数据的高维性, 许多项目都使用某些维度减少技术来克服这个障碍。 我们引入了一种新颖的方法, 受自然语言域主题模型的启发, 从高维的 GE 数据中得出表解性特征。 其中, 一份文件代表着相对较少的话题的混合体, 每个话题都与字词的分布相匹配; 这里, 为了适应病人癌症的遗传性, 我们代表每个病人( ~ 文档) 的混合体格, 每个癌症的分解性技术都用来克服 GE值( 词) 。 这需要从标准的LDA 模型中进行一些扩展, 例如: 适应“ 真正估价” 表达式的表达法 - 导致我们新的“ 分解性化” 延迟的表达方式, 每个主题都对应词的分布式( dRDAA) 。 我们最初用的是“ 正在运行的计算中的数据 显示我们的标准数据 。

2
下载
关闭预览

相关内容

2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
已删除
AI掘金志
7+阅读 · 2019年7月8日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Arxiv
3+阅读 · 2017年12月18日
VIP会员
相关VIP内容
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
相关资讯
已删除
AI掘金志
7+阅读 · 2019年7月8日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Top
微信扫码咨询专知VIP会员