We propose the predictability, computability, and stability (PCS) framework to extract reproducible knowledge from data that can guide scientific hypothesis generation and experimental design. The PCS framework builds on key ideas in machine learning, using predictability as a reality check and evaluating computational considerations in data collection, data storage, and algorithm design. It augments PC with an overarching stability principle, which largely expands traditional statistical uncertainty considerations. In particular, stability assesses how results vary with respect to choices (or perturbations) made across the data science life cycle, including problem formulation, pre-processing, modeling (data and algorithm perturbations), and exploratory data analysis (EDA) before and after modeling. Furthermore, we develop PCS inference to investigate the stability of data results and identify when models are consistent with relatively simple phenomena. We compare PCS inference with existing methods, such as selective inference, in high-dimensional sparse linear model simulations to demonstrate that our methods consistently outperform others in terms of ROC curves over a wide range of simulation settings. Finally, we propose a PCS documentation based on Rmarkdown, iPython, or Jupyter Notebook, with publicly available, reproducible codes and narratives to back up human choices made throughout an analysis. The PCS workflow and documentation are demonstrated in a genomics case study available on Zenodo.


翻译:我们提出可预测性、可比较性和稳定性(PCS)框架,以便从能够指导科学假设的生成和实验设计的数据中提取可复制的知识; PCS框架以机器学习中的关键想法为基础,利用可预测性作为现实检查和评价数据收集、数据储存和算法设计中的计算考虑; 以总体稳定原则增强PC,这在很大程度上扩大了传统的统计不确定性考虑; 特别是, 稳定评估数据科学生命周期中的选择(或扰动)的结果如何不同,包括问题拟订、预处理、建模(数据和算法扰动)和探索性数据分析(EDA); 此外,我们开发PCS推论,以调查数据结果的稳定性,并在模型与相对简单的现象相一致时加以确定; 我们比较PCS的推论与现有方法,例如选择性推论,在高维线性线性模型模拟中,以证明我们的方法始终比其他方法在广泛的模拟环境中的曲线。 最后,我们提议根据Rmargowdow、iPRODO、iPRODOD 和Jumpheal Studio deal cuideal deal cultations recultations an recudustrations betradudududududustrations befulations an an an an recudududududududustration.

2
下载
关闭预览

相关内容

迄今为止,产品设计师最友好的交互动画软件。

因果图,Causal Graphs,52页ppt
专知会员服务
238+阅读 · 2020年4月19日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
143+阅读 · 2019年10月12日
【新书】Python编程基础,669页pdf
专知会员服务
186+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
98+阅读 · 2019年10月9日
机器学习在材料科学中的应用综述,21页pdf
专知会员服务
46+阅读 · 2019年9月24日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Python机器学习教程资料/代码
机器学习研究会
8+阅读 · 2018年2月22日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
A Survey of Deep Learning for Scientific Discovery
Arxiv
29+阅读 · 2020年3月26日
Arxiv
108+阅读 · 2020年2月5日
The Measure of Intelligence
Arxiv
6+阅读 · 2019年11月5日
Arxiv
6+阅读 · 2018年11月29日
Arxiv
3+阅读 · 2018年3月2日
VIP会员
相关VIP内容
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Python机器学习教程资料/代码
机器学习研究会
8+阅读 · 2018年2月22日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员