As predictive algorithms grow in popularity, using the same dataset to both train and test a new model has become routine across research, policy, and industry. Sample-splitting attains valid inference on model properties by using separate subsamples to estimate the model and to evaluate it. However, this approach has two drawbacks, since each task uses only part of the data, and different splits can lead to widely different estimates. Averaging across multiple splits, I develop an inference approach that uses more data for training, uses the entire sample for testing, and improves reproducibility. I address the statistical dependence from reusing observations across splits by proving a new central limit theorem for a large class of split-sample estimators under arguably mild and general conditions. Importantly, I make no restrictions on model complexity or convergence rates. I show that confidence intervals based on the normal approximation are valid for many applications, but may undercover in important cases of interest, such as comparing the performance between two models. I develop a new inference approach for such cases, explicitly accounting for the dependence across splits. Moreover, I provide a measure of reproducibility for p-values obtained from split-sample estimators. Finally, I apply my results to two important problems in development and public economics: predicting poverty and learning heterogeneous treatment effects in randomized experiments. I show that my inference approach with repeated cross-fitting achieves better power than existing alternatives, often enough to reveal statistical significance that would otherwise be missed.


翻译:随着预测算法的广泛应用,使用同一数据集同时训练和测试新模型已成为研究、政策与行业中的常规做法。样本分割通过使用不同子样本来估计模型并评估其性能,从而获得模型属性的有效推断。然而,该方法存在两个缺陷:每个任务仅使用部分数据,且不同划分可能导致估计结果差异显著。通过对多重划分结果进行平均,我提出一种推断方法,该方法在训练中使用更多数据,在测试中使用全部样本,并提高了可重复性。通过证明一类广泛分割样本估计量在相对温和且普适条件下的新中心极限定理,我解决了因观测值在划分间重复使用而产生的统计依赖问题。重要的是,该方法不对模型复杂度或收敛速率施加限制。研究表明,基于正态近似的置信区间在许多应用中具有有效性,但在某些重要场景(如比较两个模型的性能)中可能存在覆盖不足。针对此类情况,我开发了一种新的推断方法,显式地考虑了划分间的依赖性。此外,我为分割样本估计量获得的p值提供了可重复性度量。最后,我将研究成果应用于发展与公共经济学中的两个重要问题:贫困预测和随机实验中异质性处理效应的学习。结果表明,采用重复交叉拟合的推断方法比现有替代方案具有更高的统计功效,通常足以揭示原本可能被忽略的统计显著性。

0
下载
关闭预览

相关内容

【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员