We develop new methods to integrate experimental and observational data in causal inference. While randomized controlled trials offer strong internal validity, they are often costly and therefore limited in sample size. Observational data, though cheaper and often with larger sample sizes, are prone to biases due to unmeasured confounders. To harness their complementary strengths, we propose a systematic framework that formulates causal estimation as an empirical risk minimization (ERM) problem. A full model containing the causal parameter is obtained by minimizing a weighted combination of experimental and observational losses--capturing the causal parameter's validity and the full model's fit, respectively. The weight is chosen through cross-validation on the causal parameter across experimental folds. Our experiments on real and synthetic data show the efficacy and reliability of our method. We also provide theoretical non-asymptotic error bounds.


翻译:我们开发了整合实验与观测数据进行因果推断的新方法。随机对照试验虽具有强内部效度,但成本高昂且样本量通常有限;观测数据虽成本较低且样本量较大,却易受未测量混杂因素导致的偏倚影响。为利用二者的互补优势,我们提出一个系统框架,将因果估计构建为经验风险最小化问题:通过最小化实验损失与观测损失的加权组合,得到一个包含因果参数的完整模型——其中实验损失反映因果参数的有效性,观测损失体现完整模型的拟合度。权重通过因果参数在实验数据折上的交叉验证选定。我们在真实与合成数据上的实验验证了该方法的效能与可靠性,并提供了理论上的非渐近误差界。

0
下载
关闭预览

相关内容

【CVPR2024】医学基础模型的低秩知识分解
专知会员服务
35+阅读 · 2024年4月29日
【NeurIPS2022】VICRegL:局部视觉特征的自监督学习
专知会员服务
32+阅读 · 2022年10月6日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员