In statistical survey analysis, (partial) non-responders are integral elements during data acquisition. Treating missing values during data preparation and data analysis is therefore a non-trivial underpinning. Focusing on different data sets from the Federal Statistical Office of Germany (DESTATIS), we investigate various imputation methods regarding their imputation accuracy. Since the latter is not uniquely determined in theory and practice, we study different measures for assessing imputation accuracy: Beyond the most common measures, the normalized-root mean squared error (NRMSE) and the proportion of false classification (PFC), we put a special focus on (distribution) distance- and association measures for assessing imputation accuracy. The aim is to deliver guidelines for correctly assessing distributional accuracy after imputation. Our empirical findings indicate a discrepancy between the NRMSE resp. PFC and distance measures. While the latter measure distributional similarities, NRMSE and PFC focus on data reproducibility. We realize that a low NRMSE or PFC seem not to imply lower distributional discrepancies. Although several measures for assessing distributional discrepancies exist, our results indicate that not all of them are suitable for evaluating imputation-induced differences.


翻译:在统计分析中,(部分)不对应者是数据获取过程中不可分割的要素。因此,在数据编制和数据分析期间处理缺失值是一个非三重基础。我们侧重于德国联邦统计局(DESTATIS)的不同数据集,调查关于估算准确性的各种估算方法。由于后者在理论和实践上并非独一无二地确定,我们研究评估估算准确性的不同措施:除了最常用的措施外,正常的根平均正方误差(NRMSE)和虚假分类的比例(PFC),我们特别重视估算准确性的(分布)距离和关联措施。目的是提供正确评估估算后分配准确性的指导方针。我们的经验发现,NRMSE和PFC与距离措施之间存在差异。虽然后者衡量分布相似性、NRMSE和PFC侧重于数据的可追溯性。我们认识到低的NRMSE或PFC似乎并不意味着分配差异较小。尽管存在几项评估分配差异的措施,但我们的结果表明,并非所有差异都适用于评估。

0
下载
关闭预览

相关内容

机器学习系统设计系统评估标准
专知会员服务
75+阅读 · 2021年3月16日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
图分类相关资源大列表
专知
10+阅读 · 2019年7月18日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
LibRec 精选:推荐系统9个必备数据集
LibRec智能推荐
6+阅读 · 2018年3月7日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【推荐】免费书(草稿):数据科学的数学基础
机器学习研究会
19+阅读 · 2017年10月1日
Arxiv
12+阅读 · 2019年3月14日
Implicit Maximum Likelihood Estimation
Arxiv
7+阅读 · 2018年9月24日
VIP会员
相关VIP内容
专知会员服务
75+阅读 · 2021年3月16日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关资讯
图分类相关资源大列表
专知
10+阅读 · 2019年7月18日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
LibRec 精选:推荐系统9个必备数据集
LibRec智能推荐
6+阅读 · 2018年3月7日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【推荐】免费书(草稿):数据科学的数学基础
机器学习研究会
19+阅读 · 2017年10月1日
Top
微信扫码咨询专知VIP会员