This paper considers an ML inspired approach to hypothesis testing known as classifier/classification-accuracy testing ($\mathsf{CAT}$). In $\mathsf{CAT}$, one first trains a classifier by feeding it labeled synthetic samples generated by the null and alternative distributions, which is then used to predict labels of the actual data samples. This method is widely used in practice when the null and alternative are only specified via simulators (as in many scientific experiments). We study goodness-of-fit, two-sample ($\mathsf{TS}$) and likelihood-free hypothesis testing ($\mathsf{LFHT}$), and show that $\mathsf{CAT}$ achieves (near-)minimax optimal sample complexity in both the dependence on the total-variation ($\mathsf{TV}$) separation $ε$ and the probability of error $δ$ in a variety of non-parametric settings, including discrete distributions, $d$-dimensional distributions with a smooth density, and the Gaussian sequence model. In particular, we close the high probability sample complexity of $\mathsf{LFHT}$ for each class. As another highlight, we recover the minimax optimal complexity of $\mathsf{TS}$ over discrete distributions, which was recently established by Diakonikolas et al. (2021). The corresponding $\mathsf{CAT}$ simply compares empirical frequencies in the first half of the data, and rejects the null when the classification accuracy on the second half is better than random.


翻译:本文探讨了一种受机器学习启发的假设检验方法,称为分类器/分类准确率检验($\\mathsf{CAT}$)。在$\\mathsf{CAT}$中,首先通过输入由零假设与备择分布生成的标记合成样本来训练分类器,随后利用该分类器对实际数据样本的标签进行预测。当零假设与备择假设仅通过模拟器指定时(如许多科学实验中的情况),该方法在实践中被广泛采用。我们研究了拟合优度检验、双样本检验($\\mathsf{TS}$)以及无似然假设检验($\\mathsf{LFHT}$),并证明在多种非参数设定下(包括离散分布、具有平滑密度的$d$维分布以及高斯序列模型),$\\mathsf{CAT}$在总变差($\\mathsf{TV}$)分离度$ε$和错误概率$δ$的依赖关系上均达到(近乎)极小极大最优样本复杂度。特别地,我们完善了各类别下$\\mathsf{CAT}$在高概率样本复杂度方面的理论。另一亮点是,我们恢复了Diakonikolas等人(2021)近期确立的离散分布上$\\mathsf{TS}$的极小极大最优复杂度。对应的$\\mathsf{CAT}$方法仅需比较数据前半部分的经验频率,并在后半部分数据的分类准确率优于随机猜测时拒绝零假设。

0
下载
关闭预览

相关内容

专知会员服务
33+阅读 · 2021年7月27日
专知会员服务
17+阅读 · 2021年7月13日
专知会员服务
12+阅读 · 2021年6月20日
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
18+阅读 · 2021年5月3日
专知会员服务
29+阅读 · 2020年10月2日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
专知会员服务
33+阅读 · 2021年7月27日
专知会员服务
17+阅读 · 2021年7月13日
专知会员服务
12+阅读 · 2021年6月20日
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
18+阅读 · 2021年5月3日
专知会员服务
29+阅读 · 2020年10月2日
相关资讯
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员