Classification is a fundamental problem in machine learning and data mining. During the past decades, numerous classification methods have been presented based on different principles. However, most existing classifiers cast the classification problem as an optimization problem and do not address the issue of statistical significance. In this paper, we formulate the binary classification problem as a two-sample testing problem. More precisely, our classification model is a generic framework that is composed of two steps. In the first step, the distance between the test instance and each training instance is calculated to derive two distance sets. In the second step, the two-sample test is performed under the null hypothesis that the two sets of distances are drawn from the same cumulative distribution. After these two steps, we have two p-values for each test instance and the test instance is assigned to the class associated with the smaller p-value. Essentially, the presented classification method can be regarded as an instance-based classifier based on hypothesis testing. The experimental results on 40 real data sets show that our method is able to achieve the same level performance as the state-of-the-art classifiers and has significantly better performance than existing testing-based classifiers. Furthermore, we can handle outlying instances and control the false discovery rate of test instances assigned to each class under the same framework.


翻译:在机器学习和数据挖掘中,分类是一个根本性的问题。在过去几十年里,根据不同的原则提出了许多分类方法。然而,大多数现有分类者将分类问题作为一个优化问题提出来,没有解决统计意义问题。在本文件中,我们将二进制分类问题作为两个样本测试问题。更准确地说,我们的分类模式是一个通用框架,由两个步骤组成。第一步,测试实例和每个培训实例之间的距离计算得出两个距离数据集。在第二步,两个样本测试是在两组距离从相同的累积分布中抽取的完全假设下进行的。在这两个步骤之后,我们为每个测试实例设定了两个P值,测试实例被分配到与较小 p值相关的类别。基本上,我们提出的分类方法可以被视为基于假设测试的基于实例的分类器。40套实际数据集的实验结果表明,我们的方法能够达到与高级分类师相同的水平性能,并且比每个基于现有测试的分类框架下的每个测试等级的测试率要高得多。此外,我们还可以处理每个基于错误的测试等级的检测率。

0
下载
关闭预览

相关内容

强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
98+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
14+阅读 · 2019年4月13日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
25+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【推荐】卷积神经网络类间不平衡问题系统研究
机器学习研究会
6+阅读 · 2017年10月18日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
7+阅读 · 2020年3月1日
On Feature Normalization and Data Augmentation
Arxiv
14+阅读 · 2020年2月25日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
A General and Adaptive Robust Loss Function
Arxiv
7+阅读 · 2018年11月5日
Arxiv
9+阅读 · 2018年3月28日
Arxiv
3+阅读 · 2017年10月1日
Arxiv
5+阅读 · 2016年10月24日
VIP会员
相关VIP内容
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
98+阅读 · 2019年10月9日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
14+阅读 · 2019年4月13日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
25+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【推荐】卷积神经网络类间不平衡问题系统研究
机器学习研究会
6+阅读 · 2017年10月18日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
7+阅读 · 2020年3月1日
On Feature Normalization and Data Augmentation
Arxiv
14+阅读 · 2020年2月25日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
A General and Adaptive Robust Loss Function
Arxiv
7+阅读 · 2018年11月5日
Arxiv
9+阅读 · 2018年3月28日
Arxiv
3+阅读 · 2017年10月1日
Arxiv
5+阅读 · 2016年10月24日
Top
微信扫码咨询专知VIP会员