聚类与分类有什么区别?
首先对经验数据进行分析,得到特征属性,以此特性进行挖掘,希望得到划分结果,这属于聚类还是分类?例如,已购买某产品的用户具有一些特性,得到用户画像,我采…
关注者
286被浏览
470,397登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏
- 定义
- 分类:在给定的分类体系下,根据数据的特征属性,使用相关算法建立机器模型,学习判别规则和判别公式,从而可以根据新的数据的特征属性将其分到某一类。显然事先需要有一套带标签的数据集训练,然后使用测试集测试,所以这是一种监督学习。
- 聚类:在不知道类别的情况下,将数据划分为不同类簇,使得相同类簇内的样本相似度很高,而不同类簇间的相似度低。这是一种无监督学习。
- 应用场景
- 分类:常用于预测型任务
- 聚类:描述或探索型,也常结合其他任务一起分析,如孤立点检测、数值归约等
- 算法(这里列的极其不全,请参考其他机器学习/数据挖掘教材)
- 分类:经典的机器学习算法有朴素贝叶斯、K近邻、决策树、支持向量机、神经网络等,现在的深度学习也用的很多
- 聚类:k-means、层次聚类、DBSCAN、遗传算法等等
- 评估方法
- 分类:Precision, Recall, Accuracy, F-measure, Macro Average, Micro Average等
- 聚类:由于缺少参照相比分类会难一点,一般根据簇内相似、簇间不相似的原则计算指标,如CH指标。此外还可以引入专家验证;基于真实分类数据集验证(对一个已有标签的数据集使用聚类算法,比较聚类得到的类别和原类别)
案例可以参考其他回答,希望有帮助