聚类与分类有什么区别?

首先对经验数据进行分析,得到特征属性,以此特性进行挖掘,希望得到划分结果,这属于聚类还是分类?例如,已购买某产品的用户具有一些特性,得到用户画像,我采…
关注者
286
被浏览
470,397
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏
  1. 定义
    1. 分类:在给定的分类体系下,根据数据的特征属性,使用相关算法建立机器模型,学习判别规则和判别公式,从而可以根据新的数据的特征属性将其分到某一类。显然事先需要有一套带标签的数据集训练,然后使用测试集测试,所以这是一种监督学习。
    2. 聚类:在不知道类别的情况下,将数据划分为不同类簇,使得相同类簇内的样本相似度很高,而不同类簇间的相似度低。这是一种无监督学习。
  2. 应用场景
    1. 分类:常用于预测型任务
    2. 聚类:描述或探索型,也常结合其他任务一起分析,如孤立点检测、数值归约等
  3. 算法(这里列的极其不全,请参考其他机器学习/数据挖掘教材)
    1. 分类:经典的机器学习算法有朴素贝叶斯、K近邻、决策树、支持向量机、神经网络等,现在的深度学习也用的很多
    2. 聚类:k-means、层次聚类、DBSCAN、遗传算法等等
  4. 评估方法
    1. 分类:Precision, Recall, Accuracy, F-measure, Macro Average, Micro Average等
    2. 聚类:由于缺少参照相比分类会难一点,一般根据簇内相似、簇间不相似的原则计算指标,如CH指标。此外还可以引入专家验证;基于真实分类数据集验证(对一个已有标签的数据集使用聚类算法,比较聚类得到的类别和原类别)

案例可以参考其他回答,希望有帮助