有人能解释一下数据挖掘中分类和聚类的区别吗?

如果可以,请给出两者的例子以理解主旨。


当前回答

聚类是一种对对象进行分组的方法,通过这种方式,具有相似特征的对象聚集在一起,而具有不同特征的对象分开。它是机器学习和数据挖掘中常用的统计数据分析技术。

分类是在训练数据集的基础上识别、区分和理解对象的分类过程。分类是一种有监督的学习技术,其中训练集和正确定义的观察是可用的。

其他回答

请阅读以下信息:

我是一个数据挖掘的新手,但正如我的课本所说,分类应该是监督学习,而聚类应该是非监督学习。监督学习和无监督学习之间的区别可以在这里找到。

分类和聚类之间的主要区别是: 分类是借助类标签对数据进行分类的过程。另一方面,聚类类似于分类,但没有预定义的类标签。 分类与监督学习相适应。与此相反,聚类也被称为无监督学习。 分类方法提供训练样本,聚类方法不提供训练数据。

希望这对你有所帮助!

分类 —预测类别标签 -根据训练集和类标签属性中的值(类标签)对数据进行分类(构造模型) —使用该模型对新数据进行分类

集群:数据对象的集合 —同一集群内彼此相似 —与其他集群中的对象不同

聚类的目的是在数据中找到组。“集群”是一个直观的概念,确实如此 没有严格的数学定义。一个集群的成员应该是 彼此相似,而与其他集群的成员不同。一个集群 算法对一个未标记的数据集Z进行操作,并在其上生成一个分区。

对于类和类标签, 类包含相似的对象,而来自不同类的对象 是不同的。有些类具有明确的含义,在最简单的情况下 相互排斥。例如,在签名验证中,签名为任意一种 真的或伪造的。真正的阶级是两者之一,不管我们可能不是 能根据观察到的特定特征正确猜测的。