有人能解释一下数据挖掘中分类和聚类的区别吗?
如果可以,请给出两者的例子以理解主旨。
有人能解释一下数据挖掘中分类和聚类的区别吗?
如果可以,请给出两者的例子以理解主旨。
当前回答
分类和聚类之间的主要区别是: 分类是借助类标签对数据进行分类的过程。另一方面,聚类类似于分类,但没有预定义的类标签。 分类与监督学习相适应。与此相反,聚类也被称为无监督学习。 分类方法提供训练样本,聚类方法不提供训练数据。
希望这对你有所帮助!
其他回答
分类 —预测类别标签 -根据训练集和类标签属性中的值(类标签)对数据进行分类(构造模型) —使用该模型对新数据进行分类
集群:数据对象的集合 —同一集群内彼此相似 —与其他集群中的对象不同
聚类的目的是在数据中找到组。“集群”是一个直观的概念,确实如此 没有严格的数学定义。一个集群的成员应该是 彼此相似,而与其他集群的成员不同。一个集群 算法对一个未标记的数据集Z进行操作,并在其上生成一个分区。
对于类和类标签, 类包含相似的对象,而来自不同类的对象 是不同的。有些类具有明确的含义,在最简单的情况下 相互排斥。例如,在签名验证中,签名为任意一种 真的或伪造的。真正的阶级是两者之一,不管我们可能不是 能根据观察到的特定特征正确猜测的。
分类和聚类之间的主要区别是: 分类是借助类标签对数据进行分类的过程。另一方面,聚类类似于分类,但没有预定义的类标签。 分类与监督学习相适应。与此相反,聚类也被称为无监督学习。 分类方法提供训练样本,聚类方法不提供训练数据。
希望这对你有所帮助!
如果你试图将大量的文件归档到你的书架上(根据日期或文件的其他规格),你是在分类。
如果要从这组工作表创建集群,则意味着工作表之间有一些类似的东西。
首先,像这里的许多回答一样:分类是有监督的学习,聚类是无监督的。这意味着:
Classification needs labeled data so the classifiers can be trained on this data, and after that start classifying new unseen data based on what he knows. Unsupervised learning like clustering does not uses labeled data, and what it actually does is to discover intrinsic structures in the data like groups. Another difference between both techniques (related to the previous one), is the fact that classification is a form of discrete regression problem where the output is a categorical dependent variable. Whereas clustering's output yields a set of subsets called groups. The way to evaluate these two models is also different for the same reason: in classification you often have to check for the precision and recall, things like overfitting and underfitting, etc. Those things will tell you how good is the model. But in clustering you usually need the vision of and expert to interpret what you find, because you don't know what type of structure you have (type of group or cluster). That's why clustering belongs to exploratory data analysis. Finally, i would say that applications are the main difference between both. Classification as the word says, is used to discriminate instances that belong to a class or another, for example a man or a woman, a cat or a dog, etc. Clustering is often used in the diagnosis of medical illness, discovery of patterns, etc.