有人能解释一下数据挖掘中分类和聚类的区别吗?

如果可以,请给出两者的例子以理解主旨。


当前回答

分类——数据集可以有不同的组/类。红色,绿色和黑色。分类将试图找到将它们划分为不同类别的规则。

聚类——如果一个数据集没有任何类,而你想把它们放在某个类/分组中,你就可以进行聚类。上面紫色的圆圈。

如果分类规则不好,你就会在测试中出现错误分类,或者你的规则不够正确。 如果聚类不好,你会有很多异常值。不能落在任何集群中的数据点。

其他回答

聚类的目的是在数据中找到组。“集群”是一个直观的概念,确实如此 没有严格的数学定义。一个集群的成员应该是 彼此相似,而与其他集群的成员不同。一个集群 算法对一个未标记的数据集Z进行操作,并在其上生成一个分区。

对于类和类标签, 类包含相似的对象,而来自不同类的对象 是不同的。有些类具有明确的含义,在最简单的情况下 相互排斥。例如,在签名验证中,签名为任意一种 真的或伪造的。真正的阶级是两者之一,不管我们可能不是 能根据观察到的特定特征正确猜测的。

分类和聚类之间的主要区别是: 分类是借助类标签对数据进行分类的过程。另一方面,聚类类似于分类,但没有预定义的类标签。 分类与监督学习相适应。与此相反,聚类也被称为无监督学习。 分类方法提供训练样本,聚类方法不提供训练数据。

希望这对你有所帮助!

分类:在离散输出中预测结果=>映射输入变量到离散类别

常用用例:

电子邮件分类:垃圾邮件或非垃圾邮件 制裁贷款给客户:是的,如果他有能力支付制裁贷款金额的EMI。不行就不行 癌症肿瘤细胞鉴定:是关键还是非关键? 推文的情感分析:推文是积极的、消极的还是中性的 新闻分类:将新闻分类为预定义的类-政治,体育,健康等

聚类:是对一组对象进行分组,使同一组(称为聚类)中的对象彼此之间(在某种意义上)比其他组(聚类)中的对象更相似。

常用用例:

营销:发现客户细分市场的营销目的 生物学:植物和动物的不同种类的分类 图书馆:根据主题和信息对不同的书籍进行聚类 保险:了解客户、他们的政策并识别欺诈行为 城市规划:将房屋分组,并根据其地理位置和其他因素研究其价值。 地震研究:确定危险区 推荐系统:

引用:

Geeksforgeeks

数据有志者

3叶节点

通常,在分类中,您有一组预定义的类,并希望知道新对象属于哪个类。

聚类尝试将一组对象分组,并发现对象之间是否存在某种关系。

在机器学习的背景下,分类是监督学习,聚类是无监督学习。

也可以看看维基百科上的分类和聚类。

我是一个数据挖掘的新手,但正如我的课本所说,分类应该是监督学习,而聚类应该是非监督学习。监督学习和无监督学习之间的区别可以在这里找到。