有人能解释一下数据挖掘中分类和聚类的区别吗?

如果可以,请给出两者的例子以理解主旨。


当前回答

机器学习或AI在很大程度上是通过它执行/完成的任务来感知的。

在我看来,通过在任务的概念上思考聚类和分类,可以真正帮助理解两者之间的区别。

聚类是对事物进行分组,分类是给事物贴上标签。

让我们假设你在一个派对大厅里,所有的男人都穿着西装,女人都穿着长袍。

现在,你问你的朋友几个问题:

你好,你能帮我分组吗?

你的朋友可能给出的答案有:

1:他可以根据性别分组,男性或女性

2:他可以根据人的衣服来分组,一个穿西装,一个穿长袍

他可以根据头发的颜色把人分类

他可以把人按年龄分组,等等。

你的朋友有很多方法可以完成这个任务。

当然,你可以通过提供额外的信息来影响他的决策过程,比如:

你能帮我把这些人按性别(或年龄,或头发颜色或衣服等)分组吗?

Q2:

在第二季度之前,你需要做一些准备工作。

你必须教导或通知你的朋友,这样他才能做出明智的决定。假设你对你的朋友说:

留长头发的人是女人。 留短发的人是男人。

Q2。现在,你指着一个长头发的人问你的朋友:这是一个男人还是一个女人?

你能想到的唯一答案是:女人。

当然,聚会上也可以有长发的男人和短发的女人。但是,根据你提供给你朋友的知识,答案是正确的。你可以通过教你的朋友如何区分这两者来进一步改进这个过程。

在上面的例子中,

Q1表示集群完成的任务。

在聚类中,你向算法(你的朋友)提供数据(人),并要求它对数据进行分组。

现在,由算法来决定什么是分组的最佳方式?(性别、肤色或年龄组别)。

同样,你可以通过提供额外的输入来影响算法的决策。

Q2表示分类完成的任务。

在那里,你给你的算法(你的朋友)一些数据(人),称为训练数据,并让他学习哪些数据对应哪个标签(男性或女性)。然后,您将算法指向某些数据,称为测试数据,并要求它确定它是男性还是女性。你的教学越好,预测就越准。

在Q2或Classification中的Pre-work只是训练你的模型,这样它就可以学习如何区分。在聚类或Q1中,这个前期工作是分组的一部分。

希望这能帮助到一些人。

谢谢

其他回答

通常,在分类中,您有一组预定义的类,并希望知道新对象属于哪个类。

聚类尝试将一组对象分组,并发现对象之间是否存在某种关系。

在机器学习的背景下,分类是监督学习,聚类是无监督学习。

也可以看看维基百科上的分类和聚类。

+分类: 给你一些新的数据,你必须为它们设置新的标签。

例如,一家公司希望对其潜在客户进行分类。当一个新客户来的时候,他们必须确定这个客户是否会购买他们的产品。

+集群: 你得到了一组历史交易记录,记录了谁买了什么。

通过使用聚类技术,您可以区分客户的细分。

摘自《驯象人在行动》一书,我认为它很好地解释了两者的区别:

分类算法与聚类算法(如k-means算法)相关,但仍有很大不同。 分类算法是监督学习的一种形式,与无监督学习相反,无监督学习发生在聚类算法中。 监督学习算法是一种给出包含目标变量期望值的例子。无监督算法不会得到想要的答案,而是必须自己找到一些合理的答案。

分类:在离散输出中预测结果=>映射输入变量到离散类别

常用用例:

电子邮件分类:垃圾邮件或非垃圾邮件 制裁贷款给客户:是的,如果他有能力支付制裁贷款金额的EMI。不行就不行 癌症肿瘤细胞鉴定:是关键还是非关键? 推文的情感分析:推文是积极的、消极的还是中性的 新闻分类:将新闻分类为预定义的类-政治,体育,健康等

聚类:是对一组对象进行分组,使同一组(称为聚类)中的对象彼此之间(在某种意义上)比其他组(聚类)中的对象更相似。

常用用例:

营销:发现客户细分市场的营销目的 生物学:植物和动物的不同种类的分类 图书馆:根据主题和信息对不同的书籍进行聚类 保险:了解客户、他们的政策并识别欺诈行为 城市规划:将房屋分组,并根据其地理位置和其他因素研究其价值。 地震研究:确定危险区 推荐系统:

引用:

Geeksforgeeks

数据有志者

3叶节点

通过聚类,可以用所需的属性(如数量、形状和提取的聚类的其他属性)对数据进行分组。而在分类中,组的数量和形状是固定的。 大多数聚类算法都给出了聚类个数作为参数。然而,有一些方法可以找出合适的集群数量。