数据挖掘中分类和聚类的区别?

有人能解释一下数据挖掘中分类和聚类的区别吗?

如果可以，请给出两者的例子以理解主旨。

当前回答

+分类: 给你一些新的数据，你必须为它们设置新的标签。

例如，一家公司希望对其潜在客户进行分类。当一个新客户来的时候，他们必须确定这个客户是否会购买他们的产品。

+集群: 你得到了一组历史交易记录，记录了谁买了什么。

通过使用聚类技术，您可以区分客户的细分。

其他回答

分类 —预测类别标签 -根据训练集和类标签属性中的值(类标签)对数据进行分类(构造模型) —使用该模型对新数据进行分类

集群:数据对象的集合 —同一集群内彼此相似 —与其他集群中的对象不同

通常，在分类中，您有一组预定义的类，并希望知道新对象属于哪个类。

聚类尝试将一组对象分组，并发现对象之间是否存在某种关系。

在机器学习的背景下，分类是监督学习，聚类是无监督学习。

也可以看看维基百科上的分类和聚类。

我认为分类是将数据集中的记录分类为预定义的类，甚至是在运行中定义类。我认为这是任何有价值的数据挖掘的先决条件，我喜欢把它看作无监督学习，即在挖掘数据和分类作为一个很好的起点时，一个人不知道他/她在寻找什么

另一端的聚类属于监督学习，即一个人知道要寻找什么参数，它们之间的相关性以及关键水平。我认为这需要对统计学和数学有所了解

分类:在离散输出中预测结果=>映射输入变量到离散类别

常用用例:

电子邮件分类:垃圾邮件或非垃圾邮件制裁贷款给客户:是的，如果他有能力支付制裁贷款金额的EMI。不行就不行癌症肿瘤细胞鉴定:是关键还是非关键? 推文的情感分析:推文是积极的、消极的还是中性的新闻分类:将新闻分类为预定义的类-政治，体育，健康等

聚类:是对一组对象进行分组，使同一组(称为聚类)中的对象彼此之间(在某种意义上)比其他组(聚类)中的对象更相似。

常用用例:

营销:发现客户细分市场的营销目的生物学:植物和动物的不同种类的分类图书馆:根据主题和信息对不同的书籍进行聚类保险:了解客户、他们的政策并识别欺诈行为城市规划:将房屋分组，并根据其地理位置和其他因素研究其价值。地震研究:确定危险区推荐系统:

引用:

Geeksforgeeks

数据有志者

3叶节点

分类——数据集可以有不同的组/类。红色，绿色和黑色。分类将试图找到将它们划分为不同类别的规则。

聚类——如果一个数据集没有任何类，而你想把它们放在某个类/分组中，你就可以进行聚类。上面紫色的圆圈。

如果分类规则不好，你就会在测试中出现错误分类，或者你的规则不够正确。如果聚类不好，你会有很多异常值。不能落在任何集群中的数据点。

推荐文章