数据挖掘中分类和聚类的区别?

有人能解释一下数据挖掘中分类和聚类的区别吗?

如果可以，请给出两者的例子以理解主旨。

当前回答

分类

是根据从例子中学习，将预定义的类分配给新的观察结果。

这是机器学习的关键任务之一。

聚类(或聚类分析)

尽管被普遍认为是“无监督分类”，但它完全不同。

与许多机器学习者教你的不同，它不是将“类”分配给对象，而是没有预先定义它们。这是做了太多分类的人的有限观点;一个典型的例子，如果你有一个锤子(分类器)，所有的东西对你来说都像钉子(分类问题)。但这也是为什么从事分类的人没有掌握聚类的诀窍。

相反，可以将其视为结构发现。聚类的任务是在你的数据中找到你以前不知道的结构(例如组)。如果您学习了一些新的东西，那么群集是成功的。如果你只知道你已经知道的结构，它就失败了。

聚类分析是数据挖掘的关键任务(也是机器学习中的丑小鸭，所以不要相信机器学习者对聚类的否定)。

“无监督学习”有点矛盾

这在文献中反复出现，但无监督学习是该死的。它并不存在，但它就像“军事情报”一样自相矛盾。

算法要么从例子中学习(那么它就是“监督学习”)，要么不学习。如果所有的聚类方法都是“学习”，那么计算一个数据集的最小值、最大值和平均值也是“无监督学习”。然后任何计算“学习”它的输出。因此，术语“无监督学习”是完全没有意义的，它意味着一切和什么都不是。

Some "unsupervised learning" algorithms do, however, fall into the optimization category. For example k-means is a least-squares optimization. Such methods are all over statistics, so I don't think we need to label them "unsupervised learning", but instead should continue to call them "optimization problems". It's more precise, and more meaningful. There are plenty of clustering algorithms who do not involve optimization, and who do not fit into machine-learning paradigms well. So stop squeezing them in there under the umbrella "unsupervised learning".

有一些与集群相关的“学习”，但学习的不是程序。用户应该学习关于他的数据集的新东西。

2015-08-19 12:53:23

其他回答

There are two definitions in data mining "Supervised" and "Unsupervised". When someone tells the computer, algorithm, code, ... that this thing is like an apple and that thing is like an orange, this is supervised learning and using supervised learning (like tags for each sample in a data set) for classifying the data, you'll get classification. But on the other hand if you let the computer find out what is what and differentiate between features of the given data set, in fact learning unsupervised, for classifying the data set this would be called clustering. In this case data that are fed to the algorithm don't have tags and the algorithm should find out different classes.

2017-02-27 21:19:44

我认为分类是将数据集中的记录分类为预定义的类，甚至是在运行中定义类。我认为这是任何有价值的数据挖掘的先决条件，我喜欢把它看作无监督学习，即在挖掘数据和分类作为一个很好的起点时，一个人不知道他/她在寻找什么

另一端的聚类属于监督学习，即一个人知道要寻找什么参数，它们之间的相关性以及关键水平。我认为这需要对统计学和数学有所了解

2013-08-19 21:07:17

分类:在离散输出中预测结果=>映射输入变量到离散类别

常用用例:

电子邮件分类:垃圾邮件或非垃圾邮件制裁贷款给客户:是的，如果他有能力支付制裁贷款金额的EMI。不行就不行癌症肿瘤细胞鉴定:是关键还是非关键? 推文的情感分析:推文是积极的、消极的还是中性的新闻分类:将新闻分类为预定义的类-政治，体育，健康等

聚类:是对一组对象进行分组，使同一组(称为聚类)中的对象彼此之间(在某种意义上)比其他组(聚类)中的对象更相似。

常用用例:

营销:发现客户细分市场的营销目的生物学:植物和动物的不同种类的分类图书馆:根据主题和信息对不同的书籍进行聚类保险:了解客户、他们的政策并识别欺诈行为城市规划:将房屋分组，并根据其地理位置和其他因素研究其价值。地震研究:确定危险区推荐系统:

引用:

Geeksforgeeks