有人能解释一下数据挖掘中分类和聚类的区别吗?

如果可以,请给出两者的例子以理解主旨。


当前回答

如果你问过任何数据挖掘或机器学习的人这个问题,他们会使用术语监督学习和无监督学习来解释聚类和分类之间的区别。首先让我解释一下有监督和无监督这两个关键词。

Supervised learning: suppose you have a basket and it is filled with some fresh fruits and your task is to arrange the same type fruits at one place. suppose the fruits are apple,banana,cherry, and grape. so you already know from your previous work that, the shape of each and every fruit so it is easy to arrange the same type of fruits at one place. here your previous work is called as trained data in data mining. so you already learn the things from your trained data, This is because of you have a response variable which says you that if some fruit have so and so features it is grape, like that for each and every fruit.

这种类型的数据将从经过训练的数据中获得。 这种类型的学习被称为监督学习。 这种类型的解决问题属于分类。 所以你已经学会了这些东西,所以你可以自信地工作。

无监督: 假设你有一个篮子,里面装满了一些新鲜的水果,你的任务是把相同类型的水果摆放在一个地方。

这一次你对这些水果一无所知,你是第一次看到这些水果,所以你会如何安排相同类型的水果。

你首先要做的是拿起这个水果然后选择这个水果的任何物理特性。假设你取了颜色。

然后你会根据颜色来排列它们,然后这些组会是这样的。 红色组:苹果和樱桃水果。 绿色组:香蕉和葡萄。 那么现在你将用另一个物理字符作为大小,所以现在群是这样的。 红色和大尺寸:苹果。 红色,体积小,樱桃果状。 绿色,大个头:香蕉。 绿色,体积小,葡萄型。 工作完成了,大团圆结局。

这里你之前什么都没学,意味着没有训练数据和响应变量。 这种类型的学习被称为无监督学习。 聚类属于无监督学习。

其他回答

通常,在分类中,您有一组预定义的类,并希望知道新对象属于哪个类。

聚类尝试将一组对象分组,并发现对象之间是否存在某种关系。

在机器学习的背景下,分类是监督学习,聚类是无监督学习。

也可以看看维基百科上的分类和聚类。

机器学习或AI在很大程度上是通过它执行/完成的任务来感知的。

在我看来,通过在任务的概念上思考聚类和分类,可以真正帮助理解两者之间的区别。

聚类是对事物进行分组,分类是给事物贴上标签。

让我们假设你在一个派对大厅里,所有的男人都穿着西装,女人都穿着长袍。

现在,你问你的朋友几个问题:

你好,你能帮我分组吗?

你的朋友可能给出的答案有:

1:他可以根据性别分组,男性或女性

2:他可以根据人的衣服来分组,一个穿西装,一个穿长袍

他可以根据头发的颜色把人分类

他可以把人按年龄分组,等等。

你的朋友有很多方法可以完成这个任务。

当然,你可以通过提供额外的信息来影响他的决策过程,比如:

你能帮我把这些人按性别(或年龄,或头发颜色或衣服等)分组吗?

Q2:

在第二季度之前,你需要做一些准备工作。

你必须教导或通知你的朋友,这样他才能做出明智的决定。假设你对你的朋友说:

留长头发的人是女人。 留短发的人是男人。

Q2。现在,你指着一个长头发的人问你的朋友:这是一个男人还是一个女人?

你能想到的唯一答案是:女人。

当然,聚会上也可以有长发的男人和短发的女人。但是,根据你提供给你朋友的知识,答案是正确的。你可以通过教你的朋友如何区分这两者来进一步改进这个过程。

在上面的例子中,

Q1表示集群完成的任务。

在聚类中,你向算法(你的朋友)提供数据(人),并要求它对数据进行分组。

现在,由算法来决定什么是分组的最佳方式?(性别、肤色或年龄组别)。

同样,你可以通过提供额外的输入来影响算法的决策。

Q2表示分类完成的任务。

在那里,你给你的算法(你的朋友)一些数据(人),称为训练数据,并让他学习哪些数据对应哪个标签(男性或女性)。然后,您将算法指向某些数据,称为测试数据,并要求它确定它是男性还是女性。你的教学越好,预测就越准。

在Q2或Classification中的Pre-work只是训练你的模型,这样它就可以学习如何区分。在聚类或Q1中,这个前期工作是分组的一部分。

希望这能帮助到一些人。

谢谢

聚类是一种对对象进行分组的方法,通过这种方式,具有相似特征的对象聚集在一起,而具有不同特征的对象分开。它是机器学习和数据挖掘中常用的统计数据分析技术。

分类是在训练数据集的基础上识别、区分和理解对象的分类过程。分类是一种有监督的学习技术,其中训练集和正确定义的观察是可用的。

分类和聚类之间的主要区别是: 分类是借助类标签对数据进行分类的过程。另一方面,聚类类似于分类,但没有预定义的类标签。 分类与监督学习相适应。与此相反,聚类也被称为无监督学习。 分类方法提供训练样本,聚类方法不提供训练数据。

希望这对你有所帮助!

分类

是根据从例子中学习,将预定义的类分配给新的观察结果。

这是机器学习的关键任务之一。

聚类(或聚类分析)

尽管被普遍认为是“无监督分类”,但它完全不同。

与许多机器学习者教你的不同,它不是将“类”分配给对象,而是没有预先定义它们。这是做了太多分类的人的有限观点;一个典型的例子,如果你有一个锤子(分类器),所有的东西对你来说都像钉子(分类问题)。但这也是为什么从事分类的人没有掌握聚类的诀窍。

相反,可以将其视为结构发现。聚类的任务是在你的数据中找到你以前不知道的结构(例如组)。如果您学习了一些新的东西,那么群集是成功的。如果你只知道你已经知道的结构,它就失败了。

聚类分析是数据挖掘的关键任务(也是机器学习中的丑小鸭,所以不要相信机器学习者对聚类的否定)。

“无监督学习”有点矛盾

这在文献中反复出现,但无监督学习是该死的。它并不存在,但它就像“军事情报”一样自相矛盾。

算法要么从例子中学习(那么它就是“监督学习”),要么不学习。如果所有的聚类方法都是“学习”,那么计算一个数据集的最小值、最大值和平均值也是“无监督学习”。然后任何计算“学习”它的输出。因此,术语“无监督学习”是完全没有意义的,它意味着一切和什么都不是。

Some "unsupervised learning" algorithms do, however, fall into the optimization category. For example k-means is a least-squares optimization. Such methods are all over statistics, so I don't think we need to label them "unsupervised learning", but instead should continue to call them "optimization problems". It's more precise, and more meaningful. There are plenty of clustering algorithms who do not involve optimization, and who do not fit into machine-learning paradigms well. So stop squeezing them in there under the umbrella "unsupervised learning".

有一些与集群相关的“学习”,但学习的不是程序。用户应该学习关于他的数据集的新东西。