可生成式和可生成式的区别是什么 有识别力的算法?
当前回答
假设你有一个输入数据x,你想把数据分类为标签y。生成模型学习联合概率分布p(x,y),判别模型学习条件概率分布p(y|x)——你应该把它理解为“给定x的y的概率”。
这里有一个非常简单的例子。假设你有(x,y)形式的以下数据:
(1,0), (1,0), (2,0), (2, 1)
p (x, y)
y=0 y=1
-----------
x=1 | 1/2 0
x=2 | 1/4 1/4
p (y | x)
y=0 y=1
-----------
x=1 | 1 0
x=2 | 1/2 1/2
如果你花几分钟时间盯着这两个矩阵看,你就会明白这两个概率分布之间的区别。
分布p(y|x)是将给定示例x分类为y类的自然分布,这就是为什么直接对其建模的算法被称为判别算法。生成算法建模p(x,y),应用贝叶斯规则将p(y|x)转化为p(y|x),用于分类。然而,分布p(x,y)也可以用于其他目的。例如,您可以使用p(x,y)来生成可能的(x,y)对。
从上面的描述中,您可能会认为生成模型更普遍,因此更好,但它并不是那么简单。这篇论文是关于区分分类器和生成分类器的一个非常流行的参考,但它相当沉重。总的要点是,在分类任务中,判别模型通常优于生成模型。
其他回答
这是一个额外的信息点,与上面StompChicken的回答相吻合。
判别模型和生成模型的根本区别在于:
判别模型学习类之间的(硬的或软的)边界 生成模型为单个类的分布建模
编辑:
生成式模型是可以生成数据的模型。它同时对特征和类(即完整的数据)建模。
如果我们对P(x,y)建模:我可以使用这个概率分布来生成数据点——因此所有建模P(x,y)的算法都是生成的。
如。生成模型
朴素贝叶斯模型P(c)和P(d|c) -其中c是类,d是特征向量。 P(c,d) = P(c) * P(d|c) 因此,某些形式的朴素贝叶斯模型,P(c,d) 贝叶斯网 马尔可夫网
判别模型是指只能用于对数据点进行判别/分类的模型。 你只需要在这种情况下建模P(y|x),(即给定特征向量的类别概率)。
如。关于判别模型:
逻辑回归 神经网络 条件随机场
一般来说,生成式模型比判别式模型需要更多的建模,因此有时不那么有效。事实上,大多数(不确定是否全部)无监督学习算法,如聚类等,可以被称为生成式,因为它们建模P(d)(并且没有类:P)
附言:部分答案来源于原文
这篇文章帮助我理解了这个概念。
总之,
两者都是概率模型,这意味着它们都使用概率(准确地说,是条件概率)来计算未知数据的类别。 生成式分类器在数据集上应用联合PDF和贝叶斯定理,并使用这些值计算条件概率。 判别分类器直接在数据集上找到条件概率
一些不错的阅读材料:条件概率,联合PDF
想象一下,你的任务是将演讲分类为一种语言。
你可以通过以下任何一种方式:
学习每一种语言,然后用你刚刚学到的知识对它进行分类
or
在不学习语言的情况下确定语言模型的差异,然后对语音进行分类。
第一种是生成方法,第二种是判别方法。
查看参考资料了解更多细节:http://www.cedar.buffalo.edu/~srihari/CSE574/Discriminative-Generative.pdf。
下面是CS299课堂讲稿中最重要的部分(作者:Andrew Ng),它帮助我理解了判别学习算法和生成学习算法之间的区别。
假设我们有两类动物,大象(y = 1)和狗(y = 0), x是动物的特征向量。
给定一个训练集,像逻辑回归或感知器算法这样的算法(基本上)试图找到一条直线——也就是一个决策边界——将大象和狗分开。然后,分类 一种新动物,比如大象或狗,它会检查它的哪一边 决定其所处的边界,并据此做出预测。我们称之为判别学习算法。
这里有一个不同的方法。首先,看看大象,我们可以建立一个 大象的模型。然后,看着狗,我们可以建立一个 单独的狗狗模型。最后,为了给一种新动物分类, 我们可以将新动物与大象模型相匹配,并将其与 狗的模型,看看新动物是否更像大象 或者更像我们在训练场上看到的狗。我们称之为生成式学习算法。
假设你有一个输入数据x,你想把数据分类为标签y。生成模型学习联合概率分布p(x,y),判别模型学习条件概率分布p(y|x)——你应该把它理解为“给定x的y的概率”。
这里有一个非常简单的例子。假设你有(x,y)形式的以下数据:
(1,0), (1,0), (2,0), (2, 1)
p (x, y)
y=0 y=1
-----------
x=1 | 1/2 0
x=2 | 1/4 1/4
p (y | x)
y=0 y=1
-----------
x=1 | 1 0
x=2 | 1/2 1/2
如果你花几分钟时间盯着这两个矩阵看,你就会明白这两个概率分布之间的区别。
分布p(y|x)是将给定示例x分类为y类的自然分布,这就是为什么直接对其建模的算法被称为判别算法。生成算法建模p(x,y),应用贝叶斯规则将p(y|x)转化为p(y|x),用于分类。然而,分布p(x,y)也可以用于其他目的。例如,您可以使用p(x,y)来生成可能的(x,y)对。
从上面的描述中,您可能会认为生成模型更普遍,因此更好,但它并不是那么简单。这篇论文是关于区分分类器和生成分类器的一个非常流行的参考,但它相当沉重。总的要点是,在分类任务中,判别模型通常优于生成模型。
推荐文章
- 如何计算圆周长上的一点?
- 从整数流中找到运行中位数
- 在日历应用程序中建模重复事件的最佳方法是什么?
- 在任何情况下,您更喜欢高大o时间复杂度算法而不是低大o时间复杂度算法吗?
- 关于如何将数据集划分为训练集和验证集,是否存在经验法则?
- 在scikit-learn中保存分类器到磁盘
- 如何使用JavaScript比较软件版本号?数量(只)
- 跳跃表vs.二叉搜索树
- 如何使四舍五入百分比加起来为100%
- 是否有可能得到一个函数的所有参数作为单一对象内的函数?
- LL和LR解析之间的区别是什么?
- log(n!) = Θ(n·log(n))?
- C语言中位反转的高效算法(从MSB->LSB到LSB->MSB)
- 如何解释机器学习模型的损失和准确性
- 递归还是迭代?