为什么使用softmax而不是标准归一化?

在神经网络的输出层，典型的是使用softmax函数来近似一个概率分布:

因为指数的缘故，计算起来很费钱。为什么不简单地执行Z变换，使所有输出都是正的，然后通过将所有输出除以所有输出的和来归一化?

当前回答

选择softmax函数似乎有些武断，因为有许多其他可能的归一化函数。因此，目前还不清楚为什么log-softmax损耗会比其他损耗替代品表现更好。

来自“属于球形损失家族的Softmax替代方案的探索”https://arxiv.org/abs/1511.05042

作者探索了其他一些函数，其中包括泰勒exp展开和所谓的球形软最大值，并发现有时它们可能比通常的软最大值执行得更好。

2017-11-07 08:49:07

其他回答

假设我们改变softmax函数，使输出激活由

where c is a positive constant. Note that c=1 corresponds to the standard softmax function. But if we use a different value of c we get a different function, which is nonetheless qualitatively rather similar to the softmax. In particular, show that the output activations form a probability distribution, just as for the usual softmax. Suppose we allow c to become large, i.e., c→∞. What is the limiting value for the output activations a^L_j? After solving this problem it should be clear to you why we think of the c=1 function as a "softened" version of the maximum function. This is the origin of the term "softmax". You can follow the details from this source (equation 83).

2017-02-16 15:28:12

我发现这里的解释非常好:CS231n:用于视觉识别的卷积神经网络。

从表面上看，softmax算法似乎是一个简单的非线性(我们用指数传播数据)归一化。然而，事情远不止如此。

具体来说，有几个不同的视图(与上面的链接相同):

信息论——从信息论的角度来看，softmax函数可以被看作是试图最小化预测和事实之间的交叉熵。概率视图-从这个角度来看，我们实际上是在看对数概率，因此当我们执行幂运算时，我们最终得到原始概率。在这种情况下，softmax方程找到MLE(最大似然估计)

总之，即使softmax方程看起来是任意的，但它不是。这实际上是规范化分类的一种相当有原则的方式，以最小化预测和事实之间的交叉熵/负可能性。

2015-06-09 22:43:30

我们正在研究一个多类分类问题。也就是说，预测变量y可以取k个类别中的一个，其中k > 2。在概率论中，这通常用多项分布来模拟。多项分布是指数族分布的一个成员。我们可以利用指数族分布的性质重构概率P(k=?|x)，它与softmax公式一致。

如果你相信这个问题可以用另一个分布来建模，而不是多项式分布，那么你就可以得到一个不同于softmax的结论。

有关进一步的信息和正式的推导，请参阅CS229课堂讲稿(9.3 Softmax回归)。

此外，通常对softmax执行的一个有用的技巧是:softmax(x) = softmax(x+c)， softmax在输入中的偏移量不变。

2017-06-12 01:54:01

我已经有这个问题好几个月了。似乎我们只是聪明地把softmax猜测为输出函数，然后把softmax的输入解释为对数概率。正如你所说，为什么不简单地通过除以它们的和来规范化所有输出呢?我在Goodfellow、Bengio和Courville(2016)撰写的《深度学习》一书的6.2.2节中找到了答案。

假设最后一个隐藏层给出z作为激活。那么softmax定义为

非常简短的解释

softmax函数中的exp大致抵消了交叉熵损失中的log，导致损失在z_i中大致为线性。这导致了一个大致恒定的梯度，当模型是错误的，允许它迅速纠正自己。因此，一个错误的饱和软最大值不会导致梯度消失。

简短的解释

训练神经网络最流行的方法是最大似然估计。我们以最大化训练数据(大小为m)的似然的方式估计参数theta。由于整个训练数据集的似然是每个样本的似然的乘积，因此更容易最大化数据集的对数似然，从而最大化以k为索引的每个样本的对数似然的和:

现在，我们只关注z已经给定的软最大值，所以我们可以替换

I是KTH样本的正确类。现在，我们看到，当我们取softmax的对数，来计算样本的对数似然时，我们得到:

，对于z相差较大的情况，大致近似于

首先，我们看到线性分量z_i。其次，我们可以在两种情况下检验max(z)的行为:

如果模型正确，那么max(z)将是z_i。因此，随着z_i和z中的其他项之间的差异越来越大，对数似然渐近于0(即似然为1)。如果模型不正确，则max(z)将是另一个z_j > z_i。因此，z_i的相加并不能完全抵消-z_j，对数似然值大致为(z_i -z_j)。这清楚地告诉模型如何增加log-likelihood:增加z_i，减少z_j。

我们看到，总体对数似然将由样本主导，其中模型是不正确的。此外，即使模型确实不正确，导致饱和软最大值，损失函数也不会饱和。它在z_j中近似是线性的，这意味着我们有一个近似恒定的梯度。这使得模型能够快速自我修正。请注意，这不是均方误差的例子。

长解释

如果softmax对你来说仍然是一个随意的选择，你可以看看在逻辑回归中使用sigmoid的理由:

为什么是s型函数而不是其他函数?

软最大是对多类问题的sigmoid的推广。

2017-12-11 23:50:07

与标准归一化相比，Softmax有一个很好的属性。

它对分布均匀的神经网络的低刺激(想象一个模糊的图像)和高刺激(例如。大数字，想想清晰的图像)，概率接近0和1。

而标准归一化并不关心，只要比例相同。

看看当soft max有10倍大的输入时会发生什么，即你的神经网络得到一个清晰的图像，许多神经元被激活

>>> softmax([1,2])              # blurry image of a ferret
[0.26894142,      0.73105858])  #     it is a cat perhaps !?
>>> softmax([10,20])            # crisp image of a cat
[0.0000453978687, 0.999954602]) #     it is definitely a CAT !

然后与标准归一化进行比较

>>> std_norm([1,2])                      # blurry image of a ferret
[0.3333333333333333, 0.6666666666666666] #     it is a cat perhaps !?
>>> std_norm([10,20])                    # crisp image of a cat
[0.3333333333333333, 0.6666666666666666] #     it is a cat perhaps !?

2017-07-19 09:14:50

为什么使用softmax而不是标准归一化?

推荐文章

最新文章

标签