什么是logit ?softmax和softmax_cross_entropy_with_logits有什么区别?

在tensorflow API文档中，他们使用了一个叫做logits的关键字。是什么?很多方法都是这样写的:

tf.nn.softmax(logits, name=None)

如果logits只是一个通用的张量输入，为什么它被命名为logits?

其次，以下两种方法有什么区别?

tf.nn.softmax(logits, name=None)
tf.nn.softmax_cross_entropy_with_logits(logits, labels, name=None)

我知道tf.nn.softmax做什么，但不知道其他的。举个例子会很有帮助。

当前回答

对数是神经网络的非标准化输出。Softmax是一个归一化函数，它压缩神经网络的输出，使它们都在0到1之间，并且和为1。Softmax_cross_entropy_with_logits是一个损失函数，它接收神经网络的输出(在它们被softmax压缩后)和这些输出的真实标签，并返回一个损失值。

其他回答

softmax计算通过softmax层的前向传播。当您计算模型输出的概率时，您可以在模型的评估过程中使用它。

tf.nn。Softmax_cross_entropy_with_logits计算一个softmax层的开销。它只在训练时使用。

对数是输出模型的非归一化对数概率(在应用softmax归一化之前输出的值)。

softmax+logits仅仅意味着该函数对早期层的未缩放输出进行操作，并且理解单位的相对缩放是线性的。这意味着，特别是输入的总和可能不等于1，这些值不是概率(你可能有一个5的输入)。在内部，它首先对未缩放的输出应用softmax，然后再计算这些值的交叉熵与标签所定义的“应该”值的交叉熵。

softmax产生将softmax函数应用于输入张量的结果。softmax“压缩”输入，使sum(输入)= 1，它通过将输入解释为对数概率(logits)，然后将它们转换回0到1之间的原始概率来进行映射。softmax的输出形状与输入相同:

a = tf.constant(np.array([[.1, .3, .5, .9]]))
print s.run(tf.nn.softmax(a))
[[ 0.16838508  0.205666    0.25120102  0.37474789]]

有关为什么softmax被广泛用于dnn的更多信息，请参阅这个答案。

tf.nn。Softmax_cross_entropy_with_logits将softmax步骤与应用softmax函数后的交叉熵损失计算结合在一起，但它以一种更精确的数学方式将它们结合在一起。它的结果类似于:

sm = tf.nn.softmax(x)
ce = cross_entropy(sm)

交叉熵是一种汇总度量:它对元素进行汇总。tf.nn的输出。形状[2,5]张量上的Softmax_cross_entropy_with_logits的形状为[2,1](第一个维度被视为批处理)。

如果你想做优化来最小化交叉熵，并且在最后一层之后进行软最大化，你应该使用tf.nn。Softmax_cross_entropy_with_logits而不是自己做，因为它以数学正确的方式涵盖了数值不稳定的角落情况。否则，你就会在这里和那里加上小的。

编辑2016-02-07: 如果您有单个类标签，其中一个对象只能属于一个类，那么您现在可以考虑使用tf.nn。Sparse_softmax_cross_entropy_with_logits，这样您就不必将标签转换为密集的单热数组。该功能是在0.6.0版之后添加的。

以上答案对所问问题有足够的描述。

除此之外，Tensorflow还优化了应用激活函数，然后使用自己的激活和代价函数计算代价的操作。因此，使用tf.nn.softmax_cross_entropy() over tf.nn.softmax()是一个很好的实践;tf.nn.cross_entropy ()

在资源密集型模型中，你可以发现它们之间的显著差异。

学期的数学动机

当我们希望在0和1之间约束输出时，但我们的模型体系结构输出的是不受约束的值，我们可以添加一个规范化层来实现这一点。

一个常见的选择是sigmoid函数在二元分类中，这通常是逻辑函数，而在多类任务中，这是多项逻辑函数(又称为softmax)

如果我们想将新最终层的输出解释为“概率”，那么(隐含地)我们的sigmoid的无约束输入必须是逆sigmoid(概率)。在逻辑情况下，这相当于概率的对数概率(即概率的对数)，也就是logit:

这就是为什么softmax的参数在Tensorflow中被称为logit——因为在假设softmax是模型中的最后一层，输出p被解释为概率的情况下，这一层的输入x可以解释为logit:

普遍的术语

在机器学习中，有一种倾向于概括从数学/统计/计算机科学中借来的术语，因此在Tensorflow中logit(类比)被用作许多归一化函数输入的同义词。

虽然它有很好的性质，如易于微导，以及前面提到的概率解释，但它有点随意。 Softmax可能更准确地称为softargmax，因为它是argmax函数的平滑近似。

推荐文章