在接下来的TensorFlow函数中,我们必须在最后一层中输入人工神经元的激活。我能理解。但我不明白为什么叫logits?这不是一个数学函数吗?

loss_function = tf.nn.softmax_cross_entropy_with_logits(
     logits = last_layer,
     labels = target_output
)

当前回答

个人理解,在TensorFlow领域,logits是用作softmax输入的值。我是在这个张量流教程的基础上得到这个理解的。

https://www.tensorflow.org/tutorials/layers


虽然logit确实是数学(尤其是统计学)中的一个函数,但我不认为这是你所看到的那个“logit”。在Ian Goodfellow的《深度学习》一书中,他提到,

函数σ−1(x)在统计学中被称为logit,但这个术语 很少用于机器学习。σ−1(x)为 logistic s型函数的逆函数。

在TensorFlow中,它经常被视为最后一层的名称。在Aurélien Géron的《使用Scikit-learn和TensorFLow进行动手机器学习》一书的第10章中,我看到了这段话,其中清楚地说明了logits层。

注意,logits是神经网络在运行之前的输出 通过softmax激活函数:出于优化原因,我们 稍后将处理softmax计算。

也就是说,虽然我们在设计的最后一层使用了softmax作为激活函数,但是为了计算方便,我们分别取出了logits。这是因为同时计算软最大和交叉熵损失效率更高。记住,交叉熵是一个代价函数,不用于正向传播。

其他回答

个人理解,在TensorFlow领域,logits是用作softmax输入的值。我是在这个张量流教程的基础上得到这个理解的。

https://www.tensorflow.org/tutorials/layers


虽然logit确实是数学(尤其是统计学)中的一个函数,但我不认为这是你所看到的那个“logit”。在Ian Goodfellow的《深度学习》一书中,他提到,

函数σ−1(x)在统计学中被称为logit,但这个术语 很少用于机器学习。σ−1(x)为 logistic s型函数的逆函数。

在TensorFlow中,它经常被视为最后一层的名称。在Aurélien Géron的《使用Scikit-learn和TensorFLow进行动手机器学习》一书的第10章中,我看到了这段话,其中清楚地说明了logits层。

注意,logits是神经网络在运行之前的输出 通过softmax激活函数:出于优化原因,我们 稍后将处理softmax计算。

也就是说,虽然我们在设计的最后一层使用了softmax作为激活函数,但是为了计算方便,我们分别取出了logits。这是因为同时计算软最大和交叉熵损失效率更高。记住,交叉熵是一个代价函数,不用于正向传播。

以下是一个简明的答案,供将来的读者参考。Tensorflow的logit被定义为不应用激活函数的神经元输出:

logit = w*x + b,

X:输入,w:权重,b:偏差。就是这样。


以下内容与这个问题无关。

关于历史课程,请阅读其他答案。向Tensorflow“创造性地”令人困惑的命名惯例致敬。在PyTorch中,只有一个CrossEntropyLoss,它接受未激活的输出。卷积、矩阵乘法和激活都是同一层次的运算。设计更加模块化,更少混乱。这也是我从Tensorflow转向PyTorch的原因之一。

日志

分类模型生成的原始(非归一化)预测向量,然后通常将其传递给归一化函数。如果模型要解决一个多类分类问题,对数通常会成为softmax函数的输入。然后,softmax函数生成一个(规范化)概率向量,每个可能的类都有一个值。

此外,对数有时指的是sigmoid函数的元素逆。有关更多信息,请参见tf.nn.sigmoid_cross_entropy_with_logits。

官方的张量流文档

logit (/ o . oʊdʒɪt/ LOH-jit)函数是数学,特别是统计学中使用的s型“逻辑”函数或逻辑变换的逆函数。当函数的变量表示概率p时,logit函数给出log-odds,或p/(1 - p)的对数。

请看这里:https://en.wikipedia.org/wiki/Logit

Logit是一个将概率[0,1]映射到[-inf, +inf]的函数。

Softmax是一个将[-inf, +inf]映射到[0,1]的函数,类似于Sigmoid。但是Softmax也将值的和(输出向量)归一化为1。

Tensorflow“with logit”:这意味着你正在对logit数字应用一个softmax函数来规范化它。input_vector/logit不是标准化的,可以从[-inf, inf]开始缩放。

这种归一化用于多类分类问题。对于多标签分类问题,使用sigmoid归一化,即tf.nn.sigmoid_cross_entropy_with_logits