在神经网络的输出层,典型的是使用softmax函数来近似一个概率分布:因为指数的缘故,计算起来很费钱。为什么不简单地执行Z变换,使所有输出都是正的,然后通过将所有输出除以所有输出的和来归一化?

从Udacity的深度学习课程中,y_i的softmax仅仅是指数除以整个Y向量的指数之和:其中S(y_i)是y_i的软最大函数e是指数函数j是no。输入向量Y中的列。我试过以下几种方法:返回:但建议