当我用Theano或Tensorflow训练我的神经网络时,它们会在每个纪元报告一个名为“损失”的变量。我该如何解释这个变量呢?更高的损失是好是坏,或者它对我的神经网络的最终性能(准确性)意味着什么?
当我用Theano或Tensorflow训练我的神经网络时,它们会在每个纪元报告一个名为“损失”的变量。我该如何解释这个变量呢?更高的损失是好是坏,或者它对我的神经网络的最终性能(准确性)意味着什么?
为什么在训练期间需要调用zero_grad() ?
我试图在Haskell中实现一个神经网络架构,并在MNIST上使用它。我在线性代数中使用hmatrix包。我的训练框架是使用pipes包构建的。我的代码编译并没有崩溃。但问题是,某些层大小(比如100
ANN(人工神经网络)和SVM(支持向量机)是监督机器学习和分类的两种流行策略。对于一个特定的项目,通常不清楚哪种方法更好,我确定答案总是“视情况而定”。通常,两者结合使用贝叶斯分类。这些关于Stac
对于任何Keras层(层类),有人能解释一下如何理解input_shape,单位,暗淡等之间的区别吗?例如,文档说单位指定一个层的输出形状。在神经网络的图像中,隐藏层1有4个单元。这是否直接转换为图层
在接下来的TensorFlow函数中,我们必须在最后一层中输入人工神经元的激活。我能理解。但我不明白为什么叫logits?这不是一个数学函数吗?
训练多层感知器时,历元和迭代的区别是什么?
我知道梯度下降和反向传播算法。我不明白的是:什么时候使用偏见是重要的,你如何使用它?例如,在映射AND函数时,当我使用两个输入和一个输出时,它不会给出正确的权重。然而,当我使用三个输入(其中一个是偏差