我有一个80%类别变量的机器学习分类问题。如果我想使用一些分类器进行分类,我必须使用一个热编码吗?我可以将数据传递给分类器而不进行编码吗?我试图做以下的特征选择:I read the train fi

我有一个熊猫数据框架,我想把它分为3个单独的集。我知道使用sklearn中的train_test_split。交叉验证,可以将数据分为两组(训练和测试)。然而,我无法找到将数据分成三组的任何解决方案。

我如何初始化网络的权重和偏差(通过例如He或Xavier初始化)?

是否有一个经验法则来最好地将数据划分为训练集和验证集?平分妥当吗?或者相对于验证数据,拥有更多的训练数据是否有明显的优势(反之亦然)?或者这个选择很大程度上取决于应用程序?我主要分别使用80% / 2

如何将训练过的朴素贝叶斯分类器保存到磁盘并使用它来预测数据?我从scikit-learn网站上获得了以下示例程序:

当我用Theano或Tensorflow训练我的神经网络时,它们会在每个纪元报告一个名为“损失”的变量。我该如何解释这个变量呢?更高的损失是好是坏,或者它对我的神经网络的最终性能(准确性)意味着什么?

当我们必须预测分类(或离散)结果的值时,我们使用逻辑回归。我相信我们使用线性回归来预测给定输入值的结果值。那么,这两种方法有什么不同呢?

在人工智能和机器学习方面,监督学习和无监督学习的区别是什么?你能举个例子简单地解释一下吗?

从Udacity的深度学习课程中,y_i的softmax仅仅是指数除以整个Y向量的指数之和:其中S(y_i)是y_i的软最大函数e是指数函数j是no。输入向量Y中的列。我试过以下几种方法:返回:但建议

给定一个一维下标数组:我想把它编码成一个2D数组: