关于如何将数据集划分为训练集和验证集，是否存在经验法则?

是否有一个经验法则来最好地将数据划分为训练集和验证集?平分妥当吗?或者相对于验证数据，拥有更多的训练数据是否有明显的优势(反之亦然)?或者这个选择很大程度上取决于应用程序?

我主要分别使用80% / 20%的训练数据和验证数据，但我选择这种划分没有任何原则性的理由。能找个在机器学习方面更有经验的人给我出主意吗?

当前回答

也许63.2% / 36.8%是一个合理的选择。原因可能是，如果总样本量为n，并希望从初始n中随机抽样替换(也称为重新抽样，如在统计引导中)n个案例，那么在重新抽样中选择单个案例的概率将约为0.632，前提是n不是太小，如这里解释的:https://stats.stackexchange.com/a/88993/16263

对于n=250的样本，单个案例被重新抽样到4位数字的概率为0.6329。对于n=20000的样本，概率为0.6321。

2017-02-25 20:27:24

其他回答

这完全取决于手头的数据。如果您有相当多的数据，那么如上所述，80/20是一个不错的选择。但如果你不使用50/50分割的交叉验证，可能会帮助你更多，并防止你创建一个过度拟合训练数据的模型。

2017-06-10 20:59:50

你会惊讶地发现80/20是一个很常见的比率，通常被称为帕累托原则。如果你使用这个比例，通常是一个安全的赌注。

然而，根据您采用的培训/验证方法，这个比例可能会发生变化。例如:如果您使用10次交叉验证，那么您将在每次折叠中得到10%的验证集。

已经有一些关于训练集和验证集之间合适的比例的研究:

为验证集保留的模式的比例应该是自由的数量与平方根成反比可调参数。

在他们的结论中，他们指定了一个公式:

验证集(v)与训练集(t)的大小之比，v/t，规模类似 ln(N/h-max)，其中N是识别器族的数目 H-max是这些族中复杂度最大的。

他们所说的复杂性是: