如何将数据分成3组(训练、验证和测试)?

我有一个熊猫数据框架，我想把它分为3个单独的集。我知道使用sklearn中的train_test_split。交叉验证，可以将数据分为两组(训练和测试)。然而，我无法找到将数据分成三组的任何解决方案。最好是有原始数据的下标。

我知道一个解决办法是使用train_test_split两次，并以某种方式调整索引。但是是否有一种更标准/内置的方法将数据分成3组而不是2组?

当前回答

将数据集分割为训练集和测试集，如在其他答案中一样，使用

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

然后，如果您适合您的模型，您可以添加validation_split作为参数。这样就不需要提前创建验证集。例如:

from tensorflow.keras import Model

model = Model(input_layer, out)

[...]

history = model.fit(x=X_train, y=y_train, [...], validation_split = 0.3)

验证集旨在作为训练集训练期间的代表运行测试集，完全来自训练集，无论是通过k-fold交叉验证(推荐)还是通过validation_split;然后，您不需要单独创建一个验证集，仍然可以将数据集分为您所要求的三个集。

2021-05-23 18:28:54

其他回答

在监督学习的情况下，你可能想拆分X和y(其中X是你的输入，y是基本真理输出)。你只需要注意在分割之前以同样的方式洗牌X和y。

在这里，X和y在同一个数据帧中，所以我们对它们进行洗牌，将它们分开，并对每个数据帧应用拆分(就像在选择的答案中一样)，或者X和y在两个不同的数据帧中，所以我们洗牌X，将y按洗牌X的方式重新排序，并对每个数据帧应用拆分。

# 1st case: df contains X and y (where y is the "target" column of df)
df_shuffled = df.sample(frac=1)
X_shuffled = df_shuffled.drop("target", axis = 1)
y_shuffled = df_shuffled["target"]

# 2nd case: X and y are two separated dataframes
X_shuffled = X.sample(frac=1)
y_shuffled = y[X_shuffled.index]

# We do the split as in the chosen answer
X_train, X_validation, X_test = np.split(X_shuffled, [int(0.6*len(X)),int(0.8*len(X))])
y_train, y_validation, y_test = np.split(y_shuffled, [int(0.6*len(X)),int(0.8*len(X))])

2020-09-04 08:21:27

注意:

函数被编写来处理随机集创建的播种。你不应该依赖集分割，它不会随机化集合。

import numpy as np
import pandas as pd

def train_validate_test_split(df, train_percent=.6, validate_percent=.2, seed=None):
    np.random.seed(seed)
    perm = np.random.permutation(df.index)
    m = len(df.index)
    train_end = int(train_percent * m)
    validate_end = int(validate_percent * m) + train_end
    train = df.iloc[perm[:train_end]]
    validate = df.iloc[perm[train_end:validate_end]]
    test = df.iloc[perm[validate_end:]]
    return train, validate, test

示范

np.random.seed([3,1415])
df = pd.DataFrame(np.random.rand(10, 5), columns=list('ABCDE'))
df

train, validate, test = train_validate_test_split(df)

train

validate

test

2016-07-07 16:47:10

我能想到的最简单的方法是将分割分数映射到数组下标，如下所示:

train_set = data[:int((len(data)+1)*train_fraction)]
test_set = data[int((len(data)+1)*train_fraction):int((len(data)+1)*(train_fraction+test_fraction))]
val_set = data[int((len(data)+1)*(train_fraction+test_fraction)):]

其中data = random.shuffle(data)

2022-03-22 15:33:05

将数据集分割为训练集和测试集，如在其他答案中一样，使用

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

然后，如果您适合您的模型，您可以添加validation_split作为参数。这样就不需要提前创建验证集。例如:

from tensorflow.keras import Model

model = Model(input_layer, out)

[...]

history = model.fit(x=X_train, y=y_train, [...], validation_split = 0.3)

2021-05-23 18:28:54

考虑到df id你的原始数据帧:

1 -首先你在训练和测试之间分割数据(10%):

my_test_size = 0.10

X_train_, X_test, y_train_, y_test = train_test_split(
    df.index.values,
    df.label.values,
    test_size=my_test_size,
    random_state=42,
    stratify=df.label.values,    
)

2 -然后你在训练和验证之间分割训练集(20%):

my_val_size = 0.20

X_train, X_val, y_train, y_val = train_test_split(
    df.loc[X_train_].index.values,
    df.loc[X_train_].label.values,
    test_size=my_val_size,
    random_state=42,
    stratify=df.loc[X_train_].label.values,  
)

3 -然后，根据上述步骤中生成的索引对原始数据帧进行切片:

# data_type is not necessary. 
df['data_type'] = ['not_set']*df.shape[0]
df.loc[X_train, 'data_type'] = 'train'
df.loc[X_val, 'data_type'] = 'val'
df.loc[X_test, 'data_type'] = 'test'

结果是这样的:

注意:此解决方案使用问题中提到的解决方案。

2020-11-30 22:20:23

如何将数据分成3组(训练、验证和测试)?

推荐文章

最新文章

标签