我如何创建测试和训练样本从一个数据框架与熊猫?

我有一个数据框架形式的相当大的数据集，我想知道我如何能够将数据框架分成两个随机样本(80%和20%)进行训练和测试。

谢谢!

当前回答

在我的例子中，我想用特定的数字分割训练、测试和开发中的数据帧。我在这里分享我的解决方案

首先，为数据帧分配一个唯一的id(如果已经不存在的话)

import uuid
df['id'] = [uuid.uuid4() for i in range(len(df))]

以下是我的分割数字:

train = 120765
test  = 4134
dev   = 2816

分裂函数

def df_split(df, n):
    
    first  = df.sample(n)
    second = df[~df.id.isin(list(first['id']))]
    first.reset_index(drop=True, inplace = True)
    second.reset_index(drop=True, inplace = True)
    return first, second

现在分成培训，测试，开发

train, test = df_split(df, 120765)
test, dev   = df_split(test, 4134)

2020-12-20 09:06:03

其他回答

不需要转换为numpy。只要用pandas df来做拆分，它就会返回一个pandas df。

from sklearn.model_selection import train_test_split

train, test = train_test_split(df, test_size=0.2)

如果你想把x和y分开

X_train, X_test, y_train, y_test = train_test_split(df[list_of_x_cols], df[y_col],test_size=0.2)

如果要分割整个df

X, y = df[list_of_x_cols], df[y_col]

2020-06-06 14:47:40

我会使用numpy的randn:

In [11]: df = pd.DataFrame(np.random.randn(100, 2))

In [12]: msk = np.random.rand(len(df)) < 0.8

In [13]: train = df[msk]

In [14]: test = df[~msk]

为了证明这是有效的:

In [15]: len(test)
Out[15]: 21

In [16]: len(train)
Out[16]: 79

2014-06-10 17:29:25

我会用K-fold交叉验证。它已被证明比train_test_split提供更好的结果。下面是一篇关于如何在sklearn中应用它的文章，来自文档本身:https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html

2021-12-27 06:16:40

示例方法选择数据的一部分，您可以先通过传递种子值来打乱数据。

train = df.sample(frac=0.8, random_state=42)

对于测试集，您可以删除通过train DF索引的行，然后重置新DF的索引。

test = df.drop(train_data.index).reset_index(drop=True)

2022-11-02 06:31:20

Scikit Learn的train_test_split就是一个很好的例子。它将拆分numpy数组和数据框架。

from sklearn.model_selection import train_test_split

train, test = train_test_split(df, test_size=0.2)

2014-06-10 22:19:31

我如何创建测试和训练样本从一个数据框架与熊猫?

推荐文章

最新文章

标签