为什么我要复制一个熊猫格式的数据帧

当从父数据帧中选择子数据帧时，我注意到一些程序员使用.copy()方法来复制数据帧。例如,

X = my_dataframe[features_list].copy()

.．.而不仅仅是

X = my_dataframe[features_list]

他们为什么要复制数据帧?如果我不复制一份会怎么样?

当前回答

在使用copy()之前，我非常粗心，直到使用下面这行代码如果不使用copy()， df_genel3中的更改会影响df_genel

df_genel3 = df_genel
df_genel3.loc[(df_genel3['Hareket']=='İmha') , 'Hareket_Tutar'] = tutar

Copy()解决了这个问题

df_genel3 = df_genel.copy()
df_genel3.loc[(df_genel3['Hareket']=='İmha') , 'Hareket_Tutar'] = tutar

2022-04-11 06:45:54

其他回答

这扩展了保罗的回答。在Pandas中，索引一个DataFrame将返回对初始DataFrame的引用。因此，改变子集将改变初始数据帧。因此，如果你想确保初始DataFrame不应该改变，你会想要使用副本。考虑下面的代码:

df = DataFrame({'x': [1,2]})
df_sub = df[0:1]
df_sub.x = -1
print(df)

你会得到:

   x
0 -1
1  2

相比之下，下面的函数保持df不变:

df_sub_copy = df[0:1].copy()
df_sub_copy.x = -1

这个答案在熊猫的新版本中已经被弃用了。看文档

2014-12-28 20:01:49

在使用copy()之前，我非常粗心，直到使用下面这行代码如果不使用copy()， df_genel3中的更改会影响df_genel

df_genel3 = df_genel
df_genel3.loc[(df_genel3['Hareket']=='İmha') , 'Hareket_Tutar'] = tutar

Copy()解决了这个问题

df_genel3 = df_genel.copy()
df_genel3.loc[(df_genel3['Hareket']=='İmha') , 'Hareket_Tutar'] = tutar

2022-04-11 06:45:54

一般来说，在副本上工作比在原始数据帧上工作更安全，除非您知道不再需要原始数据并希望继续使用修改过的版本。通常情况下，您仍然可以将原始数据帧与经过处理的版本进行比较，等等。因此，大多数人都在复制，最后合并。

2018-03-28 23:31:45

因为如果你不复制，那么即使你把dataFrame赋给一个不同的名字，索引仍然可以在其他地方被操纵。

例如:

df2 = df
func1(df2)
func2(df)

Func1可以通过修改df2来修改df，为了避免:

df2 = df.copy()
func1(df2)
func2(df)

2016-09-22 01:27:07

主要目的是避免链式索引和消除SettingWithCopyWarning。

这里链式索引类似于dfc['A'][0] = 111

该文件指出，在返回视图和返回副本时应避免链式索引。以下是该文档中稍作修改的示例:

In [1]: import pandas as pd

In [2]: dfc = pd.DataFrame({'A':['aaa','bbb','ccc'],'B':[1,2,3]})

In [3]: dfc
Out[3]:
    A   B
0   aaa 1
1   bbb 2
2   ccc 3

In [4]: aColumn = dfc['A']

In [5]: aColumn[0] = 111
SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame

In [6]: dfc
Out[6]:
    A   B
0   111 1
1   bbb 2
2   ccc 3

在这里，aColumn是一个视图，而不是原始DataFrame的副本，因此修改aColumn将导致原始dfc也被修改。接下来，如果我们先索引行:

In [7]: zero_row = dfc.loc[0]

In [8]: zero_row['A'] = 222
SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame

In [9]: dfc
Out[9]:
    A   B
0   111 1
1   bbb 2
2   ccc 3

这次zero_row是一个副本，因此原始dfc没有被修改。

从上面的两个例子中，我们可以看到是否要更改原始的DataFrame是不明确的。如果你这样写，这是非常危险的:

In [10]: dfc.loc[0]['A'] = 333
SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame

In [11]: dfc
Out[11]:
    A   B
0   111 1
1   bbb 2
2   ccc 3

这一次，它根本不管用。这里我们想要更改dfc，但实际上我们修改了一个中间值dfc。Loc[0]是一个副本，立即被丢弃。很难预测中间值是否像dfc。loc[0]或dfc['A']是一个视图或副本，所以不保证原始的DataFrame是否会被更新。这就是为什么应该避免链式索引，pandas为这种链式索引更新生成SettingWithCopyWarning。

现在是.copy()的使用。为了消除这个警告，你可以复制一份明确表达你的意图:

In [12]: zero_row_copy = dfc.loc[0].copy()

In [13]: zero_row_copy['A'] = 444 # This time no warning

因为您正在修改一个副本，所以您知道原始dfc永远不会改变，也不期望它会改变。您的期望与行为匹配，然后SettingWithCopyWarning消失。

注意，如果你想修改原始的DataFrame，文档建议你使用loc:

In [14]: dfc.loc[0,'A'] = 555

In [15]: dfc
Out[15]:
    A   B
0   555 1
1   bbb 2
2   ccc 3

2018-10-22 09:58:43

为什么我要复制一个熊猫格式的数据帧

推荐文章

最新文章

标签