向pandas DataFrame对象添加空列的最简单方法是什么?我碰到的最好的是

df['foo'] = df.apply(lambda _: '', axis=1)

有没有更合理的方法?


当前回答

你可以这样做

df['column'] = None #This works. This will create a new column with None type
df.column = None #This will work only when the column is already present in the dataframe 

其他回答

这也适用于多个列:

df = pd.DataFrame({"A": [1,2,3], "B": [2,3,4]})
>>> df
   A  B
0  1  2
1  2  3
2  3  4

df1 = pd.DataFrame(columns=['C','D','E'])
df = df.join(df1, how="outer")

>>>df
    A   B   C   D   E
0   1   2   NaN NaN NaN
1   2   3   NaN NaN NaN
2   3   4   NaN NaN NaN

然后对列做任何你想做的事情 pd.Series.map pd.Series.fillna (), () 等。

df["C"] = ""
df["D"] = np.nan

赋值会给你这个警告SettingWithCopyWarning:

一个值正试图从数据帧(DataFrame)中设置一个片的副本。试一试 使用.loc[row_indexer,col_indexer] = value代替

所以最好使用insert:

df.insert(index, column-name, column-value)

我喜欢:

df['new'] = pd.Series(dtype='int')

# or use other dtypes like 'float', 'object', ...

如果您有一个空的数据框架,这个解决方案确保没有只包含NaN的新行被添加。

指定dtype并不是必须的,但是如果没有指定dtype,更新的Pandas版本会产生DeprecationWarning。

一个更简单的解决方案是:

df = df.reindex(columns = header_list)                

其中“header_list”是你想要显示的标题列表。

列表中包含的任何标题,如果在数据帧中没有找到,将在下面添加空白单元格。

因此,如果

header_list = ['a','b','c', 'd']

然后将c和d添加为带空白单元格的列

@emunsing的回答非常酷,可以添加多列,但我在python 2.7中无法让它为我工作。相反,我发现这个方法很有效:

mydf = mydf.reindex(columns = np.append( mydf.columns.values, ['newcol1','newcol2'])