向pandas DataFrame对象添加空列的最简单方法是什么?我碰到的最好的是
df['foo'] = df.apply(lambda _: '', axis=1)
有没有更合理的方法?
向pandas DataFrame对象添加空列的最简单方法是什么?我碰到的最好的是
df['foo'] = df.apply(lambda _: '', axis=1)
有没有更合理的方法?
当前回答
我喜欢:
df['new'] = pd.Series(dtype='int')
# or use other dtypes like 'float', 'object', ...
如果您有一个空的数据框架,这个解决方案确保没有只包含NaN的新行被添加。
指定dtype并不是必须的,但是如果没有指定dtype,更新的Pandas版本会产生DeprecationWarning。
其他回答
一个更简单的解决方案是:
df = df.reindex(columns = header_list)
其中“header_list”是你想要显示的标题列表。
列表中包含的任何标题,如果在数据帧中没有找到,将在下面添加空白单元格。
因此,如果
header_list = ['a','b','c', 'd']
然后将c和d添加为带空白单元格的列
我喜欢:
df['new'] = pd.Series(dtype='int')
# or use other dtypes like 'float', 'object', ...
如果您有一个空的数据框架,这个解决方案确保没有只包含NaN的新行被添加。
指定dtype并不是必须的,但是如果没有指定dtype,更新的Pandas版本会产生DeprecationWarning。
从v0.16.0开始,可以使用DF.assign()将新列(单个/多个)分配给DF。这些列按字母顺序插入DF的末尾。
当你想直接对返回的数据帧执行一系列链式操作时,这比简单的赋值更有优势。
考虑@DSM演示的相同DF示例:
df = pd.DataFrame({"A": [1,2,3], "B": [2,3,4]})
df
Out[18]:
A B
0 1 2
1 2 3
2 3 4
df.assign(C="",D=np.nan)
Out[21]:
A B C D
0 1 2 NaN
1 2 3 NaN
2 3 4 NaN
请注意,这将返回一个副本,其中包含所有以前的列以及新创建的列。为了对原始DF进行相应的修改,可以这样使用:DF = DF .assign(…),因为它目前不支持就地操作。
@emunsing的回答非常酷,可以添加多列,但我在python 2.7中无法让它为我工作。相反,我发现这个方法很有效:
mydf = mydf.reindex(columns = np.append( mydf.columns.values, ['newcol1','newcol2'])
df["C"] = ""
df["D"] = np.nan
赋值会给你这个警告SettingWithCopyWarning:
一个值正试图从数据帧(DataFrame)中设置一个片的副本。试一试 使用.loc[row_indexer,col_indexer] = value代替
所以最好使用insert:
df.insert(index, column-name, column-value)