我有以下索引DataFrame命名列和行不连续的数字:
a b c d
2 0.671399 0.101208 -0.181532 0.241273
3 0.446172 -0.243316 0.051767 1.577318
5 0.614758 0.075793 -0.451460 -0.012493
我想添加一个新列,'e',到现有的数据帧,并不想改变数据帧中的任何东西(即,新列始终具有与DataFrame相同的长度)。
0 -0.335485
1 -1.166658
2 -0.385571
dtype: float64
如何将列e添加到上面的例子中?
要在数据帧的给定位置(0 <= loc <=列的数量)插入一个新列,只需使用datafframe .insert:
DataFrame.insert(loc, column, value)
因此,如果你想在一个名为df的数据帧的末尾添加列e,你可以使用:
e = [-0.335485, -1.166658, -0.385571]
DataFrame.insert(loc=len(df.columns), column='e', value=e)
value可以是一个Series,一个整数(在这种情况下,所有单元格都被这个值填充),或者一个类似数组的结构
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.insert.html
编辑2017
正如@Alexander在评论中所指出的,目前将Series的值添加为DataFrame的新列的最好方法是使用assign:
df1 = df1.assign(e=pd.Series(np.random.randn(sLength)).values)
编辑2015
有些人报告说用这段代码得到了SettingWithCopyWarning。
但是,该代码仍然可以在当前的pandas版本0.16.1中完美运行。
>>> sLength = len(df1['a'])
>>> df1
a b c d
6 -0.269221 -0.026476 0.997517 1.294385
8 0.917438 0.847941 0.034235 -0.448948
>>> df1['e'] = pd.Series(np.random.randn(sLength), index=df1.index)
>>> df1
a b c d e
6 -0.269221 -0.026476 0.997517 1.294385 1.757167
8 0.917438 0.847941 0.034235 -0.448948 2.228131
>>> pd.version.short_version
'0.16.1'
SettingWithCopyWarning的目的是通知数据帧副本上可能存在的无效赋值。它不一定会说你做错了(它可能会触发假阳性),但从0.13.0开始,它会让你知道有更多适合相同目的的方法。然后,如果您得到警告,只需遵循它的建议:尝试使用.loc[row_index,col_indexer] = value代替
>>> df1.loc[:,'f'] = pd.Series(np.random.randn(sLength), index=df1.index)
>>> df1
a b c d e f
6 -0.269221 -0.026476 0.997517 1.294385 1.757167 -0.050927
8 0.917438 0.847941 0.034235 -0.448948 2.228131 0.006109
>>>
事实上,这是目前熊猫文档中描述的更有效的方法
最初的回答:
使用原始的df1索引创建系列:
df1['e'] = pd.Series(np.random.randn(sLength), index=df1.index)
我得到了可怕的SettingWithCopyWarning,它没有通过使用iloc语法修复。我的DataFrame是由read_sql从ODBC源创建的。根据上面low - tech的建议,以下方法对我来说是有效的:
df.insert(len(df.columns), 'e', pd.Series(np.random.randn(sLength), index=df.index))
This worked fine to insert the column at the end. I don't know if it is the most efficient, but I don't like warning messages. I think there is a better solution, but I can't find it, and I think it depends on some aspect of the index.
Note. That this only works once and will give an error message if trying to overwrite and existing column.
Note As above and from 0.16.0 assign is the best solution. See documentation http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.assign.html#pandas.DataFrame.assign
Works well for data flow type where you don't overwrite your intermediate values.