假设我有一个带有一些nan的数据框架:

>>> import pandas as pd
>>> df = pd.DataFrame([[1, 2, 3], [4, None, None], [None, None, 9]])
>>> df
    0   1   2
0   1   2   3
1   4 NaN NaN
2 NaN NaN   9

我需要做的是将每个NaN替换为上面同一列中的第一个非NaN值。假定第一行永远不会包含NaN。对于前面的例子,结果是

   0  1  2
0  1  2  3
1  4  2  3
2  4  2  9

我可以一列一列地循环整个DataFrame,一个元素一个元素地循环,然后直接设置值,但是有没有一种简单的(最好是无循环的)方法来实现这一点呢?


当前回答

只有一个列版本

用最后一个有效值填充NAN

df[column_name].fillna(method='ffill', inplace=True)

用下一个有效值填充NAN

df[column_name].fillna(method='backfill', inplace=True)

其他回答

你可以在DataFrame上使用fillna方法,并指定该方法为ffill(前向填充):

>>> df = pd.DataFrame([[1, 2, 3], [4, None, None], [None, None, 9]])
>>> df.fillna(method='ffill')
   0  1  2
0  1  2  3
1  4  2  3
2  4  2  9

这个方法…

将[s]最后一个有效观测值转发到下一个有效观测值

相反,还有一个bfill方法。

这个方法不会修改DataFrame inplace -你需要将返回的DataFrame重新绑定到一个变量,或者指定inplace=True:

df.fillna(method='ffill', inplace=True)

你可以使用pandas.DataFrame.fillna的method='ffill'选项。'ffill'代表'向前填充',并将传播最后有效的观察向前。另一种方法是'bfill',它的工作方式相同,但相反。

import pandas as pd

df = pd.DataFrame([[1, 2, 3], [4, None, None], [None, None, 9]])
df = df.fillna(method='ffill')

print(df)
#   0  1  2
#0  1  2  3
#1  4  2  3
#2  4  2  9

还有一个直接的同义词函数pandas.DataFrame。Ffill,让事情简单点。

在我的例子中,我们有来自不同设备的时间序列,但有些设备在一段时间内无法发送任何值。所以我们应该为每个设备和时间段创建NA值,然后做fillna。

df = pd.DataFrame([["device1", 1, 'first val of device1'], ["device2", 2, 'first val of device2'], ["device3", 3, 'first val of device3']])
df.pivot(index=1, columns=0, values=2).fillna(method='ffill').unstack().reset_index(name='value')

结果:

        0   1   value
0   device1     1   first val of device1
1   device1     2   first val of device1
2   device1     3   first val of device1
3   device2     1   None
4   device2     2   first val of device2
5   device2     3   first val of device2
6   device3     1   None
7   device3     2   None
8   device3     3   first val of device3

可以使用fillna删除或替换NaN值。

南删除

import pandas as pd

df = pd.DataFrame([[1, 2, 3], [4, None, None], [None, None, 9]])

df.fillna(method='ffill')
     0    1    2
0  1.0  2.0  3.0
1  4.0  2.0  3.0
2  4.0  2.0  9.0

南Replace

df.fillna(0) # 0 means What Value you want to replace 
     0    1    2
0  1.0  2.0  3.0
1  4.0  0.0  0.0
2  0.0  0.0  9.0

参考pandas.DataFrame.fillna

只有一个列版本

用最后一个有效值填充NAN

df[column_name].fillna(method='ffill', inplace=True)

用下一个有效值填充NAN

df[column_name].fillna(method='backfill', inplace=True)