我有一个熊猫数据框架如下:

      itm Date                  Amount 
67    420 2012-09-30 00:00:00   65211
68    421 2012-09-09 00:00:00   29424
69    421 2012-09-16 00:00:00   29877
70    421 2012-09-23 00:00:00   30990
71    421 2012-09-30 00:00:00   61303
72    485 2012-09-09 00:00:00   71781
73    485 2012-09-16 00:00:00     NaN
74    485 2012-09-23 00:00:00   11072
75    485 2012-09-30 00:00:00  113702
76    489 2012-09-09 00:00:00   64731
77    489 2012-09-16 00:00:00     NaN

当我尝试应用一个函数到金额列,我得到以下错误:

ValueError: cannot convert float NaN to integer

我尝试使用数学模块中的.isnan应用一个函数 我已经尝试了pandas .replace属性 我尝试了pandas 0.9中的.sparse data属性 我还尝试了在函数中if NaN == NaN语句。 我也看了这篇文章我如何替换NA值与零在一个R数据框架?同时看一些其他的文章。 我尝试过的所有方法都不起作用或不能识别NaN。 任何提示或解决方案将不胜感激。


当前回答

下面的代码适合我。

import pandas

df = pandas.read_csv('somefile.txt')

df = df.fillna(0)

其他回答

将所有nan替换为0

df = df.fillna(0)

下面的代码适合我。

import pandas

df = pandas.read_csv('somefile.txt')

df = df.fillna(0)

我只是想提供一点更新/特殊情况,因为看起来人们仍然来这里。如果您正在使用多索引或其他索引切片器,inplace=True选项可能不足以更新您所选择的切片。例如,在2x2级别的多索引中,这不会改变任何值(例如pandas 0.15):

idx = pd.IndexSlice
df.loc[idx[:,mask_1],idx[mask_2,:]].fillna(value=0,inplace=True)

“问题”是链接破坏了fillna更新原始数据框架的能力。我把“问题”加上引号,是因为在某些情况下,设计决策导致不通过这些链进行解释是有充分理由的。此外,这是一个复杂的示例(尽管我真的遇到了它),但同样的情况可能适用于更少的索引级别,这取决于您如何进行切片。

解决方案是DataFrame.update:

df.update(df.loc[idx[:,mask_1],idx[[mask_2],:]].fillna(value=0))

它是一行,读起来相当好(某种程度上),并消除了任何不必要的中间变量或循环混乱,同时允许您将fillna应用到您喜欢的任何多级切片!

如果有人能找到这个不工作的地方,请在评论中发帖,我一直在搞砸它,看看源代码,它似乎至少解决了我的多索引切片问题。

这对我有用,但没人提过。会有什么问题吗?

df.loc[df['column_name'].isnull(), 'column_name'] = 0

考虑到上表中的特定列Amount是整数类型。以下是一个解决方案:

df['Amount'] = df.Amount.fillna(0).astype(int)

类似地,你可以用各种数据类型来填充它,比如float, str等等。

特别地,我会考虑datatype来比较同一列的不同值。