在Python Pandas中,检查DataFrame是否有一个(或多个)NaN值的最佳方法是什么?
我知道函数pd。isnan,但这将返回每个元素的布尔值的DataFrame。这篇文章也没有完全回答我的问题。
在Python Pandas中,检查DataFrame是否有一个(或多个)NaN值的最佳方法是什么?
我知道函数pd。isnan,但这将返回每个元素的布尔值的DataFrame。这篇文章也没有完全回答我的问题。
当前回答
试试下面的方法
df.isnull().sum()
or
df.isna().values.any()
其他回答
由于pandas必须为DataFrame.dropna()找到这一点,我看了看他们是如何实现它的,并发现他们使用了DataFrame.count(),它会计数DataFrame中的所有非空值。参考熊猫源代码。我还没有对这种技术进行基准测试,但我认为库的作者可能已经就如何实现它做出了明智的选择。
加上霍布斯的精彩回答,我对Python和熊猫很陌生,所以如果我错了,请指出来。
要找出哪些行有nan:
nan_rows = df[df.isnull().any(1)]
将执行相同的操作,而不需要通过将any()的轴指定为1来检查'True'是否在行中存在。
为此,我们可以使用df.isna().any()语句。这将检查我们所有的列,如果有任何缺失值或nan返回True,如果没有缺失值则返回False。
根据您正在处理的数据类型,您还可以在执行EDA时通过将dropna设置为False来获得每列的值计数。
for col in df:
print df[col].value_counts(dropna=False)
适用于分类变量,但当你有很多唯一值时就不那么适用了。
要找出特定列中哪些行有nan:
nan_rows = df[df['name column'].isnull()]