如何检查在熊猫数据框架中是否有NaN值

在Python Pandas中，检查DataFrame是否有一个(或多个)NaN值的最佳方法是什么?

我知道函数pd。isnan，但这将返回每个元素的布尔值的DataFrame。这篇文章也没有完全回答我的问题。

当前回答

df.isnull().sum()

这将为您提供DataFrame各列中所有NaN值的计数。

其他回答

最好的方法是:

df.isna().any().any()

原因如下。所以isna()被用来定义isnull()，但这两者当然是相同的。

这甚至比公认的答案还要快，并且涵盖了所有2D熊猫数组。

由于pandas必须为DataFrame.dropna()找到这一点，我看了看他们是如何实现它的，并发现他们使用了DataFrame.count()，它会计数DataFrame中的所有非空值。参考熊猫源代码。我还没有对这种技术进行基准测试，但我认为库的作者可能已经就如何实现它做出了明智的选择。

另一种方法是dropna，检查长度是否相等:

>>> len(df.dropna()) != len(df)
True
>>>

为此，我们可以使用df.isna().any()语句。这将检查我们所有的列，如果有任何缺失值或nan返回True，如果没有缺失值则返回False。

根据您正在处理的数据类型，您还可以在执行EDA时通过将dropna设置为False来获得每列的值计数。

for col in df:
   print df[col].value_counts(dropna=False)

适用于分类变量，但当你有很多唯一值时就不那么适用了。

推荐文章