在Python Pandas中,检查DataFrame是否有一个(或多个)NaN值的最佳方法是什么?

我知道函数pd。isnan,但这将返回每个元素的布尔值的DataFrame。这篇文章也没有完全回答我的问题。


当前回答

根据您正在处理的数据类型,您还可以在执行EDA时通过将dropna设置为False来获得每列的值计数。

for col in df:
   print df[col].value_counts(dropna=False)

适用于分类变量,但当你有很多唯一值时就不那么适用了。

其他回答

Df.isnull ().any().any()应该这样做。

df.apply(axis=0, func=lambda x : any(pd.isnull(x)))

将检查每一列是否包含Nan。

另一种方法是dropna,检查长度是否相等:

>>> len(df.dropna()) != len(df)
True
>>> 

试试下面的方法

df.isnull().sum()

or

df.isna().values.any()

Jwilner的回答是正确的。我正在探索是否有更快的选择,因为根据我的经验,平坦数组的和(奇怪地)比计数快。这段代码似乎更快:

df.isnull().values.any()

import numpy as np
import pandas as pd
import perfplot


def setup(n):
    df = pd.DataFrame(np.random.randn(n))
    df[df > 0.9] = np.nan
    return df


def isnull_any(df):
    return df.isnull().any()


def isnull_values_sum(df):
    return df.isnull().values.sum() > 0


def isnull_sum(df):
    return df.isnull().sum() > 0


def isnull_values_any(df):
    return df.isnull().values.any()


perfplot.save(
    "out.png",
    setup=setup,
    kernels=[isnull_any, isnull_values_sum, isnull_sum, isnull_values_any],
    n_range=[2 ** k for k in range(25)],
)

df.isnull().sum().sum()有点慢,但当然,它有额外的信息——nan的数量。