在Python Pandas中,检查DataFrame是否有一个(或多个)NaN值的最佳方法是什么?
我知道函数pd。isnan,但这将返回每个元素的布尔值的DataFrame。这篇文章也没有完全回答我的问题。
在Python Pandas中,检查DataFrame是否有一个(或多个)NaN值的最佳方法是什么?
我知道函数pd。isnan,但这将返回每个元素的布尔值的DataFrame。这篇文章也没有完全回答我的问题。
当前回答
Df.isnull ().any().any()应该这样做。
其他回答
df为Pandas数据框架的名称,任意值为numpy。Nan为空值。
如果你想查看哪些列有空,哪些没有(只有True和False) .any df.isnull () () 如果您只想查看有空值的列 df。loc [: df.isnull () .any ()] .columns 如果您想查看每一列中null的计数 .sum df.isna () () 如果您想查看每一列中空的百分比 .sum df.isna () () / (len (df)) * 100 如果你想查看只有空值的列中空值的百分比:
df.loc[:,list(df.loc[:,df.isnull().any()].columns)].isnull().sum()/(len(df))*100
编辑1:
如果你想从视觉上看到数据缺失的地方:
import missingno
missingdata_df = df.columns[df.isnull().any()].tolist()
missingno.matrix(df[missingdata_df])
根据您正在处理的数据类型,您还可以在执行EDA时通过将dropna设置为False来获得每列的值计数。
for col in df:
print df[col].value_counts(dropna=False)
适用于分类变量,但当你有很多唯一值时就不那么适用了。
只是用 math.isnan(x),如果x是NaN(不是数字)则返回True,否则返回False。
或者你可以在DF上使用.info(),例如:
df.info(null_counts=True)返回列中非_null的行数,例如:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 3276314 entries, 0 to 3276313
Data columns (total 10 columns):
n_matches 3276314 non-null int64
avg_pic_distance 3276314 non-null float64
df.apply(axis=0, func=lambda x : any(pd.isnull(x)))
将检查每一列是否包含Nan。