在Python Pandas中,检查DataFrame是否有一个(或多个)NaN值的最佳方法是什么?
我知道函数pd。isnan,但这将返回每个元素的布尔值的DataFrame。这篇文章也没有完全回答我的问题。
在Python Pandas中,检查DataFrame是否有一个(或多个)NaN值的最佳方法是什么?
我知道函数pd。isnan,但这将返回每个元素的布尔值的DataFrame。这篇文章也没有完全回答我的问题。
当前回答
试试下面的方法
df.isnull().sum()
or
df.isna().values.any()
其他回答
最好的方法是:
df.isna().any().any()
原因如下。所以isna()被用来定义isnull(),但这两者当然是相同的。
这甚至比公认的答案还要快,并且涵盖了所有2D熊猫数组。
如果你需要知道有多少行有“一个或多个nan”:
df.isnull().T.any().T.sum()
或者如果你需要取出这些行并检查它们:
nan_rows = df[df.isnull().T.any()]
我一直在使用以下和类型转换为字符串,并检查nan值
(str(df.at[index, 'column']) == 'nan')
这允许我检查一个系列中的特定值,而不只是返回如果它包含在系列中的某个地方。
我建议使用值属性作为数组的计算是更快的。
arr = np.random.randn(100, 100)
arr[40, 40] = np.nan
df = pd.DataFrame(arr)
%timeit np.isnan(df.values).any() # 7.56 µs
%timeit np.isnan(df).any() # 627 µs
%timeit df.isna().any(axis=None) # 572 µs
结果:
7.56 µs ± 447 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
627 µs ± 40.3 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
572 µs ± 15.3 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
注意:你需要在Jupyter笔记本上运行%timeit才能工作
import missingno as msno
msno.matrix(df) # just to visualize. no missing value.