我如何计算在熊猫数据框架一列的NaN值?

我想找出我的数据的每一列中NaN的数量。

当前回答

下面的代码将按降序打印所有Nan列。

df.isnull().sum().sort_values(ascending = False)

下面将按降序打印前15个Nan列。

df.isnull().sum().sort_values(ascending = False).head(15)

2020-02-16 12:11:34

其他回答

可以使用df.iteritems()对数据帧进行循环。在for循环中设置一个条件来计算每列的NaN值百分比，并删除那些包含NaN值超过设置阈值的值:

for col, val in df.iteritems():
    if (df[col].isnull().sum() / len(val) * 100) > 30:
        df.drop(columns=col, inplace=True)

2022-02-13 17:01:42

下面是按列计数Null值的代码:

df.isna().sum()

2018-06-19 11:47:02

另一种完整的方法是使用np。带有.isna()的count_non0:

np.count_nonzero(df.isna())

%timeit np.count_nonzero(df.isna())
512 ms ± 24.7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

使用1000005行× 16列的数据框架与顶部答案进行比较:

%timeit df.isna().sum()
492 ms ± 55.2 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%timeit df.isnull().sum(axis = 0)
478 ms ± 34.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%timeit count_nan = len(df) - df.count()
484 ms ± 47.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

数据:

raw_data = {'first_name': ['Jason', np.nan, 'Tina', 'Jake', 'Amy'], 
        'last_name': ['Miller', np.nan, np.nan, 'Milner', 'Cooze'], 
        'age': [22, np.nan, 23, 24, 25], 
        'sex': ['m', np.nan, 'f', 'm', 'f'], 
        'Test1_Score': [4, np.nan, 0, 0, 0],
        'Test2_Score': [25, np.nan, np.nan, 0, 0]}
results = pd.DataFrame(raw_data, columns = ['first_name', 'last_name', 'age', 'sex', 'Test1_Score', 'Test2_Score'])

# big dataframe for %timeit 
big_df = pd.DataFrame(np.random.randint(0, 100, size=(1000000, 10)), columns=list('ABCDEFGHIJ'))
df = pd.concat([big_df,results]) # 1000005 rows × 16 columns

2022-03-08 20:00:51

你可以从非nan值的计数中减去总长度:

count_nan = len(df) - df.count()

你应该根据你的数据计算时间。与isnull解相比，小级数的速度提高了3倍。

2014-10-08 21:05:52

数零:

df[df == 0].count(axis=0)

计算NaN:

df.isnull().sum()

df.isna().sum()

2019-07-31 10:59:32

我如何计算在熊猫数据框架一列的NaN值?

推荐文章

最新文章

标签