我如何计算在熊猫数据框架一列的NaN值?

我想找出我的数据的每一列中NaN的数量。

当前回答

下面是按列计数Null值的代码:

df.isna().sum()

2018-06-19 11:47:02

其他回答

如果你需要得到非NA (non-None)和NA (None)计数在不同的组拉出groupby:

gdf = df.groupby(['ColumnToGroupBy'])

def countna(x):
    return (x.isna()).sum()

gdf.agg(['count', countna, 'size'])

这将返回每个组的非NA、NA和总条目数。

2018-12-28 18:26:43

数零:

df[df == 0].count(axis=0)

计算NaN:

df.isnull().sum()

df.isna().sum()

2019-07-31 10:59:32

如果你正在使用Jupyter笔记本，如何....

 %%timeit
 df.isnull().any().any()

 %timeit 
 df.isnull().values.sum()

或者，数据中是否存在nan，如果有，在哪里?

 df.isnull().any()

2016-04-19 06:23:08

你可以使用value_counts方法打印np.nan的值

s.value_counts(dropna = False)[np.nan]

2017-05-10 18:13:46

另一种完整的方法是使用np。带有.isna()的count_non0:

np.count_nonzero(df.isna())

%timeit np.count_nonzero(df.isna())
512 ms ± 24.7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

使用1000005行× 16列的数据框架与顶部答案进行比较:

%timeit df.isna().sum()
492 ms ± 55.2 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%timeit df.isnull().sum(axis = 0)
478 ms ± 34.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%timeit count_nan = len(df) - df.count()
484 ms ± 47.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

数据:

raw_data = {'first_name': ['Jason', np.nan, 'Tina', 'Jake', 'Amy'], 
        'last_name': ['Miller', np.nan, np.nan, 'Milner', 'Cooze'], 
        'age': [22, np.nan, 23, 24, 25], 
        'sex': ['m', np.nan, 'f', 'm', 'f'], 
        'Test1_Score': [4, np.nan, 0, 0, 0],
        'Test2_Score': [25, np.nan, np.nan, 0, 0]}
results = pd.DataFrame(raw_data, columns = ['first_name', 'last_name', 'age', 'sex', 'Test1_Score', 'Test2_Score'])

# big dataframe for %timeit 
big_df = pd.DataFrame(np.random.randint(0, 100, size=(1000000, 10)), columns=list('ABCDEFGHIJ'))
df = pd.concat([big_df,results]) # 1000005 rows × 16 columns

2022-03-08 20:00:51

我如何计算在熊猫数据框架一列的NaN值?

推荐文章

最新文章

标签