如何找到哪些列包含任何NaN值在熊猫数据框架

给定一个pandas数据框架，其中包含可能分散在这里和那里的NaN值:

问:如何确定哪些列包含NaN值?特别是，我能得到包含nan的列名的列表吗?

当前回答

这是其中一种方法。

import pandas as pd
df = pd.DataFrame({'a':[1,2,np.nan], 'b':[np.nan,1,np.nan],'c':[np.nan,2,np.nan], 'd':[np.nan,np.nan,np.nan]})
print(pd.isnull(df).sum())

在这里输入图像描述

2021-06-23 12:33:20

其他回答

这是其中一种方法。

import pandas as pd
df = pd.DataFrame({'a':[1,2,np.nan], 'b':[np.nan,1,np.nan],'c':[np.nan,2,np.nan], 'd':[np.nan,np.nan,np.nan]})
print(pd.isnull(df).sum())

在这里输入图像描述

2021-06-23 12:33:20

如果您希望查找包含NaN值的列并获得列名列表，则该代码可以工作。

na_names = df.isnull().any()
list(na_names.where(na_names == True).dropna().index)

如果要查找值都是nan的列，可以将any替换为all。

2022-01-26 06:50:59

更新:使用熊猫0.22.0

更新的Pandas版本有新的方法“DataFrame.isna()”和“DataFrame.notna()”

In [71]: df
Out[71]:
     a    b  c
0  NaN  7.0  0
1  0.0  NaN  4
2  2.0  NaN  4
3  1.0  7.0  0
4  1.0  3.0  9
5  7.0  4.0  9
6  2.0  6.0  9
7  9.0  6.0  4
8  3.0  0.0  9
9  9.0  0.0  1

In [72]: df.isna().any()
Out[72]:
a     True
b     True
c    False
dtype: bool

作为列列表:

In [74]: df.columns[df.isna().any()].tolist()
Out[74]: ['a', 'b']

选择这些列(至少包含一个NaN值):

In [73]: df.loc[:, df.isna().any()]
Out[73]:
     a    b
0  NaN  7.0
1  0.0  NaN
2  2.0  NaN
3  1.0  7.0
4  1.0  3.0
5  7.0  4.0
6  2.0  6.0
7  9.0  6.0
8  3.0  0.0
9  9.0  0.0

旧的回答:

尝试使用isnull():

In [97]: df
Out[97]:
     a    b  c
0  NaN  7.0  0
1  0.0  NaN  4
2  2.0  NaN  4
3  1.0  7.0  0
4  1.0  3.0  9
5  7.0  4.0  9
6  2.0  6.0  9
7  9.0  6.0  4
8  3.0  0.0  9
9  9.0  0.0  1

In [98]: pd.isnull(df).sum() > 0
Out[98]:
a     True
b     True
c    False
dtype: bool

或者像@root提出的更清晰的版本:

In [5]: df.isnull().any()
Out[5]:
a     True
b     True
c    False
dtype: bool

In [7]: df.columns[df.isnull().any()].tolist()
Out[7]: ['a', 'b']

要选择一个子集-所有列至少包含一个NaN值:

In [31]: df.loc[:, df.isnull().any()]
Out[31]:
     a    b
0  NaN  7.0
1  0.0  NaN
2  2.0  NaN
3  1.0  7.0
4  1.0  3.0
5  7.0  4.0
6  2.0  6.0
7  9.0  6.0
8  3.0  0.0
9  9.0  0.0

2016-03-25 18:54:05

这对我很有效，

1. 用于获取至少有一个空值的列。(列名称)

data.columns[data.isnull().any()]

2. 用于获取具有count的列，且至少有1个空值。

data[data.columns[data.isnull().any()]].isnull().sum()

(可选) 3.获取空计数的百分比。

data[data.columns[data.isnull().any()]].isnull().sum() * 100 / data.shape[0]

2020-06-17 16:25:35

df.columns[df.isnull().any()].tolist()

它将返回包含空行的列的名称

2021-01-09 02:03:06

如何找到哪些列包含任何NaN值在熊猫数据框架

推荐文章

最新文章

标签