在Python Pandas中,检查DataFrame是否有一个(或多个)NaN值的最佳方法是什么?
我知道函数pd。isnan,但这将返回每个元素的布尔值的DataFrame。这篇文章也没有完全回答我的问题。
在Python Pandas中,检查DataFrame是否有一个(或多个)NaN值的最佳方法是什么?
我知道函数pd。isnan,但这将返回每个元素的布尔值的DataFrame。这篇文章也没有完全回答我的问题。
当前回答
或者你可以在DF上使用.info(),例如:
df.info(null_counts=True)返回列中非_null的行数,例如:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 3276314 entries, 0 to 3276313
Data columns (total 10 columns):
n_matches 3276314 non-null int64
avg_pic_distance 3276314 non-null float64
其他回答
要找出特定列中哪些行有nan:
nan_rows = df[df['name column'].isnull()]
根据您正在处理的数据类型,您还可以在执行EDA时通过将dropna设置为False来获得每列的值计数。
for col in df:
print df[col].value_counts(dropna=False)
适用于分类变量,但当你有很多唯一值时就不那么适用了。
加上霍布斯的精彩回答,我对Python和熊猫很陌生,所以如果我错了,请指出来。
要找出哪些行有nan:
nan_rows = df[df.isnull().any(1)]
将执行相同的操作,而不需要通过将any()的轴指定为1来检查'True'是否在行中存在。
下面是另一种有趣的查找null并替换为计算值的方法
#Creating the DataFrame
testdf = pd.DataFrame({'Tenure':[1,2,3,4,5],'Monthly':[10,20,30,40,50],'Yearly':[10,40,np.nan,np.nan,250]})
>>> testdf2
Monthly Tenure Yearly
0 10 1 10.0
1 20 2 40.0
2 30 3 NaN
3 40 4 NaN
4 50 5 250.0
#Identifying the rows with empty columns
nan_rows = testdf2[testdf2['Yearly'].isnull()]
>>> nan_rows
Monthly Tenure Yearly
2 30 3 NaN
3 40 4 NaN
#Getting the rows# into a list
>>> index = list(nan_rows.index)
>>> index
[2, 3]
# Replacing null values with calculated value
>>> for i in index:
testdf2['Yearly'][i] = testdf2['Monthly'][i] * testdf2['Tenure'][i]
>>> testdf2
Monthly Tenure Yearly
0 10 1 10.0
1 20 2 40.0
2 30 3 90.0
3 40 4 160.0
4 50 5 250.0
import missingno as msno
msno.matrix(df) # just to visualize. no missing value.