如何从数据帧中删除nan, inf和-inf值而不重置模式。use_inf_as_null?
我可以告诉dropna包括inf在其缺失值的定义,以便以下工作?
df.dropna(subset=["col1", "col2"], how="all")
如何从数据帧中删除nan, inf和-inf值而不重置模式。use_inf_as_null?
我可以告诉dropna包括inf在其缺失值的定义,以便以下工作?
df.dropna(subset=["col1", "col2"], how="all")
当前回答
只是偶然发现了这一个,我发现了一行没有替换或numpy:
df = pd.DataFrame(
[[1, np.inf],
[1, -np.inf],
[1, 2]],
columns=['a', 'b']
)
df.query("b not in [inf, -inf]")
>>> a b
2 1 2.0
对于某些版本的pandas,可能需要在列b的名称周围使用back '。
其他回答
下面是另一个使用.loc在一个Series上用nan替换inf的方法:
s.loc[(~np.isfinite(s)) & s.notnull()] = np.nan
所以,在回答最初的问题时
df = pd.DataFrame(np.ones((3, 3)), columns=list('ABC'))
for i in range(3):
df.iat[i, i] = np.inf
df
A B C
0 inf 1.000000 1.000000
1 1.000000 inf 1.000000
2 1.000000 1.000000 inf
df.sum()
A inf
B inf
C inf
dtype: float64
df.apply(lambda s: s[np.isfinite(s)].dropna()).sum()
A 2
B 2
C 2
dtype: float64
还有一种解决方案是使用isin方法。使用它来确定每个值是无限的还是缺失的,然后链接all方法来确定行中的所有值是无限的还是缺失的。
最后,使用该结果的负数通过布尔索引选择不全是无穷大或缺失值的行。
all_inf_or_nan = df.isin([np.inf, -np.inf, np.nan]).all(axis='columns')
df[~all_inf_or_nan]
上述解决方案将修改不在目标列中的inf。为了解决这个问题,
lst = [np.inf, -np.inf]
to_replace = {v: lst for v in ['col1', 'col2']}
df.replace(to_replace, np.nan)
与这里的其他答案不同,这一行代码适合我。
import numpy as np
df= df[df['required_column_name']!= np.inf]
首先用NaN替换()infs:
df.replace([np.inf, -np.inf], np.nan, inplace=True)
然后通过dropna()删除nan:
df.dropna(subset=["col1", "col2"], how="all", inplace=True)
例如:
>>> df = pd.DataFrame({"col1": [1, np.inf, -np.inf], "col2": [2, 3, np.nan]})
>>> df
col1 col2
0 1.0 2.0
1 inf 3.0
2 -inf NaN
>>> df.replace([np.inf, -np.inf], np.nan, inplace=True)
>>> df
col1 col2
0 1.0 2.0
1 NaN 3.0
2 NaN NaN
>>> df.dropna(subset=["col1", "col2"], how="all", inplace=True)
>>> df
col1 col2
0 1.0 2.0
1 NaN 3.0
同样的方法也适用于级数。