pandas GroupBy列的NaN(缺失)值

我有一个DataFrame，在列中有许多缺失的值，我希望通过分组:

import pandas as pd
import numpy as np
df = pd.DataFrame({'a': ['1', '2', '3'], 'b': ['4', np.NaN, '6']})

In [4]: df.groupby('b').groups
Out[4]: {'4': [0], '6': [2]}

看到Pandas已经删除了具有NaN目标值的行。(我想包括这些行!)

因为我需要很多这样的操作(许多cols有缺失的值)，并且使用比中位数更复杂的函数(通常是随机森林)，所以我希望避免编写过于复杂的代码段。

有什么建议吗?我应该写一个函数还是有简单的解决方案?

当前回答

在文档的缺失数据部分提到了这一点:

“GroupBy”中的NA组被自动排除。这个行为与R一致

一个解决方法是在执行groupby(例如-1)之前使用占位符:

In [11]: df.fillna(-1)
Out[11]: 
   a   b
0  1   4
1  2  -1
2  3   6

In [12]: df.fillna(-1).groupby('b').sum()
Out[12]: 
    a
b    
-1  2
4   1
6   3

也就是说，这感觉很糟糕……也许应该有一个选项，包括NaN在groupby(见这个github问题-它使用相同的占位符黑客)。

然而，正如另一个答案所描述的，“从熊猫1.1中，你可以更好地控制这种行为，现在允许在石斑鱼中使用dropna=False的NA值”

2013-08-25 16:55:34

其他回答

熊猫>= 1.1

从熊猫1.1你可以更好地控制这种行为，现在允许NA值在石斑鱼使用dropna=False:

pd.__version__
# '1.1.0.dev0+2004.g8d10bfb6f'

# Example from the docs
df

   a    b  c
0  1  2.0  3
1  1  NaN  4
2  2  1.0  3
3  1  2.0  2

# without NA (the default)
df.groupby('b').sum()

     a  c
b        
1.0  2  3
2.0  2  5

# with NA
df.groupby('b', dropna=False).sum()

     a  c
b        
1.0  2  3
2.0  2  5
NaN  1  4

2020-05-20 21:10:26

古老的话题，如果有人仍然在这个问题上绊倒-另一个解决方案是在分组之前通过.astype(str)转换为字符串。这样可以保存NaN。

df = pd.DataFrame({'a': ['1', '2', '3'], 'b': ['4', np.NaN, '6']})
df['b'] = df['b'].astype(str)
df.groupby(['b']).sum()

2016-10-04 16:20:39

我已经回答了这个问题，但由于某些原因，答案被转换为评论。然而，这是最有效的解决方案:

不能在组中包含(和传播)nan是相当严重的。引用R是没有说服力的，因为这种行为与许多其他事情不一致。不管怎样，虚拟黑客也很糟糕。但是，如果组中存在nan，则组的大小(包括nan)和计数(忽略nan)会有所不同。

dfgrouped = df.groupby(['b']).a.agg(['sum','size','count'])

dfgrouped['sum'][dfgrouped['size']!=dfgrouped['count']] = None

当这些值不同时，您可以将该组的聚合函数结果的值设置为None。

2017-05-23 19:07:02

安迪·海登的解决方案有一个小问题——它不工作了(不再工作了?)因为np。Nan == np。nan的结果是False，所以replace函数实际上不做任何事情。

对我有用的是:

df['b'] = df['b'].apply(lambda x: x if not np.isnan(x) else -1)

(至少这是Pandas 0.19.2的行为。很抱歉补充一个不同的答案，我没有足够的声誉来评论。)

2017-01-23 16:18:56