我有一个熊猫数据帧df像:

a b
A 1
A 2
B 5
B 5
B 4
C 6

我想按第一列分组,并将第二列作为行中的列表:

A [1,2]
B [5,5,4]
C [6]

是否有可能使用pandas groupby来做这样的事情?


当前回答

如果在分组多个列时寻找一个唯一的列表,这可能会有所帮助:

df.groupby('a').agg(lambda x: list(set(x))).reset_index()

其他回答

就像你说的pd的groupby方法。DataFrame对象可以做这项工作。

例子

 L = ['A','A','B','B','B','C']
 N = [1,2,5,5,4,6]

 import pandas as pd
 df = pd.DataFrame(zip(L,N),columns = list('LN'))


 groups = df.groupby(df.L)

 groups.groups
      {'A': [0, 1], 'B': [2, 3, 4], 'C': [5]}

它给出了组的索引级描述。

例如,要获取单个组的元素,您可以这样做

 groups.get_group('A')

     L  N
  0  A  1
  1  A  2

  groups.get_group('B')

     L  N
  2  B  5
  3  B  5
  4  B  4

我们用df。带有列表和系列构造函数的groupby

pd.Series({x : y.b.tolist() for x , y in df.groupby('a')})
Out[664]: 
A       [1, 2]
B    [5, 5, 4]
C          [6]
dtype: object

我发现的实现同样的事情的最简单的方法(至少对于一列)与Anamika的答案类似,只是使用了聚合函数的tuple语法。

df.groupby('a').agg(b=('b','unique'), c=('c','unique'))

如果在分组多个列时寻找一个唯一的列表,这可能会有所帮助:

df.groupby('a').agg(lambda x: list(set(x))).reset_index()

要解决一个数据框架的几个列的问题:

In [5]: df = pd.DataFrame( {'a':['A','A','B','B','B','C'], 'b':[1,2,5,5,4,6],'c'
   ...: :[3,3,3,4,4,4]})

In [6]: df
Out[6]: 
   a  b  c
0  A  1  3
1  A  2  3
2  B  5  3
3  B  5  4
4  B  4  4
5  C  6  4

In [7]: df.groupby('a').agg(lambda x: list(x))
Out[7]: 
           b          c
a                      
A     [1, 2]     [3, 3]
B  [5, 5, 4]  [3, 4, 4]
C        [6]        [4]

这个答案的灵感来自Anamika Modi的回答。谢谢你!