如何组数据帧行到列表中的熊猫groupby

我有一个熊猫数据帧df像:

a b
A 1
A 2
B 5
B 5
B 4
C 6

我想按第一列分组，并将第二列作为行中的列表:

A [1,2]
B [5,5,4]
C [6]

是否有可能使用pandas groupby来做这样的事情?

当前回答

使用以下任何一种分组和agg食谱。

# Setup
df = pd.DataFrame({
  'a': ['A', 'A', 'B', 'B', 'B', 'C'],
  'b': [1, 2, 5, 5, 4, 6],
  'c': ['x', 'y', 'z', 'x', 'y', 'z']
})
df

   a  b  c
0  A  1  x
1  A  2  y
2  B  5  z
3  B  5  x
4  B  4  y
5  C  6  z

要将多个列聚合为列表，请使用以下任何一种方法:

df.groupby('a').agg(list)
df.groupby('a').agg(pd.Series.tolist)

           b          c
a                      
A     [1, 2]     [x, y]
B  [5, 5, 4]  [z, x, y]
C        [6]        [z]

若要只对单个列进行组列化，请将groupby转换为SeriesGroupBy对象，然后调用SeriesGroupBy.agg。使用,

df.groupby('a').agg({'b': list})  # 4.42 ms 
df.groupby('a')['b'].agg(list)    # 2.76 ms - faster

a
A       [1, 2]
B    [5, 5, 4]
C          [6]
Name: b, dtype: object

2019-04-24 22:35:32

其他回答

我们用df。带有列表和系列构造函数的groupby

pd.Series({x : y.b.tolist() for x , y in df.groupby('a')})
Out[664]: 
A       [1, 2]
B    [5, 5, 4]
C          [6]
dtype: object

2018-11-30 20:59:27

排序耗时O(nlog(n))，是上述方案中耗时最多的操作

对于简单的解决方案(含单列)pd.Series。除非考虑其他框架，否则To_list可以工作并且可以被认为更有效

e.g.

import pandas as pd
from string import ascii_lowercase
import random

def generate_string(case=4):
    return ''.join([random.choice(ascii_lowercase) for _ in range(case)])

df = pd.DataFrame({'num_val':[random.randint(0,100) for _ in range(20000000)],'string_val':[generate_string() for _ in range(20000000)]})


%timeit df.groupby('string_val').agg({'num_val':pd.Series.to_list})

对于2000万条记录，大约需要17.2秒。相比之下，apply(list)大约需要19.2秒，lambda函数大约需要20.6秒

2021-09-02 09:49:34

我发现的实现同样的事情的最简单的方法(至少对于一列)与Anamika的答案类似，只是使用了聚合函数的tuple语法。

df.groupby('a').agg(b=('b','unique'), c=('c','unique'))

2020-05-22 12:34:23

如果在分组多个列时寻找一个唯一的列表，这可能会有所帮助:

df.groupby('a').agg(lambda x: list(set(x))).reset_index()

2019-07-04 17:07:02

就像你说的pd的groupby方法。DataFrame对象可以做这项工作。

例子

 L = ['A','A','B','B','B','C']
 N = [1,2,5,5,4,6]

 import pandas as pd
 df = pd.DataFrame(zip(L,N),columns = list('LN'))


 groups = df.groupby(df.L)

 groups.groups
      {'A': [0, 1], 'B': [2, 3, 4], 'C': [5]}

它给出了组的索引级描述。

例如，要获取单个组的元素，您可以这样做

 groups.get_group('A')

     L  N
  0  A  1
  1  A  2

  groups.get_group('B')

     L  N
  2  B  5
  3  B  5
  4  B  4

2014-03-06 10:12:46

如何组数据帧行到列表中的熊猫groupby

推荐文章

最新文章

标签