我有一个数据帧df,我使用几列从它到groupby:
df['col1','col2','col3','col4'].groupby(['col1','col2']).mean()
在上面的方式,我几乎得到表(数据帧),我需要。缺少的是包含每个组中的行数的附加列。换句话说,我有均值,但我也想知道有多少数字被用来得到这些均值。例如,第一组有8个值,第二组有10个值,以此类推。
简而言之:如何获得数据框架的分组统计数据?
我有一个数据帧df,我使用几列从它到groupby:
df['col1','col2','col3','col4'].groupby(['col1','col2']).mean()
在上面的方式,我几乎得到表(数据帧),我需要。缺少的是包含每个组中的行数的附加列。换句话说,我有均值,但我也想知道有多少数字被用来得到这些均值。例如,第一组有8个值,第二组有10个值,以此类推。
简而言之:如何获得数据框架的分组统计数据?
当前回答
要获得多个统计信息,请折叠索引,并保留列名:
df = df.groupby(['col1','col2']).agg(['mean', 'count'])
df.columns = [ ' '.join(str(i) for i in col) for col in df.columns]
df.reset_index(inplace=True)
df
生产:
其他回答
如果你熟悉tidyverse R包,这里有一种在python中实现它的方法:
from datar.all import tibble, rnorm, f, group_by, summarise, mean, n, rep
df = tibble(
col1=rep(['A', 'B'], 5),
col2=rep(['C', 'D'], each=5),
col3=rnorm(10),
col4=rnorm(10)
)
df >> group_by(f.col1, f.col2) >> summarise(
count=n(),
col3_mean=mean(f.col3),
col4_mean=mean(f.col4)
)
col1 col2 n mean_col3 mean_col4
0 A C 3 -0.516402 0.468454
1 A D 2 -0.248848 0.979655
2 B C 2 0.545518 -0.966536
3 B D 3 -0.349836 -0.915293
[Groups: ['col1'] (n=2)]
我是数据包的作者。如果您对使用它有任何问题,请随时提交问题。
瑞士军刀:GroupBy.describe
返回每组的计数、平均值、std和其他有用的统计信息。
df.groupby(['A', 'B'])['C'].describe()
count mean std min 25% 50% 75% max
A B
bar one 1.0 0.40 NaN 0.40 0.40 0.40 0.40 0.40
three 1.0 2.24 NaN 2.24 2.24 2.24 2.24 2.24
two 1.0 -0.98 NaN -0.98 -0.98 -0.98 -0.98 -0.98
foo one 2.0 1.36 0.58 0.95 1.15 1.36 1.56 1.76
three 1.0 -0.15 NaN -0.15 -0.15 -0.15 -0.15 -0.15
two 2.0 1.42 0.63 0.98 1.20 1.42 1.65 1.87
要获得具体的统计数据,只需选择它们,
df.groupby(['A', 'B'])['C'].describe()[['count', 'mean']]
count mean
A B
bar one 1.0 0.400157
three 1.0 2.240893
two 1.0 -0.977278
foo one 2.0 1.357070
three 1.0 -0.151357
two 2.0 1.423148
注意:如果你只需要计算1或2个属性,那么它可能是 使用groupby更快。Agg,然后计算这些列 您正在执行浪费的计算。
describe适用于多个列(将['C']更改为['C', 'D'] -或完全删除它-看看会发生什么,结果是一个MultiIndexed列数据框架)。
您还可以获得字符串数据的不同统计信息。举个例子,
df2 = df.assign(D=list('aaabbccc')).sample(n=100, replace=True)
with pd.option_context('precision', 2):
display(df2.groupby(['A', 'B'])
.describe(include='all')
.dropna(how='all', axis=1))
C D
count mean std min 25% 50% 75% max count unique top freq
A B
bar one 14.0 0.40 5.76e-17 0.40 0.40 0.40 0.40 0.40 14 1 a 14
three 14.0 2.24 4.61e-16 2.24 2.24 2.24 2.24 2.24 14 1 b 14
two 9.0 -0.98 0.00e+00 -0.98 -0.98 -0.98 -0.98 -0.98 9 1 c 9
foo one 22.0 1.43 4.10e-01 0.95 0.95 1.76 1.76 1.76 22 2 a 13
three 15.0 -0.15 0.00e+00 -0.15 -0.15 -0.15 -0.15 -0.15 15 1 c 15
two 26.0 1.49 4.48e-01 0.98 0.98 1.87 1.87 1.87 26 2 b 15
有关更多信息,请参阅文档。
pandas >= 1.1: datafframe .value_counts
如果你只是想捕获每个组的大小,这可以从pandas 1.1中获得,这将删除GroupBy并且更快。
df.value_counts(subset=['col1', 'col2'])
最小的例子
# Setup
np.random.seed(0)
df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',
'foo', 'bar', 'foo', 'foo'],
'B' : ['one', 'one', 'two', 'three',
'two', 'two', 'one', 'three'],
'C' : np.random.randn(8),
'D' : np.random.randn(8)})
df.value_counts(['A', 'B'])
A B
foo two 2
one 2
three 1
bar two 1
three 1
one 1
dtype: int64
其他统计分析工具
如果你在上面没有找到你想要的东西,用户指南有一个支持的静态分析、相关和回归工具的全面列表。
在groupby对象上,agg函数可以接受一个列表,以便一次应用多个聚合方法。这应该会给你你需要的结果:
df[['col1', 'col2', 'col3', 'col4']].groupby(['col1', 'col2']).agg(['mean', 'count'])
另一个选择:
import pandas as pd
import numpy as np
df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',
'foo', 'bar', 'foo', 'foo'],
'B' : ['one', 'one', 'two', 'three',
'two', 'two', 'one', 'three'],
'C' : np.random.randn(8),
'D' : np.random.randn(8)})
df
A B C D
0 foo one 0.808197 2.057923
1 bar one 0.330835 -0.815545
2 foo two -1.664960 -2.372025
3 bar three 0.034224 0.825633
4 foo two 1.131271 -0.984838
5 bar two 2.961694 -1.122788
6 foo one -0.054695 0.503555
7 foo three 0.018052 -0.746912
pd.crosstab(df.A, df.B).stack().reset_index(name='count')
输出:
A B count
0 bar one 1
1 bar three 1
2 bar two 1
3 foo one 2
4 foo three 1
5 foo two 2
请试试这段代码
new_column=df[['col1', 'col2', 'col3', 'col4']].groupby(['col1', 'col2']).count()
df['count_it']=new_column
df
我认为代码将添加一个名为“计数它”的列,计数每组