熊猫的计数(不同)相当于

我使用熊猫作为数据库替代品，因为我有多个数据库(Oracle, SQL Server等)，我无法使一个SQL等量命令序列。

我有一个表加载在一个DataFrame与一些列:

YEARMONTH, CLIENTCODE, SIZE, etc., etc.

在SQL中，计算每年不同客户端的数量将是:

SELECT count(distinct CLIENTCODE) FROM table GROUP BY YEARMONTH;

结果就是

201301    5000
201302    13245

我如何在熊猫中做到这一点?

当前回答

创建一个数据透视表并使用非唯一级数函数:

ID = [ 123, 123, 123, 456, 456, 456, 456, 789, 789]
domain = ['vk.com', 'vk.com', 'twitter.com', 'vk.com', 'facebook.com',
          'vk.com', 'google.com', 'twitter.com', 'vk.com']
df = pd.DataFrame({'id':ID, 'domain':domain})
fp = pd.pivot_table(data=df, index='domain', aggfunc=pd.Series.nunique)
print(fp)

输出:

               id
domain
facebook.com   1
google.com     1
twitter.com    2
vk.com         3

2021-06-28 14:15:31

其他回答

我也使用nunique，但如果你必须使用'min'， 'max'， 'count'或'mean'等聚合函数，这将是非常有用的。

df.groupby('YEARMONTH')['CLIENTCODE'].transform('nunique') #count(distinct)
df.groupby('YEARMONTH')['CLIENTCODE'].transform('min')     #min
df.groupby('YEARMONTH')['CLIENTCODE'].transform('max')     #max
df.groupby('YEARMONTH')['CLIENTCODE'].transform('mean')    #average
df.groupby('YEARMONTH')['CLIENTCODE'].transform('count')   #count

2019-08-01 09:38:19

创建一个数据透视表并使用非唯一级数函数:

ID = [ 123, 123, 123, 456, 456, 456, 456, 789, 789]
domain = ['vk.com', 'vk.com', 'twitter.com', 'vk.com', 'facebook.com',
          'vk.com', 'google.com', 'twitter.com', 'vk.com']
df = pd.DataFrame({'id':ID, 'domain':domain})
fp = pd.pivot_table(data=df, index='domain', aggfunc=pd.Series.nunique)
print(fp)

输出:

               id
domain
facebook.com   1
google.com     1
twitter.com    2
vk.com         3

2021-06-28 14:15:31

不同的列以及其他列上的聚合

要获得任何列(在您的例子中是CLIENTCODE)的不同值数量，我们可以使用nunique。我们可以在agg函数中传递输入作为字典，以及其他列上的聚合:

grp_df = df.groupby('YEARMONTH').agg({'CLIENTCODE': ['nunique'],
                                      'other_col_1': ['sum', 'count']})

# to flatten the multi-level columns
grp_df.columns = ["_".join(col).strip() for col in grp_df.columns.values]

# if you wish to reset the index
grp_df.reset_index(inplace=True)

2020-04-20 10:47:51

有趣的是，len(unique())通常比nunique()快几倍(3 -15倍)。

2014-05-05 02:59:28

这是另一种简单得多的方法。假设你的数据框架名为daat，列名为YEARMONTH:

daat.YEARMONTH.value_counts()

2017-07-02 11:16:54

熊猫的计数(不同)相当于

推荐文章

最新文章

标签