我有一个数据集
category
cat a
cat b
cat a
我希望能够返回(显示唯一值和频率)
category freq
cat a 2
cat b 1
我有一个数据集
category
cat a
cat b
cat a
我希望能够返回(显示唯一值和频率)
category freq
cat a 2
cat b 1
当前回答
对df中的多个列使用列表理解和value_counts
[my_series[c].value_counts() for c in list(my_series.select_dtypes(include=['O']).columns)]
https://stackoverflow.com/a/28192263/786326
其他回答
我相信这应该工作的任何DataFrame列列表。
def column_list(x):
column_list_df = []
for col_name in x.columns:
y = col_name, len(x[col_name].unique())
column_list_df.append(y)
return pd.DataFrame(column_list_df)
column_list_df.rename(columns={0: "Feature", 1: "Value_count"})
函数“column_list”检查列名,然后检查每个列值的唯一性。
n_values = data.income.value_counts()
第一个唯一值计数
n_at_most_50k = n_values[0]
第二个唯一值计数
n_greater_50k = n_values[1]
n_values
输出:
<=50K 34014
>50K 11208
Name: income, dtype: int64
输出:
n_greater_50k,n_at_most_50k:-
(11208, 34014)
df.apply(pd.value_counts).fillna(0)
value_counts -返回包含唯一值计数的对象
在每一列中应用计数频率。如果你设置axis=1,你会得到每一行的频率
Fillna(0) -使输出更花哨。更改NaN为0
如果没有任何库,你可以这样做:
def to_frequency_table(data):
frequencytable = {}
for key in data:
if key in frequencytable:
frequencytable[key] += 1
else:
frequencytable[key] = 1
return frequencytable
例子:
to_frequency_table([1,1,1,1,2,3,4,4])
>>> {1: 4, 2: 1, 3: 1, 4: 2}
在0.18.1中,groupby和count没有给出唯一值的频率:
>>> df
a
0 a
1 b
2 s
3 s
4 b
5 a
6 b
>>> df.groupby('a').count()
Empty DataFrame
Columns: []
Index: [a, b, s]
然而,唯一的值和它们的频率很容易通过大小来确定:
>>> df.groupby('a').size()
a
a 2
b 3
s 2
使用df.a.value_counts(),默认情况下返回排序后的值(降序排列,即最大值在前)。