我有一个在列a中具有重复值的数据帧,我想删除重复项,保持列B中值最高的行。
所以这个:
A B
1 10
1 20
2 30
2 40
3 10
应该变成这样:
A B
1 20
2 40
3 10
我猜可能有一种简单的方法可以做到这一点——可能就像在删除重复数据之前对DataFrame进行排序一样简单——但是我不太了解groupby的内部逻辑,无法弄清楚它。有什么建议吗?
我有一个在列a中具有重复值的数据帧,我想删除重复项,保持列B中值最高的行。
所以这个:
A B
1 10
1 20
2 30
2 40
3 10
应该变成这样:
A B
1 20
2 40
3 10
我猜可能有一种简单的方法可以做到这一点——可能就像在删除重复数据之前对DataFrame进行排序一样简单——但是我不太了解groupby的内部逻辑,无法弄清楚它。有什么建议吗?
当前回答
我是通过一个重复问题的链接来到这里的。
对于只有两列,这样做不是更简单吗:
df.groupby('A')['B'].max().reset_index()
并且要保留一整行(当有更多列时,这就是把我带到这里的“重复问题”所问的问题):
df.loc[df.groupby(...)[column].idxmax()]
例如,为了保留'C'取最大值的整行,对于每一组['A', 'B'],我们会这样做:
out = df.loc[df.groupby(['A', 'B')['C'].idxmax()]
当有相对较少的组(即,大量的重复)时,这比drop_duplicate()解决方案(更少的排序)更快:
设置:
n = 1_000_000
df = pd.DataFrame({
'A': np.random.randint(0, 20, n),
'B': np.random.randint(0, 20, n),
'C': np.random.uniform(size=n),
'D': np.random.choice(list('abcdefghijklmnopqrstuvwxyz'), size=n),
})
(增加sort_index()以确保相等的解):
%timeit df.loc[df.groupby(['A', 'B'])['C'].idxmax()].sort_index()
# 101 ms ± 98.7 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
%timeit df.sort_values(['C', 'A', 'B'], ascending=False).drop_duplicates(['A', 'B']).sort_index()
# 667 ms ± 784 µs per loop (mean ± std. dev. of 7 runs, 1 loop each)
其他回答
当已经给出的帖子回答了这个问题时,我做了一个小更改,添加了max()函数应用的列名,以提高代码的可读性。
df.groupby('A', as_index=False)['B'].max()
我不会给你完整的答案(我不认为你在寻找解析和写入文件的部分),但一个关键的提示应该足够了:使用python的set()函数,然后sorted()或.sort()加上.reverse():
>>> a=sorted(set([10,60,30,10,50,20,60,50,60,10,30]))
>>> a
[10, 20, 30, 50, 60]
>>> a.reverse()
>>> a
[60, 50, 30, 20, 10]
试试这个:
df.groupby(['A']).max()
这是最后一个。但不是最大值:
In [10]: df.drop_duplicates(subset='A', keep="last")
Out[10]:
A B
1 1 20
3 2 40
4 3 10
你还可以这样做:
In [12]: df.groupby('A', group_keys=False).apply(lambda x: x.loc[x.B.idxmax()])
Out[12]:
A B
A
1 1 20
2 2 40
3 3 10
这是我必须解决的一个值得分享的变化:对于列a中的每个唯一字符串,我想找到列b中最常见的关联字符串。
df.groupby(“一列圆柱”)。gg ({columnB:λx: x.mode () .any ()}) .reset_index ()
any()会在模式相同的情况下选择一个。(注意,对int类型的Series使用.any()将返回一个布尔值,而不是从中选择一个。)
对于原问题,相应的方法简化为
df.groupby(一列圆柱).columnB.agg (max) .reset_index()。