按列A删除重复项，保留列B中值最高的行

我有一个在列a中具有重复值的数据帧，我想删除重复项，保持列B中值最高的行。

所以这个:

应该变成这样:

我猜可能有一种简单的方法可以做到这一点——可能就像在删除重复数据之前对DataFrame进行排序一样简单——但是我不太了解groupby的内部逻辑，无法弄清楚它。有什么建议吗?

当前回答

试试这个:

df.groupby(['A']).max()

其他回答

这是我必须解决的一个值得分享的变化:对于列a中的每个唯一字符串，我想找到列b中最常见的关联字符串。

df.groupby(“一列圆柱”)。gg ({columnB:λx: x.mode () .any ()}) .reset_index ()

any()会在模式相同的情况下选择一个。(注意，对int类型的Series使用.any()将返回一个布尔值，而不是从中选择一个。)

对于原问题，相应的方法简化为

df.groupby(一列圆柱).columnB.agg (max) .reset_index()。

试试这个:

df.groupby(['A']).max()

这是最后一个。但不是最大值:

In [10]: df.drop_duplicates(subset='A', keep="last")
Out[10]: 
   A   B
1  1  20
3  2  40
4  3  10

你还可以这样做:

In [12]: df.groupby('A', group_keys=False).apply(lambda x: x.loc[x.B.idxmax()])
Out[12]: 
   A   B
A       
1  1  20
2  2  40
3  3  10

我认为在你的情况下，你真的不需要一组。我会按B列降序排序，然后在A列删除重复项如果你愿意，你也可以有一个新的nice and 像这样干净的索引:

df.sort_values('B', ascending=False).drop_duplicates('A').sort_index().reset_index(drop=True)

与所选答案非常相似的方法，但是按多列对数据帧进行排序可能是一种更简单的编码方法。

首先，根据“A”和“B”列对日期帧进行排序，ascending=False确保它从最高值到最低值进行排序:

df.sort_values(["A", "B"], ascending=False, inplace=True)

然后，删除重复项，只保留第一项，它已经是值最高的项:

df.drop_duplicates(inplace=True)

推荐文章