我有一个在列a中具有重复值的数据帧,我想删除重复项,保持列B中值最高的行。

所以这个:

A B
1 10
1 20
2 30
2 40
3 10

应该变成这样:

A B
1 20
2 40
3 10

我猜可能有一种简单的方法可以做到这一点——可能就像在删除重复数据之前对DataFrame进行排序一样简单——但是我不太了解groupby的内部逻辑,无法弄清楚它。有什么建议吗?


当前回答

试试这个:

df.groupby(['A']).max()

其他回答

我不会给你完整的答案(我不认为你在寻找解析和写入文件的部分),但一个关键的提示应该足够了:使用python的set()函数,然后sorted()或.sort()加上.reverse():

>>> a=sorted(set([10,60,30,10,50,20,60,50,60,10,30]))
>>> a
[10, 20, 30, 50, 60]
>>> a.reverse()
>>> a
[60, 50, 30, 20, 10]

与所选答案非常相似的方法,但是按多列对数据帧进行排序可能是一种更简单的编码方法。

首先,根据“A”和“B”列对日期帧进行排序,ascending=False确保它从最高值到最低值进行排序:

df.sort_values(["A", "B"], ascending=False, inplace=True)

然后,删除重复项,只保留第一项,它已经是值最高的项:

df.drop_duplicates(inplace=True)

我将首先对数据帧进行排序,列B降序,然后删除列A的重复项并保持优先

df = df.sort_values(by='B', ascending=False)
df = df.drop_duplicates(subset='A', keep="first")

没有任何分组

当已经给出的帖子回答了这个问题时,我做了一个小更改,添加了max()函数应用的列名,以提高代码的可读性。

df.groupby('A', as_index=False)['B'].max()

这也是可行的:

a=pd.DataFrame({'A':a.groupby('A')['B'].max().index,'B':a.groupby('A')       ['B'].max().values})