按列A删除重复项，保留列B中值最高的行

我有一个在列a中具有重复值的数据帧，我想删除重复项，保持列B中值最高的行。

所以这个:

应该变成这样:

我猜可能有一种简单的方法可以做到这一点——可能就像在删除重复数据之前对DataFrame进行排序一样简单——但是我不太了解groupby的内部逻辑，无法弄清楚它。有什么建议吗?

当前回答

我将首先对数据帧进行排序，列B降序，然后删除列A的重复项并保持优先

df = df.sort_values(by='B', ascending=False)
df = df.drop_duplicates(subset='A', keep="first")

没有任何分组

2020-03-18 10:46:25

其他回答

我是通过一个重复问题的链接来到这里的。

对于只有两列，这样做不是更简单吗:

df.groupby('A')['B'].max().reset_index()

并且要保留一整行(当有更多列时，这就是把我带到这里的“重复问题”所问的问题):

df.loc[df.groupby(...)[column].idxmax()]

例如，为了保留'C'取最大值的整行，对于每一组['A'， 'B']，我们会这样做:

out = df.loc[df.groupby(['A', 'B')['C'].idxmax()]

当有相对较少的组(即，大量的重复)时，这比drop_duplicate()解决方案(更少的排序)更快:

设置:

n = 1_000_000
df = pd.DataFrame({
    'A': np.random.randint(0, 20, n),
    'B': np.random.randint(0, 20, n),
    'C': np.random.uniform(size=n),
    'D': np.random.choice(list('abcdefghijklmnopqrstuvwxyz'), size=n),
})

(增加sort_index()以确保相等的解):

%timeit df.loc[df.groupby(['A', 'B'])['C'].idxmax()].sort_index()
# 101 ms ± 98.7 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

%timeit df.sort_values(['C', 'A', 'B'], ascending=False).drop_duplicates(['A', 'B']).sort_index()
# 667 ms ± 784 µs per loop (mean ± std. dev. of 7 runs, 1 loop each)

2021-08-21 20:49:38

与所选答案非常相似的方法，但是按多列对数据帧进行排序可能是一种更简单的编码方法。

首先，根据“A”和“B”列对日期帧进行排序，ascending=False确保它从最高值到最低值进行排序:

df.sort_values(["A", "B"], ascending=False, inplace=True)

然后，删除重复项，只保留第一项，它已经是值最高的项:

df.drop_duplicates(inplace=True)

2022-09-02 15:53:24

最简单的方法是:

# First you need to sort this DF as Column A as ascending and column B as descending 
# Then you can drop the duplicate values in A column 
# Optional - you can reset the index and get the nice data frame again
# I'm going to show you all in one step. 

d = {'A': [1,1,2,3,1,2,3,1], 'B': [30, 40,50,42,38,30,25,32]}
df = pd.DataFrame(data=d)
df

    A   B
0   1   30
1   1   40
2   2   50
3   3   42
4   1   38
5   2   30
6   3   25
7   1   32


df = df.sort_values(['A','B'], ascending =[True,False]).drop_duplicates(['A']).reset_index(drop=True)

df

    A   B
0   1   40
1   2   50
2   3   42

2020-05-22 03:33:00

试试这个:

df.groupby(['A']).max()

2012-09-19 15:10:56

我不会给你完整的答案(我不认为你在寻找解析和写入文件的部分)，但一个关键的提示应该足够了:使用python的set()函数，然后sorted()或.sort()加上.reverse():

>>> a=sorted(set([10,60,30,10,50,20,60,50,60,10,30]))
>>> a
[10, 20, 30, 50, 60]
>>> a.reverse()
>>> a
[60, 50, 30, 20, 10]

2012-09-19 15:03:40

按列A删除重复项，保留列B中值最高的行

推荐文章

最新文章

标签