按列A删除重复项，保留列B中值最高的行

我有一个在列a中具有重复值的数据帧，我想删除重复项，保持列B中值最高的行。

所以这个:

应该变成这样:

我猜可能有一种简单的方法可以做到这一点——可能就像在删除重复数据之前对DataFrame进行排序一样简单——但是我不太了解groupby的内部逻辑，无法弄清楚它。有什么建议吗?

当前回答

你也可以试试这个

df.drop_duplicates(subset='A', keep='last')

我参考了https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.drop_duplicates.html

其他回答

试试这个:

df.groupby(['A']).max()

最简单的解决方案:

删除基于一列的重复项:

df = df.drop_duplicates('column_name', keep='last')

删除基于多个列的重复数据。

df = df.drop_duplicates(['col_name1','col_name2','col_name3'], keep='last')

当已经给出的帖子回答了这个问题时，我做了一个小更改，添加了max()函数应用的列名，以提高代码的可读性。

df.groupby('A', as_index=False)['B'].max()

你也可以试试这个

df.drop_duplicates(subset='A', keep='last')

我参考了https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.drop_duplicates.html

这是我必须解决的一个值得分享的变化:对于列a中的每个唯一字符串，我想找到列b中最常见的关联字符串。

df.groupby(“一列圆柱”)。gg ({columnB:λx: x.mode () .any ()}) .reset_index ()

any()会在模式相同的情况下选择一个。(注意，对int类型的Series使用.any()将返回一个布尔值，而不是从中选择一个。)

对于原问题，相应的方法简化为

df.groupby(一列圆柱).columnB.agg (max) .reset_index()。

推荐文章