Python熊猫删除重复的列

从数据框架中删除重复列的最简单方法是什么?

我正在阅读一个文本文件，通过重复的列:

import pandas as pd

df=pd.read_table(fname)

列名为:

Time, Time Relative, N2, Time, Time Relative, H2, etc...

所有“时间”和“时间相对”列包含相同的数据。我想要:

Time, Time Relative, N2, H2

我所有的尝试删除，删除等，如:

df=df.T.drop_duplicates().T

导致唯一值的索引错误:

Reindexing only valid with uniquely valued index objects

对不起，我是熊猫的菜鸟。任何建议将不胜感激。

额外的细节

熊猫版本:0.9.0 Python版本:2.7.3 Windows 7 (通过Pythonxy 2.7.3.0安装)

数据文件(注:在实际文件中，列之间以制表符分隔，此处以4个空格分隔):

Time    Time Relative [s]    N2[%]    Time    Time Relative [s]    H2[ppm]
2/12/2013 9:20:55 AM    6.177    9.99268e+001    2/12/2013 9:20:55 AM    6.177    3.216293e-005    
2/12/2013 9:21:06 AM    17.689    9.99296e+001    2/12/2013 9:21:06 AM    17.689    3.841667e-005    
2/12/2013 9:21:18 AM    29.186    9.992954e+001    2/12/2013 9:21:18 AM    29.186    3.880365e-005    
... etc ...
2/12/2013 2:12:44 PM    17515.269    9.991756+001    2/12/2013 2:12:44 PM    17515.269    2.800279e-005    
2/12/2013 2:12:55 PM    17526.769    9.991754e+001    2/12/2013 2:12:55 PM    17526.769    2.880386e-005
2/12/2013 2:13:07 PM    17538.273    9.991797e+001    2/12/2013 2:13:07 PM    17538.273    3.131447e-005

当前回答

第一步:-读取第一行，即所有列，删除所有重复的列。

第二步:最后只读那些专栏。

cols = pd.read_csv("file.csv", header=None, nrows=1).iloc[0].drop_duplicates()
df = pd.read_csv("file.csv", usecols=cols)

2019-04-23 07:02:44

其他回答

简单的列比较是按值检查重复列的最有效方法(就内存和时间而言)。这里有一个例子:

import numpy as np
import pandas as pd
from itertools import combinations as combi

df = pd.DataFrame(np.random.uniform(0,1, (100,4)), columns=['a','b','c','d'])
df['a'] = df['d'].copy()  # column 'a' is equal to column 'd'

# to keep the first
dupli_cols = [cc[1] for cc in combi(df.columns, r=2) if (df[cc[0]] == df[cc[1]]).all()]

# to keep the last
dupli_cols = [cc[0] for cc in combi(df.columns, r=2) if (df[cc[0]] == df[cc[1]]).all()]
            
df = df.drop(columns=dupli_cols)

2021-12-01 11:05:32

下面是一个基于重复列名删除列的单行解决方案:

df = df.loc[:,~df.columns.duplicated()].copy()

工作原理:

假设数据帧的列是['alpha'，'beta'，'alpha']

df.columns. replicated()返回一个布尔数组:每一列为True或False。如果它为False，则列名在此之前是唯一的，如果它为True，则列名在之前被复制。例如，使用给定的示例，返回值将是[False,False,True]。

Pandas允许使用布尔值进行索引，因此它只选择True值。因为我们想要保留未复制的列，我们需要翻转上面的布尔数组(即[True, True, False] = ~[False,False,True])

最后,df。loc[:，[True,True,False]]使用前面提到的索引功能只选择非重复的列。

最后的.copy()用于复制数据帧，以(主要)避免在稍后尝试修改现有数据帧时出错。

注意:上面只检查列的名称，而不是列的值。

删除重复索引

因为它足够相似，所以在索引上做同样的事情:

df = df.loc[~df.index.duplicated(),:].copy()

通过检查值而不换位来删除重复项

更新和警告:请小心应用此。根据评论中dr . what提供的反例，这种解决方案可能在所有情况下都没有理想的结果。

df = df.loc[:,~df.apply(lambda x: x.duplicated(),axis=1).all()].copy()

这避免了转位的问题。它快吗?不。这有用吗?是的。来，试试这个:

# create a large(ish) dataframe
ldf = pd.DataFrame(np.random.randint(0,100,size= (736334,1312))) 


#to see size in gigs
#ldf.memory_usage().sum()/1e9 #it's about 3 gigs

# duplicate a column
ldf.loc[:,'dup'] = ldf.loc[:,101]

# take out duplicated columns by values
ldf = ldf.loc[:,~ldf.apply(lambda x: x.duplicated(),axis=1).all()].copy()

2016-11-05 06:15:37

如果您想检查重复的列，这段代码可能很有用

columns_to_drop= []

for cname in sorted(list(df)):
    for cname2 in sorted(list(df))[::-1]:
        if df[cname].equals(df[cname2]) and cname!=cname2 and cname not in columns_to_drop:
            columns_to_drop.append(cname2)
            print(cname,cname2,'Are equal')

df = df.drop(columns_to_drop, axis=1)

2023-01-23 11:39:45

如果我没有弄错的话，下面的代码没有转置解决方案的内存问题，并且比@kalu函数的行数更少，保留任何类似名称列的第一个。

Cols = list(df.columns)
for i,item in enumerate(df.columns):
    if item in df.columns[:i]: Cols[i] = "toDROP"
df.columns = Cols
df = df.drop("toDROP",1)

2016-04-09 05:53:28

快速和简单的方法删除复制列的值:

df = df.T.drop_duplicates().T

更多信息:Pandas DataFrame drop_duplicate manual。

2020-04-30 08:56:53

Python熊猫删除重复的列

推荐文章

最新文章

标签