Python熊猫删除重复的列

从数据框架中删除重复列的最简单方法是什么?

我正在阅读一个文本文件，通过重复的列:

import pandas as pd

df=pd.read_table(fname)

列名为:

Time, Time Relative, N2, Time, Time Relative, H2, etc...

所有“时间”和“时间相对”列包含相同的数据。我想要:

Time, Time Relative, N2, H2

我所有的尝试删除，删除等，如:

df=df.T.drop_duplicates().T

导致唯一值的索引错误:

Reindexing only valid with uniquely valued index objects

对不起，我是熊猫的菜鸟。任何建议将不胜感激。

额外的细节

熊猫版本:0.9.0 Python版本:2.7.3 Windows 7 (通过Pythonxy 2.7.3.0安装)

数据文件(注:在实际文件中，列之间以制表符分隔，此处以4个空格分隔):

Time    Time Relative [s]    N2[%]    Time    Time Relative [s]    H2[ppm]
2/12/2013 9:20:55 AM    6.177    9.99268e+001    2/12/2013 9:20:55 AM    6.177    3.216293e-005    
2/12/2013 9:21:06 AM    17.689    9.99296e+001    2/12/2013 9:21:06 AM    17.689    3.841667e-005    
2/12/2013 9:21:18 AM    29.186    9.992954e+001    2/12/2013 9:21:18 AM    29.186    3.880365e-005    
... etc ...
2/12/2013 2:12:44 PM    17515.269    9.991756+001    2/12/2013 2:12:44 PM    17515.269    2.800279e-005    
2/12/2013 2:12:55 PM    17526.769    9.991754e+001    2/12/2013 2:12:55 PM    17526.769    2.880386e-005
2/12/2013 2:13:07 PM    17538.273    9.991797e+001    2/12/2013 2:13:07 PM    17538.273    3.131447e-005

当前回答

如果我没有弄错的话，下面的代码没有转置解决方案的内存问题，并且比@kalu函数的行数更少，保留任何类似名称列的第一个。

Cols = list(df.columns)
for i,item in enumerate(df.columns):
    if item in df.columns[:i]: Cols[i] = "toDROP"
df.columns = Cols
df = df.drop("toDROP",1)

2016-04-09 05:53:28

其他回答

我遇到了这个问题，第一个答案提供的一行工作得很好。但是，我遇到了额外的复杂情况，即列的第二个副本拥有所有数据。第一份拷贝没有。

解决方案是通过切换否定操作符来分割一个数据帧，从而创建两个数据帧。有了这两个数据帧之后，我使用l后缀运行了一个连接语句。这样，我就可以引用和删除没有数据的列。

- E

2021年3月更新

@CircArgs随后的帖子可能提供了一个简洁的单行程序来完成我在这里描述的内容。

2019-11-15 04:57:48

第一步:-读取第一行，即所有列，删除所有重复的列。

第二步:最后只读那些专栏。

cols = pd.read_csv("file.csv", header=None, nrows=1).iloc[0].drop_duplicates()
df = pd.read_csv("file.csv", usecols=cols)

2019-04-23 07:02:44

如果您想检查重复的列，这段代码可能很有用

columns_to_drop= []

for cname in sorted(list(df)):
    for cname2 in sorted(list(df))[::-1]:
        if df[cname].equals(df[cname2]) and cname!=cname2 and cname not in columns_to_drop:
            columns_to_drop.append(cname2)
            print(cname,cname2,'Are equal')

df = df.drop(columns_to_drop, axis=1)

2023-01-23 11:39:45

@kalu的回答更新了一下，用了最新的熊猫:

def find_duplicated_columns(df):
    dupes = []

    columns = df.columns

    for i in range(len(columns)):
        col1 = df.iloc[:, i]
        for j in range(i + 1, len(columns)):
            col2 = df.iloc[:, j]
            # break early if dtypes aren't the same (helps deal with
            # categorical dtypes)
            if col1.dtype is not col2.dtype:
                break
            # otherwise compare values
            if col1.equals(col2):
                dupes.append(columns[i])
                break

    return dupes

2020-11-17 10:11:50

下面是一个基于重复列名删除列的单行解决方案:

df = df.loc[:,~df.columns.duplicated()].copy()

工作原理:

假设数据帧的列是['alpha'，'beta'，'alpha']

df.columns. replicated()返回一个布尔数组:每一列为True或False。如果它为False，则列名在此之前是唯一的，如果它为True，则列名在之前被复制。例如，使用给定的示例，返回值将是[False,False,True]。

Pandas允许使用布尔值进行索引，因此它只选择True值。因为我们想要保留未复制的列，我们需要翻转上面的布尔数组(即[True, True, False] = ~[False,False,True])

最后,df。loc[:，[True,True,False]]使用前面提到的索引功能只选择非重复的列。

最后的.copy()用于复制数据帧，以(主要)避免在稍后尝试修改现有数据帧时出错。

注意:上面只检查列的名称，而不是列的值。

删除重复索引

因为它足够相似，所以在索引上做同样的事情:

df = df.loc[~df.index.duplicated(),:].copy()

通过检查值而不换位来删除重复项

更新和警告:请小心应用此。根据评论中dr . what提供的反例，这种解决方案可能在所有情况下都没有理想的结果。

df = df.loc[:,~df.apply(lambda x: x.duplicated(),axis=1).all()].copy()

这避免了转位的问题。它快吗?不。这有用吗?是的。来，试试这个:

# create a large(ish) dataframe
ldf = pd.DataFrame(np.random.randint(0,100,size= (736334,1312))) 


#to see size in gigs
#ldf.memory_usage().sum()/1e9 #it's about 3 gigs

# duplicate a column
ldf.loc[:,'dup'] = ldf.loc[:,101]

# take out duplicated columns by values
ldf = ldf.loc[:,~ldf.apply(lambda x: x.duplicated(),axis=1).all()].copy()

2016-11-05 06:15:37

Python熊猫删除重复的列

推荐文章

最新文章

标签