删除列表中的重复项

我如何检查一个列表是否有任何重复，并返回一个没有重复的新列表?

当前回答

这里有一个例子，返回没有重复的列表，保持顺序。不需要任何外部导入。

def GetListWithoutRepetitions(loInput):
    # return list, consisting of elements of list/tuple loInput, without repetitions.
    # Example: GetListWithoutRepetitions([None,None,1,1,2,2,3,3,3])
    # Returns: [None, 1, 2, 3]

    if loInput==[]:
        return []

    loOutput = []

    if loInput[0] is None:
        oGroupElement=1
    else: # loInput[0]<>None
        oGroupElement=None

    for oElement in loInput:
        if oElement<>oGroupElement:
            loOutput.append(oElement)
            oGroupElement = oElement
    return loOutput

2014-06-09 10:33:18

其他回答

如果你不关心顺序，就这样做:

def remove_duplicates(l):
    return list(set(l))

一个集合保证没有重复项。

2011-11-01 00:49:08

尝试使用集合:

import sets
t = sets.Set(['a', 'b', 'c', 'd'])
t1 = sets.Set(['a', 'b', 'c'])

print t | t1
print t - t1

2011-11-01 00:54:13

有时你需要删除重复的项目，而不需要创建新的列表。例如，列表很大，或者将其作为影子副本保存

from collections import Counter
cntDict = Counter(t)
for item,cnt in cntDict.items():
    for _ in range(cnt-1):
        t.remove(item)

2018-12-19 06:17:26

这里有很多答案使用set(..)(考虑到元素是可哈希的，这是快速的)或list(它的缺点是它会导致O(n2)算法。

我建议的函数是一个混合的函数:我们使用set(..)来表示可哈希的项，使用list(..)来表示不可哈希的项。此外，它被实现为一个生成器，例如，我们可以限制项目的数量，或做一些额外的过滤。

最后，我们还可以使用一个key参数来指定元素应以何种方式惟一。例如，如果我们想过滤一个字符串列表，这样输出中的每个字符串都有不同的长度，我们可以使用这个。

def uniq(iterable, key=lambda x: x):
    seens = set()
    seenl = []
    for item in iterable:
        k = key(item)
        try:
            seen = k in seens
        except TypeError:
            seen = k in seenl
        if not seen:
            yield item
            try:
                seens.add(k)
            except TypeError:
                seenl.append(k)

我们现在可以这样使用:

>>> list(uniq(["apple", "pear", "banana", "lemon"], len))
['apple', 'pear', 'banana']
>>> list(uniq(["apple", "pear", "lemon", "banana"], len))
['apple', 'pear', 'banana']
>>> list(uniq(["apple", "pear", {}, "lemon", [], "banana"], len))
['apple', 'pear', {}, 'banana']
>>> list(uniq(["apple", "pear", {}, "lemon", [], "banana"]))
['apple', 'pear', {}, 'lemon', [], 'banana']
>>> list(uniq(["apple", "pear", {}, "lemon", {}, "banana"]))
['apple', 'pear', {}, 'lemon', 'banana']

因此，它是一个唯一性过滤器，可以在任何可迭代对象上工作并过滤出唯一性对象，而不管这些唯一性对象是否可哈希。

它做了一个假设:如果一个对象是可哈希的，而另一个对象不是，这两个对象永远不相等。严格地说，这是可能发生的，尽管它是非常罕见的。

2017-12-19 11:10:34

也有使用Pandas和Numpy的解决方案。它们都返回numpy数组，所以如果你想要一个列表，你必须使用.tolist()函数。

t=['a','a','b','b','b','c','c','c']
t2= ['c','c','b','b','b','a','a','a']

熊猫的解决方案

唯一使用Pandas函数():

import pandas as pd
pd.unique(t).tolist()
>>>['a','b','c']
pd.unique(t2).tolist()
>>>['c','b','a']

Numpy解决方案

使用numpy函数unique()。

import numpy as np
np.unique(t).tolist()
>>>['a','b','c']
np.unique(t2).tolist()
>>>['a','b','c']

注意，numpy.unique()也对值进行排序。所以列表t2是有序返回的。如果你想保留顺序，可以这样回答:

_, idx = np.unique(t2, return_index=True)
t2[np.sort(idx)].tolist()
>>>['c','b','a']

与其他解决方案相比，该解决方案并不那么优雅，但是，与pandas.unique()相比，numpy.unique()还允许您检查嵌套数组在选定的轴上是否唯一。

2014-07-03 12:45:51

删除列表中的重复项

推荐文章

最新文章

标签