我有一个列表,我想通过项目的属性进行筛选。

以下哪个是首选(可读性,性能,其他原因)?

xs = [x for x in xs if x.attribute == value]
xs = filter(lambda x: x.attribute == value, xs)

当前回答

一般过滤器稍快,如果使用内置函数。

在您的情况下,我希望列表理解稍微快一些

其他回答

总结其他答案

通过查看答案,我们已经看到了大量的反反复复,是否列表理解或过滤可能更快,或者关心这样的问题是否重要或python。最后,答案和大多数时候一样:视情况而定。

我只是在优化代码时偶然发现了这个问题,这个问题(尽管与in表达式结合在一起,而不是==)非常相关- filter + lambda表达式占用了我三分之一的计算时间(几分钟)。

我的情况

在我的例子中,列表理解要快得多(速度的两倍)。但我怀疑,根据过滤器表达式以及使用的Python解释器,这有很大的不同。

自己测试一下

下面是一个简单的代码片段,应该很容易适应。如果你对它进行剖析(大多数ide都可以很容易地做到这一点),你就可以很容易地为你的特定情况决定哪个是更好的选择:

whitelist = set(range(0, 100000000, 27))

input_list = list(range(0, 100000000))

proximal_list = list(filter(
        lambda x: x in whitelist,
        input_list
    ))

proximal_list2 = [x for x in input_list if x in whitelist]

print(len(proximal_list))
print(len(proximal_list2))

如果您没有一个IDE可以让您轻松地进行概要分析,那么可以试试这个(从我的代码库中提取,因此稍微复杂一点)。这段代码片段将为您创建一个配置文件,您可以轻松地使用例如snakeviz可视化:

import cProfile
from time import time


class BlockProfile:
    def __init__(self, profile_path):
        self.profile_path = profile_path
        self.profiler = None
        self.start_time = None

    def __enter__(self):
        self.profiler = cProfile.Profile()
        self.start_time = time()
        self.profiler.enable()

    def __exit__(self, *args):
        self.profiler.disable()
        exec_time = int((time() - self.start_time) * 1000)
        self.profiler.dump_stats(self.profile_path)


whitelist = set(range(0, 100000000, 27))
input_list = list(range(0, 100000000))

with BlockProfile("/path/to/create/profile/in/profile.pstat"):
    proximal_list = list(filter(
            lambda x: x in whitelist,
            input_list
        ))

    proximal_list2 = [x for x in input_list if x in whitelist]

print(len(proximal_list))
print(len(proximal_list2))

我觉得第二种方法更容易读懂。它确切地告诉你目的是什么:过滤列表。 注意:不要使用list作为变量名

就性能而言,这要视情况而定。

filter不返回一个列表而是一个迭代器,如果你需要列表“立即”过滤和列表转换,它比非常大的列表(>1M)的列表理解要慢40%左右。到100K的元素几乎没有区别,从600K开始就开始有区别了。

如果不转换为列表,筛选实际上是即时的。

更多信息请访问:https://blog.finxter.com/python-lists-filter-vs-list-comprehension-which-is-faster/

我会得出结论:使用列表理解而不是过滤器,因为它

更具可读性 更多的神谕的 更快(对于Python 3.11,参见附带的基准测试,也参见)

请记住,filter返回一个迭代器,而不是一个列表。

python3 -m timeit '[x for x in range(10000000) if x % 2 == 0]'            

1个循环,5个最佳:每循环270毫秒

python3 -m timeit 'list(filter(lambda x: x % 2 == 0, range(10000000)))'

1个循环,最好的5:432毫秒每循环

我花了一些时间来熟悉高阶函数过滤器和映射。所以我习惯了他们,我实际上喜欢过滤器,因为它是明确的,它通过保持任何真实的过滤,我觉得很酷,我知道一些函数编程术语。

然后我读了这篇文章(Fluent Python Book):

映射和筛选函数仍然是内置的 在Python 3中,但是自从引入了列表推导式和generator ex‐ 压力没有那么重要。listcomp或genexp完成map和的工作 过滤器组合,但更可读。

现在我想,如果您可以使用已经广泛传播的习语(如列表推导)来实现它,那么为什么还要使用过滤器/映射的概念呢?此外,映射和过滤器是一种函数。在这种情况下,我更喜欢使用匿名函数lambdas。

最后,为了进行测试,我对两种方法(map和listComp)都进行了计时,我没有看到任何相关的速度差异,可以证明这是合理的。

from timeit import Timer

timeMap = Timer(lambda: list(map(lambda x: x*x, range(10**7))))
print(timeMap.timeit(number=100))

timeListComp = Timer(lambda:[(lambda x: x*x) for x in range(10**7)])
print(timeListComp.timeit(number=100))

#Map:                 166.95695265199174
#List Comprehension   177.97208347299602