如何使用itertools.groupby()?

关于如何实际使用Python的itertools.groupby()函数，我还没有找到一个可以理解的解释。我想做的是:

取一个列表——在本例中是一个对象化lxml元素的子元素根据某些标准将其分成几组然后分别遍历这些组。

我已经查看了文档，但我很难将它们应用到简单的数字列表之外。

那么，如何使用itertools.groupby()呢?还有其他我应该使用的技巧吗?提供良好的“先决条件”阅读的指针也将受到赞赏。

当前回答

另一个例子:

for key, igroup in itertools.groupby(xrange(12), lambda x: x // 5):
    print key, list(igroup)

结果

0 [0, 1, 2, 3, 4]
1 [5, 6, 7, 8, 9]
2 [10, 11]

注意，igroup是一个迭代器(文档称之为子迭代器)。

这对于分块生成器很有用:

def chunker(items, chunk_size):
    '''Group items in chunks of chunk_size'''
    for _key, group in itertools.groupby(enumerate(items), lambda x: x[0] // chunk_size):
        yield (g[1] for g in group)

with open('file.txt') as fobj:
    for chunk in chunker(fobj):
        process(chunk)

groupby的另一个例子-当键没有排序时。在以下示例中，xx中的项按yy中的值进行分组。在这种情况下，首先输出一组0，然后是一组1，然后又是一组0。

xx = range(10)
yy = [0, 0, 0, 1, 1, 1, 0, 0, 0, 0]
for group in itertools.groupby(iter(xx), lambda x: yy[x]):
    print group[0], list(group[1])

生产:

0 [0, 1, 2]
1 [3, 4, 5]
0 [6, 7, 8, 9]

2013-01-21 16:54:08

其他回答

groupby的一个新技巧是在一行中运行长度编码:

[(c,len(list(cgen))) for c,cgen in groupby(some_string)]

会给你一个二元组列表，其中第一个元素是char，第二个元素是重复的次数。

编辑:注意这是itertools的区别。来自SQL GROUP BY语义的groupby: itertools不会(通常也不能)提前对迭代器排序，因此具有相同“key”的组不会合并。

2008-08-31 23:27:16

重要提示:您必须首先对数据进行排序。

我没有理解的部分是在例子结构中

groups = []
uniquekeys = []
for k, g in groupby(data, keyfunc):
   groups.append(list(g))    # Store group iterator as a list
   uniquekeys.append(k)

K是当前分组键，g是一个迭代器，可用于遍历由该分组键定义的组。换句话说，groupby迭代器本身返回迭代器。

下面是一个例子，使用了更清晰的变量名:

from itertools import groupby

things = [("animal", "bear"), ("animal", "duck"), ("plant", "cactus"), ("vehicle", "speed boat"), ("vehicle", "school bus")]

for key, group in groupby(things, lambda x: x[0]):
    for thing in group:
        print("A %s is a %s." % (thing[1], key))
    print("")

这将给你输出:

熊是动物。鸭子是一种动物。仙人掌是一种植物。快艇是交通工具。校车是一种交通工具。

在这个例子中，things是一个元组列表，每个元组中的第一项是第二项所属的组。

groupby()函数有两个参数:(1)要分组的数据和(2)要分组的函数。

这里，lambda x: x[0]告诉groupby()使用每个元组中的第一项作为分组键。

在上面的for语句中，groupby返回三个(键，组迭代器)对——每个唯一键一次。您可以使用返回的迭代器遍历该组中的每一项。

下面是一个略有不同的例子，使用相同的数据，使用列表理解:

for key, group in groupby(things, lambda x: x[0]):
    listOfThings = " and ".join([thing[1] for thing in group])
    print(key + "s:  " + listOfThings + ".")

这将给你输出:

动物:熊和鸭。植物:仙人掌。交通工具:快艇、校车。

2008-08-10 18:45:32

我想再举一个例子，说明没有排序的groupby是行不通的。改编自James Sulak的例子

from itertools import groupby

things = [("vehicle", "bear"), ("animal", "duck"), ("animal", "cactus"), ("vehicle", "speed boat"), ("vehicle", "school bus")]

for key, group in groupby(things, lambda x: x[0]):
    for thing in group:
        print "A %s is a %s." % (thing[1], key)
    print " "

输出是

A bear is a vehicle.

A duck is a animal.
A cactus is a animal.

A speed boat is a vehicle.
A school bus is a vehicle.

有两组有车辆，而我们只能期待一组

2013-05-07 20:09:46

遗憾的是，我不认为使用itertools.groupby()是明智的。要安全使用它太难了，而且只需要几行代码就可以写出一些可以按照预期工作的东西。

def my_group_by(iterable, keyfunc):
    """Because itertools.groupby is tricky to use

    The stdlib method requires sorting in advance, and returns iterators not
    lists, and those iterators get consumed as you try to use them, throwing
    everything off if you try to look at something more than once.
    """
    ret = defaultdict(list)
    for k in iterable:
        ret[keyfunc(k)].append(k)
    return dict(ret)

像这样使用它:

def first_letter(x):
    return x[0]

my_group_by('four score and seven years ago'.split(), first_letter)

得到

{'f': ['four'], 's': ['score', 'seven'], 'a': ['and', 'ago'], 'y': ['years']}

2021-06-22 22:59:17

警告:

语法列表(groupby(…))不会按您想要的方式工作。它似乎破坏了内部迭代器对象，所以使用

for x in list(groupby(range(10))):
    print(list(x[1]))

会产生:

[]
[]
[]
[]
[]
[]
[]
[]
[]
[9]

而不是list(groupby(…))，尝试[(k, list(g)) for k,g in groupby(…)]，或者如果你经常使用这种语法，

def groupbylist(*args, **kwargs):
    return [(k, list(g)) for k, g in groupby(*args, **kwargs)]

并且可以访问groupby功能，同时避免那些讨厌的(对于小数据)迭代器。

2013-11-16 00:39:31

如何使用itertools.groupby()?

推荐文章

最新文章

标签