如何使用itertools.groupby()?

关于如何实际使用Python的itertools.groupby()函数，我还没有找到一个可以理解的解释。我想做的是:

取一个列表——在本例中是一个对象化lxml元素的子元素根据某些标准将其分成几组然后分别遍历这些组。

我已经查看了文档，但我很难将它们应用到简单的数字列表之外。

那么，如何使用itertools.groupby()呢?还有其他我应该使用的技巧吗?提供良好的“先决条件”阅读的指针也将受到赞赏。

当前回答

遗憾的是，我不认为使用itertools.groupby()是明智的。要安全使用它太难了，而且只需要几行代码就可以写出一些可以按照预期工作的东西。

def my_group_by(iterable, keyfunc):
    """Because itertools.groupby is tricky to use

    The stdlib method requires sorting in advance, and returns iterators not
    lists, and those iterators get consumed as you try to use them, throwing
    everything off if you try to look at something more than once.
    """
    ret = defaultdict(list)
    for k in iterable:
        ret[keyfunc(k)].append(k)
    return dict(ret)

像这样使用它:

def first_letter(x):
    return x[0]

my_group_by('four score and seven years ago'.split(), first_letter)

得到

{'f': ['four'], 's': ['score', 'seven'], 'a': ['and', 'ago'], 'y': ['years']}

2021-06-22 22:59:17

其他回答

groupby的一个新技巧是在一行中运行长度编码:

[(c,len(list(cgen))) for c,cgen in groupby(some_string)]

会给你一个二元组列表，其中第一个元素是char，第二个元素是重复的次数。

编辑:注意这是itertools的区别。来自SQL GROUP BY语义的groupby: itertools不会(通常也不能)提前对迭代器排序，因此具有相同“key”的组不会合并。

2008-08-31 23:27:16

我如何使用Python的itertools.groupby()?

您可以使用groupby来对迭代进行分组。你给groupby一个可迭代对象，和一个可选的键函数/可调用对象，用来检查从可迭代对象中取出的项，它返回一个迭代器，给出一个由可调用键的结果和另一个可迭代对象中的实际项组成的二元组。来自帮助:

groupby(iterable[, keyfunc]) -> create an iterator which returns
(key, sub-iterator) grouped by each value of key(value).

下面是groupby使用协程按计数分组的例子，它使用一个键可调用对象(在本例中是corroutine .send)来输出迭代次数的计数和元素的分组子迭代器:

import itertools


def grouper(iterable, n):
    def coroutine(n):
        yield # queue up coroutine
        for i in itertools.count():
            for j in range(n):
                yield i
    groups = coroutine(n)
    next(groups) # queue up coroutine

    for c, objs in itertools.groupby(iterable, groups.send):
        yield c, list(objs)
    # or instead of materializing a list of objs, just:
    # return itertools.groupby(iterable, groups.send)

list(grouper(range(10), 3))

打印

[(0, [0, 1, 2]), (1, [3, 4, 5]), (2, [6, 7, 8]), (3, [9])]

2015-07-27 18:06:30

这个基本实现帮助我理解了这个函数。希望它也能帮助到其他人:

arr = [(1, "A"), (1, "B"), (1, "C"), (2, "D"), (2, "E"), (3, "F")]

for k,g in groupby(arr, lambda x: x[0]):
    print("--", k, "--")
    for tup in g:
        print(tup[1])  # tup[0] == k

-- 1 --
A
B
C
-- 2 --
D
E
-- 3 --
F

2020-04-05 19:46:07

重要提示:您必须首先对数据进行排序。

我没有理解的部分是在例子结构中

groups = []
uniquekeys = []
for k, g in groupby(data, keyfunc):
   groups.append(list(g))    # Store group iterator as a list
   uniquekeys.append(k)

K是当前分组键，g是一个迭代器，可用于遍历由该分组键定义的组。换句话说，groupby迭代器本身返回迭代器。

下面是一个例子，使用了更清晰的变量名:

from itertools import groupby

things = [("animal", "bear"), ("animal", "duck"), ("plant", "cactus"), ("vehicle", "speed boat"), ("vehicle", "school bus")]

for key, group in groupby(things, lambda x: x[0]):
    for thing in group:
        print("A %s is a %s." % (thing[1], key))
    print("")

这将给你输出:

熊是动物。鸭子是一种动物。仙人掌是一种植物。快艇是交通工具。校车是一种交通工具。

在这个例子中，things是一个元组列表，每个元组中的第一项是第二项所属的组。

groupby()函数有两个参数:(1)要分组的数据和(2)要分组的函数。

这里，lambda x: x[0]告诉groupby()使用每个元组中的第一项作为分组键。

在上面的for语句中，groupby返回三个(键，组迭代器)对——每个唯一键一次。您可以使用返回的迭代器遍历该组中的每一项。

下面是一个略有不同的例子，使用相同的数据，使用列表理解:

for key, group in groupby(things, lambda x: x[0]):
    listOfThings = " and ".join([thing[1] for thing in group])
    print(key + "s:  " + listOfThings + ".")

这将给你输出:

动物:熊和鸭。植物:仙人掌。交通工具:快艇、校车。

2008-08-10 18:45:32

Python文档中的示例非常简单:

groups = []
uniquekeys = []
for k, g in groupby(data, keyfunc):
    groups.append(list(g))      # Store group iterator as a list
    uniquekeys.append(k)

在你的例子中，data是一个节点列表，keyfunc是criteria函数的逻辑所在，然后groupby()对数据进行分组。

在调用groupby之前，必须小心地按照条件对数据进行排序，否则它将不起作用。Groupby方法实际上只是遍历一个列表，每当键改变时，它就创建一个新组。

2008-08-03 18:40:09

如何使用itertools.groupby()?

推荐文章

最新文章

标签