如何从生成器对象中构建numpy数组?

让我来解释一下这个问题:

>>> import numpy
>>> def gimme():
...   for x in xrange(10):
...     yield x
...
>>> gimme()
<generator object at 0x28a1758>
>>> list(gimme())
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
>>> numpy.array(xrange(10))
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
>>> numpy.array(gimme())
array(<generator object at 0x28a1758>, dtype=object)
>>> numpy.array(list(gimme()))
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

在本例中,gimme()是我想将其输出转换为数组的生成器。然而,数组构造函数并不遍历生成器,它只是存储生成器本身。我想要的行为是来自numpy.array(list(gimme())),但我不想同时在内存中拥有中间列表和最终数组的内存开销。有没有更节省空间的方法?


当前回答

虽然你可以用numpy.fromiter()从生成器创建一个1D数组,但你可以用numpy.stack从生成器创建一个N-D数组:

>>> mygen = (np.ones((5, 3)) for _ in range(10))
>>> x = numpy.stack(mygen)
>>> x.shape
(10, 5, 3)

它也适用于1D数组:

>>> numpy.stack(2*i for i in range(10))
array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

注意numpy。Stack在内部消耗生成器,并使用arrays = [asanyarray(arr) for arr in arrays]创建一个中间列表。实现可以在这里找到。

(警告) 正如@Joseh Seedy所指出的,Numpy 1.16会发出警告,使生成器无法使用此类函数。

其他回答

有点离题,但如果您的生成器是一个列表推导式,您可以使用numpy。在哪里更有效地得到你的结果(我在看到这篇文章后在我自己的代码中发现了这一点)

Numpy数组要求在创建时显式地设置长度,这与python列表不同。这是必要的,以便在内存中连续分配每个项的空间。连续分配是numpy数组的关键特性:这与本机代码实现相结合,使得对它们的操作执行速度比常规列表快得多。

记住这一点,从技术上讲,将生成器对象转换为数组是不可能的,除非你:

can predict how many elements it will yield when run: my_array = numpy.empty(predict_length()) for i, el in enumerate(gimme()): my_array[i] = el are willing to store its elements in an intermediate list : my_array = numpy.array(list(gimme())) can make two identical generators, run through the first one to find the total length, initialize the array, and then run through the generator again to find each element: length = sum(1 for el in gimme()) my_array = numpy.empty(length) for i, el in enumerate(gimme()): my_array[i] = el

1可能就是你要找的。2是空间效率低,3是时间效率低(你必须经过两次生成器)。

vstack、hstack和dstack函数可以作为生成多维数组的输入生成器。

在这个stackoverflow结果后面的谷歌,我发现有一个numpy.fromiter(数据,dtype,计数)。默认count=-1从可迭代对象中获取所有元素。它需要显式地设置dtype。在我的案例中,这是有效的:

numpy.fromiter (something.generate (from_this_input)、浮动)

虽然你可以用numpy.fromiter()从生成器创建一个1D数组,但你可以用numpy.stack从生成器创建一个N-D数组:

>>> mygen = (np.ones((5, 3)) for _ in range(10))
>>> x = numpy.stack(mygen)
>>> x.shape
(10, 5, 3)

它也适用于1D数组:

>>> numpy.stack(2*i for i in range(10))
array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

注意numpy。Stack在内部消耗生成器,并使用arrays = [asanyarray(arr) for arr in arrays]创建一个中间列表。实现可以在这里找到。

(警告) 正如@Joseh Seedy所指出的,Numpy 1.16会发出警告,使生成器无法使用此类函数。