我开始学习Python,我遇到过生成器函数,其中有yield语句。我想知道这些函数最擅长解决什么类型的问题。
当前回答
你可以使用生成器的一个实际例子是,如果你有某种形状,你想要遍历它的角、边或其他地方。对于我自己的项目(源代码在这里),我有一个矩形:
class Rect():
def __init__(self, x, y, width, height):
self.l_top = (x, y)
self.r_top = (x+width, y)
self.r_bot = (x+width, y+height)
self.l_bot = (x, y+height)
def __iter__(self):
yield self.l_top
yield self.r_top
yield self.r_bot
yield self.l_bot
现在我可以创建一个矩形,并在它的角上循环:
myrect=Rect(50, 50, 100, 100)
for corner in myrect:
print(corner)
除了__iter__,你可以有一个方法iter_corners,并在myrect.iter_corners()中使用for corner来调用它。使用__iter__更优雅,因为我们可以在for表达式中直接使用类实例名。
其他回答
缓冲。当以大块获取数据是有效的,但以小块处理数据时,生成器可能会有所帮助:
def bufferedFetch():
while True:
buffer = getBigChunkOfData()
# insert some code to break on 'end of data'
for i in buffer:
yield i
上面的方法可以让您轻松地将缓冲与处理分开。消费者函数现在可以一个一个地获取值,而不用担心缓冲。
我发现生成器非常有助于清理代码,并为您提供了一种非常独特的方式来封装和模块化代码。如果您需要某些东西根据自己的内部处理不断地输出值,并且需要从代码中的任何地方调用该东西(而不仅仅是在循环或块中),则可以使用生成器。
一个抽象的例子是斐波那契数生成器,它不在循环中,当从任何地方调用它时,它总是返回序列中的下一个数字:
def fib():
first = 0
second = 1
yield first
yield second
while 1:
next = first + second
yield next
first = second
second = next
fibgen1 = fib()
fibgen2 = fib()
现在你有了两个斐波那契数生成器对象,你可以在代码中的任何地方调用它们,它们总是会按如下顺序返回更大的斐波那契数:
>>> fibgen1.next(); fibgen1.next(); fibgen1.next(); fibgen1.next()
0
1
1
2
>>> fibgen2.next(); fibgen2.next()
0
1
>>> fibgen1.next(); fibgen1.next()
3
5
生成器的可爱之处在于,它们封装了状态,而不必经历创建对象的繁琐过程。考虑它们的一种方法是将它们视为记住其内部状态的“函数”。
我从Python生成器中得到了斐波那契函数的例子——它们是什么?只要有一点想象力,您就可以想出很多其他情况,在这些情况下,生成器可以很好地替代for循环和其他传统迭代结构。
使用生成器的原因之一是为了使某些解决方案的解决方案更清晰。
另一种方法是一次处理一个结果,避免建立庞大的结果列表,否则无论如何都要分开处理。
如果你有这样一个fibonacci- to-n函数:
# function version
def fibon(n):
a = b = 1
result = []
for i in xrange(n):
result.append(a)
a, b = b, a + b
return result
你可以更容易地写出这样的函数:
# generator version
def fibon(n):
a = b = 1
for i in xrange(n):
yield a
a, b = b, a + b
函数更清晰。如果你这样使用这个函数:
for x in fibon(1000000):
print x,
在本例中,如果使用生成器版本,则根本不会创建整个1000000项列表,每次只创建一个值。在使用列表版本时,情况并非如此,在列表版本中,将首先创建列表。
现实世界中的例子
假设你的MySQL表中有1亿个域名,你想为每个域名更新Alexa排名。
你需要做的第一件事是从数据库中选择域名。
假设表名为domains,列名为domain。
如果你使用SELECT domain FROM domains,它将返回1亿行,这将消耗大量内存。所以您的服务器可能会崩溃。
所以你决定分批运行这个程序。假设我们的批量大小是1000。
在我们的第一批中,我们将查询前1000行,检查每个域的Alexa排名并更新数据库行。
在我们的第二批中,我们将处理接下来的1000行。第三批将从2001年到3000年,以此类推。
现在我们需要一个生成器函数来生成我们的批。
这是我们的生成器函数:
def ResultGenerator(cursor, batchsize=1000):
while True:
results = cursor.fetchmany(batchsize)
if not results:
break
for result in results:
yield result
正如你所看到的,我们的函数总是得到结果。如果使用关键字return而不是yield,那么整个函数将在到达return时结束。
return - returns only once
yield - returns multiple times
如果一个函数使用关键字yield,那么它就是一个生成器。
现在你可以这样迭代:
db = MySQLdb.connect(host="localhost", user="root", passwd="root", db="domains")
cursor = db.cursor()
cursor.execute("SELECT domain FROM domains")
for result in ResultGenerator(cursor):
doSomethingWith(result)
db.close()
基本上避免回调函数时迭代输入维护状态。
请参阅这里和这里,了解使用生成器可以做什么。