据我所知,range()函数实际上是Python 3中的一种对象类型,它动态生成其内容,类似于生成器。
在这种情况下,我预计下一行将花费大量时间,因为为了确定1万亿是否在该范围内,必须生成1万亿值:
1_000_000_000_000_000 in range(1_000_000_000_000_001)
此外:似乎无论我加上多少个零,计算或多或少都需要相同的时间(基本上是瞬时的)。
我也尝试过类似的方法,但计算仍然几乎是即时的:
# count by tens
1_000_000_000_000_000_000_000 in range(0,1_000_000_000_000_000_000_001,10)
如果我尝试实现自己的范围函数,结果就不那么好了!
def my_crappy_range(N):
i = 0
while i < N:
yield i
i += 1
return
range()对象在引擎盖下做什么使其如此快速?
选择Martijn Pieters的答案是因为它的完整性,但也可以看到abarnert的第一个答案,它很好地讨论了范围在Python 3中是一个完整的序列意味着什么,以及关于Python实现中__contains_函数优化的潜在不一致性的一些信息/警告。abarnert的另一个答案更为详细,并为那些对Python 3优化背后的历史感兴趣的人提供了链接(以及Python 2中xrange的优化不足)。poke和wim的答案为感兴趣的人提供了相关的C源代码和解释。
Python 3 range()对象不会立即生成数字;它是一个按需生成数字的智能序列对象。它包含的只是开始值、停止值和步长值,然后在迭代对象时,每次迭代都会计算下一个整数。
该对象还实现了该对象__contains_hook,并计算您的数字是否属于其范围。计算是一个(接近)恒定的时间操作*。永远不需要扫描范围内所有可能的整数。
从range()对象文档中:
与常规列表或元组相比,范围类型的优势在于,范围对象将始终占用相同(少量)的内存,无论其所代表的范围大小(因为它只存储开始、停止和步长值,根据需要计算单个项和子范围)。
因此,range()对象至少可以做到:
class my_range:
def __init__(self, start, stop=None, step=1, /):
if stop is None:
start, stop = 0, start
self.start, self.stop, self.step = start, stop, step
if step < 0:
lo, hi, step = stop, start, -step
else:
lo, hi = start, stop
self.length = 0 if lo > hi else ((hi - lo - 1) // step) + 1
def __iter__(self):
current = self.start
if self.step < 0:
while current > self.stop:
yield current
current += self.step
else:
while current < self.stop:
yield current
current += self.step
def __len__(self):
return self.length
def __getitem__(self, i):
if i < 0:
i += self.length
if 0 <= i < self.length:
return self.start + i * self.step
raise IndexError('my_range object index out of range')
def __contains__(self, num):
if self.step < 0:
if not (self.stop < num <= self.start):
return False
else:
if not (self.start <= num < self.stop):
return False
return (num - self.start) % self.step == 0
这仍然缺少real-range()支持的一些东西(例如.index()或.count()方法、哈希、相等测试或切片),但应该会给你一个想法。
我还简化了__contains__实现,只关注整数测试;如果给一个real-range()对象一个非整数值(包括int的子类),就会启动一个慢扫描,看看是否匹配,就像对所有包含值的列表使用包含测试一样。这样做是为了继续支持其他恰好支持整数相等测试但不支持整数算术的数字类型。请参阅实现包含测试的Python原始问题。
*接近常数时间,因为Python整数是无限的,所以数学运算也随着N的增长而随时间增长,因此这是一个O(logN)运算。由于它都是在经过优化的C代码中执行的,并且Python将整数值存储在30位块中,因此在您看到由于此处涉及的整数的大小而产生的任何性能影响之前,您可能会耗尽内存。
Python 3 range()对象不会立即生成数字;它是一个按需生成数字的智能序列对象。它包含的只是开始值、停止值和步长值,然后在迭代对象时,每次迭代都会计算下一个整数。
该对象还实现了该对象__contains_hook,并计算您的数字是否属于其范围。计算是一个(接近)恒定的时间操作*。永远不需要扫描范围内所有可能的整数。
从range()对象文档中:
与常规列表或元组相比,范围类型的优势在于,范围对象将始终占用相同(少量)的内存,无论其所代表的范围大小(因为它只存储开始、停止和步长值,根据需要计算单个项和子范围)。
因此,range()对象至少可以做到:
class my_range:
def __init__(self, start, stop=None, step=1, /):
if stop is None:
start, stop = 0, start
self.start, self.stop, self.step = start, stop, step
if step < 0:
lo, hi, step = stop, start, -step
else:
lo, hi = start, stop
self.length = 0 if lo > hi else ((hi - lo - 1) // step) + 1
def __iter__(self):
current = self.start
if self.step < 0:
while current > self.stop:
yield current
current += self.step
else:
while current < self.stop:
yield current
current += self.step
def __len__(self):
return self.length
def __getitem__(self, i):
if i < 0:
i += self.length
if 0 <= i < self.length:
return self.start + i * self.step
raise IndexError('my_range object index out of range')
def __contains__(self, num):
if self.step < 0:
if not (self.stop < num <= self.start):
return False
else:
if not (self.start <= num < self.stop):
return False
return (num - self.start) % self.step == 0
这仍然缺少real-range()支持的一些东西(例如.index()或.count()方法、哈希、相等测试或切片),但应该会给你一个想法。
我还简化了__contains__实现,只关注整数测试;如果给一个real-range()对象一个非整数值(包括int的子类),就会启动一个慢扫描,看看是否匹配,就像对所有包含值的列表使用包含测试一样。这样做是为了继续支持其他恰好支持整数相等测试但不支持整数算术的数字类型。请参阅实现包含测试的Python原始问题。
*接近常数时间,因为Python整数是无限的,所以数学运算也随着N的增长而随时间增长,因此这是一个O(logN)运算。由于它都是在经过优化的C代码中执行的,并且Python将整数值存储在30位块中,因此在您看到由于此处涉及的整数的大小而产生的任何性能影响之前,您可能会耗尽内存。
其他答案已经很好地解释了这一点,但我想提供另一个实验来说明距离物体的性质:
>>> r = range(5)
>>> for i in r:
print(i, 2 in r, list(r))
0 True [0, 1, 2, 3, 4]
1 True [0, 1, 2, 3, 4]
2 True [0, 1, 2, 3, 4]
3 True [0, 1, 2, 3, 4]
4 True [0, 1, 2, 3, 4]
正如您所看到的,范围对象是一个记住其范围的对象,可以多次使用(即使在对其进行迭代时),而不仅仅是一个一次性生成器。
为了补充Martijn的答案,这是源代码的相关部分(在C中,因为范围对象是用本机代码编写的):
static int
range_contains(rangeobject *r, PyObject *ob)
{
if (PyLong_CheckExact(ob) || PyBool_Check(ob))
return range_contains_long(r, ob);
return (int)_PySequence_IterSearch((PyObject*)r, ob,
PY_ITERSEARCH_CONTAINS);
}
因此,对于PyLong对象(在Python 3中为int),它将使用range_contains_long函数来确定结果。该函数本质上检查ob是否在指定范围内(尽管在C中看起来有点复杂)。
如果它不是int对象,则返回到迭代,直到找到值(或没有)。
整个逻辑可以转换为伪Python,如下所示:
def range_contains (rangeObj, obj):
if isinstance(obj, int):
return range_contains_long(rangeObj, obj)
# default logic by iterating
return any(obj == x for x in rangeObj)
def range_contains_long (r, num):
if r.step > 0:
# positive step: r.start <= num < r.stop
cmp2 = r.start <= num
cmp3 = num < r.stop
else:
# negative step: r.start >= num > r.stop
cmp2 = num <= r.start
cmp3 = r.stop < num
# outside of the range boundaries
if not cmp2 or not cmp3:
return False
# num must be on a valid step inside the boundaries
return (num - r.start) % r.step == 0