给定一个列表[“foo”、“bar”、“baz”]和列表“bar”中的一个项,如何获取其索引1?
当前回答
在Python中查找给定列表中包含项的索引对于列表[“foo”、“bar”、“baz”]和列表“bar”中的项,在Python中获取其索引(1)的最干净方法是什么?
当然,有index方法,它返回第一次出现的索引:
>>> l = ["foo", "bar", "baz"]
>>> l.index('bar')
1
这种方法有几个问题:
如果该值不在列表中,您将得到ValueError如果列表中有多个值,则只获取第一个值的索引
没有值
如果值可能丢失,则需要捕获ValueError。
您可以这样使用可重用定义:
def index(a_list, value):
try:
return a_list.index(value)
except ValueError:
return None
然后这样使用:
>>> print(index(l, 'quux'))
None
>>> print(index(l, 'bar'))
1
这样做的缺点是,您可能需要检查返回的值是否为None:
result = index(a_list, value)
if result is not None:
do_something(result)
列表中有多个值
如果您可能会出现更多情况,则无法通过list.index获得完整信息:
>>> l.append('bar')
>>> l
['foo', 'bar', 'baz', 'bar']
>>> l.index('bar') # nothing at index 3?
1
您可以在列表中列举索引:
>>> [index for index, v in enumerate(l) if v == 'bar']
[1, 3]
>>> [index for index, v in enumerate(l) if v == 'boink']
[]
如果没有出现,则可以通过结果的布尔检查进行检查,或者在循环结果时不执行任何操作:
indexes = [index for index, v in enumerate(l) if v == 'boink']
for index in indexes:
do_something(index)
使用熊猫更好地处理数据
如果您有熊猫,您可以通过Series对象轻松获取此信息:
>>> import pandas as pd
>>> series = pd.Series(l)
>>> series
0 foo
1 bar
2 baz
3 bar
dtype: object
比较检查将返回一系列布尔值:
>>> series == 'bar'
0 False
1 True
2 False
3 True
dtype: bool
通过下标符号将该系列布尔值传递给该系列,您将得到匹配的成员:
>>> series[series == 'bar']
1 bar
3 bar
dtype: object
如果只需要索引,index属性将返回一系列整数:
>>> series[series == 'bar'].index
Int64Index([1, 3], dtype='int64')
如果您希望它们在列表或元组中,只需将它们传递给构造函数:
>>> list(series[series == 'bar'].index)
[1, 3]
是的,你也可以将列表理解与enumerate一起使用,但在我看来,这并不是那么优雅——你在Python中进行等式测试,而不是让用C编写的内置代码来处理:
>>> [i for i, value in enumerate(l) if value == 'bar']
[1, 3]
这是XY问题吗?
XY问题是询问您尝试的解决方案,而不是实际问题。
为什么您认为需要列表中给定元素的索引?
如果你已经知道它的价值,为什么你会在意它在列表中的位置?
如果值不存在,则捕获ValueError相当冗长,我更希望避免这种情况。
无论如何,我通常都会遍历列表,所以我通常会保留一个指向任何有趣信息的指针,用enumerate获取索引。
如果你在处理数据,你可能应该使用panda,它的工具比我展示的纯Python解决方案要优雅得多。
我不记得自己需要list.index。然而,我已经浏览了Python标准库,并看到了它的一些优秀用途。
它在idlelib中有很多用途,用于GUI和文本解析。
关键字模块使用它在模块中查找注释标记,以通过元编程自动重新生成其中的关键字列表。
在Lib/mailbox.py中,它似乎像有序映射一样使用它:
key_list[key_list.index(old)] = new
and
del key_list[key_list.index(key)]
在Lib/html/cookiejar.py中,似乎用于获取下一个月:
mon = MONTHS_LOWER.index(mon.lower())+1
在Lib/tarfile.py中,类似于distutils,获取一个项目的切片:
members = members[:members.index(tarinfo)]
在Lib/pickletools.py中:
numtopop = before.index(markobject)
这些用法的共同点是,它们似乎对大小受限的列表进行操作(这一点很重要,因为list.index的查找时间为O(n)),并且它们主要用于解析(在Idle的情况下为UI)。
虽然有它的用例,但它们相当罕见。如果您发现自己正在寻找这个答案,请问问自己,您所做的是否是该语言为您的用例提供的工具的最直接使用。
其他回答
在查找列表中项目的索引时,列表理解将是获得紧凑实现的最佳选择。
a_list = ["a", "b", "a"]
print([index for (index , item) in enumerate(a_list) if item == "a"])
如果需要所有索引,则可以使用NumPy:
import numpy as np
array = [1, 2, 1, 3, 4, 5, 1]
item = 1
np_array = np.array(array)
item_index = np.where(np_array==item)
print item_index
# Out: (array([0, 2, 6], dtype=int64),)
这是一个清晰易读的解决方案。
FMc和user7177的答案的变体将给出一个可以返回任何条目的所有索引的dict:
>>> a = ['foo','bar','baz','bar','any', 'foo', 'much']
>>> l = dict(zip(set(a), map(lambda y: [i for i,z in enumerate(a) if z is y ], set(a))))
>>> l['foo']
[0, 5]
>>> l ['much']
[6]
>>> l
{'baz': [2], 'foo': [0, 5], 'bar': [1, 3], 'any': [4], 'much': [6]}
>>>
您还可以将其用作一行程序来获取单个条目的所有索引。虽然我确实使用了set(a)来减少lambda的调用次数,但并不能保证效率。
对于像我这样来自另一种语言的人来说,也许通过一个简单的循环,更容易理解和使用它:
mylist = ["foo", "bar", "baz", "bar"]
newlist = enumerate(mylist)
for index, item in newlist:
if item == "bar":
print(index, item)
我很感激,所以枚举到底做什么?。这帮助我理解了。
大多数答案解释了如何找到一个索引,但如果项目多次出现在列表中,它们的方法不会返回多个索引。使用enumerate():
for i, j in enumerate(['foo', 'bar', 'baz']):
if j == 'bar':
print(i)
index()函数只返回第一次出现的情况,而enumerate()函数返回所有出现的情况。
作为列表理解:
[i for i, j in enumerate(['foo', 'bar', 'baz']) if j == 'bar']
这里还有另一个使用itertools.count()的小解决方案(与enumerate方法几乎相同):
from itertools import izip as zip, count # izip for maximum efficiency
[i for i, j in zip(count(), ['foo', 'bar', 'baz']) if j == 'bar']
对于较大的列表,这比使用enumerate()更有效:
$ python -m timeit -s "from itertools import izip as zip, count" "[i for i, j in zip(count(), ['foo', 'bar', 'baz']*500) if j == 'bar']"
10000 loops, best of 3: 174 usec per loop
$ python -m timeit "[i for i, j in enumerate(['foo', 'bar', 'baz']*500) if j == 'bar']"
10000 loops, best of 3: 196 usec per loop