假设我有以下Pandas数据框架:

df = DataFrame({'A' : [5,6,3,4], 'B' : [1,2,3, 5]})
df

     A   B
0    5   1
1    6   2
2    3   3
3    4   5

我可以基于一个特定的值进行子集:

x = df[df['A'] == 3]
x

     A   B
2    3   3

但是如何根据值列表进行子集呢?-就像这样:

list_of_values = [3,6]

y = df[df['A'] in list_of_values]

得到:

     A    B
1    6    2
2    3    3

可以使用isin方法:

In [1]: df = pd.DataFrame({'A': [5,6,3,4], 'B': [1,2,3,5]})

In [2]: df
Out[2]:
   A  B
0  5  1
1  6  2
2  3  3
3  4  5

In [3]: df[df['A'].isin([3, 6])]
Out[3]:
   A  B
1  6  2
2  3  3

得到相反的用法~:

In [4]: df[~df['A'].isin([3, 6])]
Out[4]:
   A  B
0  5  1
3  4  5

你可以使用query方法:

df.query('A in [6, 3]')
# df.query('A == [6, 3]')

or

lst = [6, 3]
df.query('A in @lst')
# df.query('A == @lst')

另一种方法;

df.loc[df.apply(lambda x: x.A in [3,6], axis=1)]

与isin方法不同,这在确定列表是否包含列a的函数时特别有用。例如,f(a) = 2* a - 5作为函数;

df.loc[df.apply(lambda x: 2*x.A-5 in [3,6], axis=1)]

应该注意的是,这种方法比isin方法慢。


你可以将你的值存储在一个列表中:

lis河=

then

df1 = df[df['A'].isin(lis)]


List_of_values不一定是一个列表;它可以被设置,tuple, dictionary, numpy array, pandas Series, generator, range等,isin()和query()仍然有效。

选择行时的一些常见问题

1. List_of_values是一个范围

如果需要在一个范围内进行过滤,可以使用between()方法或query()。

list_of_values = [3, 4, 5, 6] # a range of values

df[df['A'].between(3, 6)]  # or
df.query('3<=A<=6')

2. 按list_of_values的顺序返回df

在OP中,list_of_values中的值在df中不会按此顺序出现。如果你想让df按照它们在list_of_values中出现的顺序返回,即。“排序”的list_of_values,使用loc。

list_of_values = [3, 6]
df.set_index('A').loc[list_of_values].reset_index()

如果希望保留旧索引,可以使用以下方法。

list_of_values = [3, 6, 3]
df.reset_index().set_index('A').loc[list_of_values].reset_index().set_index('index').rename_axis(None)

3.不要使用apply

一般来说,isin()和query()是执行此任务的最佳方法;不需要apply()。例如,对于列A上的函数f(A) = 2*A - 5, isin()和query()都能更有效地工作:

df[(2*df['A']-5).isin(list_of_values)]         # or
df[df['A'].mul(2).sub(5).isin(list_of_values)] # or
df.query("A.mul(2).sub(5) in @list_of_values")

4. 选择不在list_of_values中的行

要选择不在list_of_values中的行,对isin()/in求反:

df[~df['A'].isin(list_of_values)]
df.query("A not in @list_of_values")  # df.query("A != @list_of_values")

5. 选择list_of_values中有多列的行

如果您希望使用两个(或多个)列进行过滤,则可以使用any()和all()来减少列(axis=1),这取决于需要。

在list_of_values中选择A或B中至少有一个的行: df [df [[A, B]] .isin (list_of_values) .any (1)] df。查询("A in @list_of_values or B in @list_of_values") 在list_of_values中选择A和B都在的行: df [df [[A, B]] .isin (list_of_values)所有(1)] df。查询("A in @list_of_values and B in @list_of_values")

奖金:

你也可以在query()中调用isin():

df.query("A.isin(@list_of_values).values")

它在f-Strings中更棘手

list_of_values = [3,6]


df.query(f'A in {list_of_values}')

上面的答案是正确的,但是如果您仍然不能像预期的那样过滤掉行,请确保DataFrames的两个列具有相同的dtype。

source = source.astype({1: 'int64'})
to_rem = to_rem.astype({'some col': 'int64'})

works = source[~source[1].isin(to_rem['some col'])]

花了我足够长的时间。


在速度方面比较的非熊猫解决方案可能是:

filtered_column = set(df.A) - set(list_list_of_values)