如何根据Pandas中某列的值从DataFrame中选择行?
在SQL中,我会使用:
SELECT *
FROM table
WHERE column_name = some_value
如何根据Pandas中某列的值从DataFrame中选择行?
在SQL中,我会使用:
SELECT *
FROM table
WHERE column_name = some_value
当前回答
使用带有panda>=0.25.00的.query更灵活:
由于panda>=0.25.00,我们可以使用查询方法来使用panda方法过滤数据帧,甚至可以使用带有空格的列名。通常,列名中的空格会给出一个错误,但现在我们可以使用backtick(`)来解决这个问题-请参见GitHub:
# Example dataframe
df = pd.DataFrame({'Sender email':['ex@example.com', "reply@shop.com", "buy@shop.com"]})
Sender email
0 ex@example.com
1 reply@shop.com
2 buy@shop.com
将.query与方法str.endswith一起使用:
df.query('`Sender email`.str.endswith("@shop.com")')
输出
Sender email
1 reply@shop.com
2 buy@shop.com
此外,我们还可以通过在查询中用@前缀来使用局部变量:
domain = 'shop.com'
df.query('`Sender email`.str.endswith(@domain)')
输出
Sender email
1 reply@shop.com
2 buy@shop.com
其他回答
在Pandas的更新版本中,受文档启发(查看数据):
df[df["colume_name"] == some_value] #Scalar, True/False..
df[df["colume_name"] == "some_value"] #String
通过将子句放在括号()中,并用&和|(和/或)组合来组合多个条件。这样地:
df[(df["colume_name"] == "some_value1") & (pd[pd["colume_name"] == "some_value2"])]
其他过滤器
pandas.notna(df["colume_name"]) == True # Not NaN
df['colume_name'].str.contains("text") # Search for "text"
df['colume_name'].str.lower().str.contains("text") # Search for "text", after converting to lowercase
您也可以使用.apply:
df.apply(lambda row: row[df['B'].isin(['one','three'])])
它实际上按行工作(即,将函数应用于每一行)。
输出为
A B C D
0 foo one 0 0
1 bar one 1 2
3 bar three 3 6
6 foo one 6 12
7 foo three 7 14
结果与@unsubu提到的使用相同
df[[df['B'].isin(['one','three'])]]
对于Pandas中给定值的多个列中仅选择特定列:
select col_name1, col_name2 from table where column_name = some_value.
选项位置:
df.loc[df['column_name'] == some_value, [col_name1, col_name2]]
或查询:
df.query('column_name == some_value')[[col_name1, col_name2]]
要选择列值等于标量some_value的行,请使用==:
df.loc[df['column_name'] == some_value]
要选择列值在可迭代的some_values中的行,请使用isin:
df.loc[df['column_name'].isin(some_values)]
将多个条件与&组合:
df.loc[(df['column_name'] >= A) & (df['column_name'] <= B)]
注意括号。由于Python的运算符优先级规则,&binding比<=和>=更紧密。因此,最后一个示例中的括号是必要的。没有括号
df['column_name'] >= A & df['column_name'] <= B
解析为
df['column_name'] >= (A & df['column_name']) <= B
这导致序列的真值是模糊错误。
要选择列值不等于some_value的行,请使用!=:
df.loc[df['column_name'] != some_value]
isin返回布尔级数,因此要选择值不在some_values中的行,请使用~:
df.loc[~df['column_name'].isin(some_values)]
例如
import pandas as pd
import numpy as np
df = pd.DataFrame({'A': 'foo bar foo bar foo bar foo foo'.split(),
'B': 'one one two three two two one three'.split(),
'C': np.arange(8), 'D': np.arange(8) * 2})
print(df)
# A B C D
# 0 foo one 0 0
# 1 bar one 1 2
# 2 foo two 2 4
# 3 bar three 3 6
# 4 foo two 4 8
# 5 bar two 5 10
# 6 foo one 6 12
# 7 foo three 7 14
print(df.loc[df['A'] == 'foo'])
产量
A B C D
0 foo one 0 0
2 foo two 2 4
4 foo two 4 8
6 foo one 6 12
7 foo three 7 14
如果要包含多个值,请将它们放入列出(或更一般地,任何可迭代的)并使用isin:
print(df.loc[df['B'].isin(['one','three'])])
产量
A B C D
0 foo one 0 0
1 bar one 1 2
3 bar three 3 6
6 foo one 6 12
7 foo three 7 14
但是,请注意,如果您希望多次这样做首先创建索引,然后使用df.loc:
df = df.set_index(['B'])
print(df.loc['one'])
产量
A C D
B
one foo 0 0
one bar 1 2
one foo 6 12
或者,要包含索引中的多个值,请使用df.index.isin:
df.loc[df.index.isin(['one','two'])]
产量
A C D
B
one foo 0 0
one bar 1 2
two foo 2 4
two foo 4 8
two bar 5 10
one foo 6 12
下面是一个简单的例子
from pandas import DataFrame
# Create data set
d = {'Revenue':[100,111,222],
'Cost':[333,444,555]}
df = DataFrame(d)
# mask = Return True when the value in column "Revenue" is equal to 111
mask = df['Revenue'] == 111
print mask
# Result:
# 0 False
# 1 True
# 2 False
# Name: Revenue, dtype: bool
# Select * FROM df WHERE Revenue = 111
df[mask]
# Result:
# Cost Revenue
# 1 444 111