如何根据列值从DataFrame中选择行？

如何根据Pandas中某列的值从DataFrame中选择行？

在SQL中，我会使用：

SELECT *
FROM table
WHERE column_name = some_value

当前回答

在Pandas的更新版本中，受文档启发（查看数据）：

df[df["colume_name"] == some_value] #Scalar, True/False..

df[df["colume_name"] == "some_value"] #String

通过将子句放在括号（）中，并用&和|（和/或）组合来组合多个条件。这样地：

df[(df["colume_name"] == "some_value1") & (pd[pd["colume_name"] == "some_value2"])]

其他过滤器

pandas.notna(df["colume_name"]) == True # Not NaN
df['colume_name'].str.contains("text") # Search for "text"
df['colume_name'].str.lower().str.contains("text") # Search for "text", after converting  to lowercase

2021-01-05 11:43:09

其他回答

您也可以使用.apply：

df.apply(lambda row: row[df['B'].isin(['one','three'])])

它实际上按行工作（即，将函数应用于每一行）。

输出为

   A      B  C   D
0  foo    one  0   0
1  bar    one  1   2
3  bar  three  3   6
6  foo    one  6  12
7  foo  three  7  14

结果与@unsubu提到的使用相同

df[[df['B'].isin(['one','three'])]]

2018-12-07 17:38:58

使用numpy.where可以获得更快的结果。

例如，使用unubtu的设置-

In [76]: df.iloc[np.where(df.A.values=='foo')]
Out[76]: 
     A      B  C   D
0  foo    one  0   0
2  foo    two  2   4
4  foo    two  4   8
6  foo    one  6  12
7  foo  three  7  14

时间比较：

In [68]: %timeit df.iloc[np.where(df.A.values=='foo')]  # fastest
1000 loops, best of 3: 380 µs per loop

In [69]: %timeit df.loc[df['A'] == 'foo']
1000 loops, best of 3: 745 µs per loop

In [71]: %timeit df.loc[df['A'].isin(['foo'])]
1000 loops, best of 3: 562 µs per loop

In [72]: %timeit df[df.A=='foo']
1000 loops, best of 3: 796 µs per loop

In [74]: %timeit df.query('(A=="foo")')  # slowest
1000 loops, best of 3: 1.71 ms per loop

2017-07-05 16:34:57

对于Pandas中给定值的多个列中仅选择特定列：

select col_name1, col_name2 from table where column_name = some_value.

选项位置：

df.loc[df['column_name'] == some_value, [col_name1, col_name2]]

或查询：

df.query('column_name == some_value')[[col_name1, col_name2]]

2017-12-07 10:39:50

您可以在函数中使用loc（方括号）：

# Series
s = pd.Series([1, 2, 3, 4]) 
s.loc[lambda x: x > 1]
# s[lambda x: x > 1]

输出：

1    2
2    3
3    4
dtype: int64

# DataFrame
df = pd.DataFrame({'A': [1, 2, 3], 'B': [10, 20, 30]})
df.loc[lambda x: x['A'] > 1]
# df[lambda x: x['A'] > 1]

输出：

   A   B
1  2  20
2  3  30

2022-08-02 20:42:50

在Pandas的更新版本中，受文档启发（查看数据）：

df[df["colume_name"] == some_value] #Scalar, True/False..

df[df["colume_name"] == "some_value"] #String

通过将子句放在括号（）中，并用&和|（和/或）组合来组合多个条件。这样地：

df[(df["colume_name"] == "some_value1") & (pd[pd["colume_name"] == "some_value2"])]

其他过滤器

pandas.notna(df["colume_name"]) == True # Not NaN
df['colume_name'].str.contains("text") # Search for "text"
df['colume_name'].str.lower().str.contains("text") # Search for "text", after converting  to lowercase

2021-01-05 11:43:09

如何根据列值从DataFrame中选择行？

推荐文章

最新文章

标签