按子字符串条件筛选panda DataFrame

我有一个熊猫DataFrame，其中包含一列字符串值。我需要根据部分字符串匹配来选择行。

类似于这个成语：

re.search(pattern, cell_in_question)

返回布尔值。我熟悉df[df['A']==“helloworld”]的语法，但似乎找不到一种方法来处理部分字符串匹配，比如“hello”。

当前回答

在此之前，有一些答案可以实现所要求的功能，无论如何，我想展示最普遍的方式：

df.filter(regex=".*STRING_YOU_LOOK_FOR.*")

这样，你就可以得到你所寻找的专栏，无论它是怎么写的。

（显然，您必须为每种情况编写正确的正则表达式）

其他回答

有点类似于@cs95的答案，但这里不需要指定引擎：

df.query('A.str.contains("hello").values')

在此之前，有一些答案可以实现所要求的功能，无论如何，我想展示最普遍的方式：

df.filter(regex=".*STRING_YOU_LOOK_FOR.*")

这样，你就可以得到你所寻找的专栏，无论它是怎么写的。

（显然，您必须为每种情况编写正确的正则表达式）

如果有人想知道如何执行相关问题：“按部分字符串选择列”

Use:

df.filter(like='hello')  # select columns which contain the word hello

若要通过部分字符串匹配来选择行，请将axis=0传递到筛选器：

# selects rows which contain the word hello in their index label
df.filter(like='hello', axis=0)

我在ipython笔记本电脑的macos上使用熊猫0.14.1。我尝试了上面的建议行：

df[df["A"].str.contains("Hello|Britain")]

并得到一个错误：

无法使用包含NA/NaN值的矢量进行索引

但当添加了“==True”条件时，效果非常好，如下所示：

df[df['A'].str.contains("Hello|Britain")==True]

如果需要对panda数据帧列中的字符串进行不区分大小写的搜索：

df[df['A'].str.contains("hello", case=False)]

推荐文章