我有一个熊猫DataFrame,其中包含一列字符串值。我需要根据部分字符串匹配来选择行。

类似于这个成语:

re.search(pattern, cell_in_question) 

返回布尔值。我熟悉df[df['A']==“helloworld”]的语法,但似乎找不到一种方法来处理部分字符串匹配,比如“hello”。


当前回答

这是我最后为部分字符串匹配所做的。如果有人有更有效的方法,请告诉我。

def stringSearchColumn_DataFrame(df, colName, regex):
    newdf = DataFrame()
    for idx, record in df[colName].iteritems():

        if re.search(regex, record):
            newdf = concat([df[df[colName] == record], newdf], ignore_index=True)

    return newdf

其他回答

一个更一般的例子-如果在字符串中查找单词或特定单词的部分:

df = pd.DataFrame([('cat andhat', 1000.0), ('hat', 2000000.0), ('the small dog', 1000.0), ('fog', 330000.0),('pet', 330000.0)], columns=['col1', 'col2'])

句子或单词的特定部分:

searchfor = '.*cat.*hat.*|.*the.*dog.*'

创建显示受影响行的列(可以根据需要过滤掉)

df["TrueFalse"]=df['col1'].str.contains(searchfor, regex=True)

    col1             col2           TrueFalse
0   cat andhat       1000.0         True
1   hat              2000000.0      False
2   the small dog    1000.0         True
3   fog              330000.0       False
4   pet 3            30000.0        False

如果需要对panda数据帧列中的字符串进行不区分大小写的搜索:

df[df['A'].str.contains("hello", case=False)]

这是我最后为部分字符串匹配所做的。如果有人有更有效的方法,请告诉我。

def stringSearchColumn_DataFrame(df, colName, regex):
    newdf = DataFrame()
    for idx, record in df[colName].iteritems():

        if re.search(regex, record):
            newdf = concat([df[df[colName] == record], newdf], ignore_index=True)

    return newdf

在此之前,有一些答案可以实现所要求的功能,无论如何,我想展示最普遍的方式:

df.filter(regex=".*STRING_YOU_LOOK_FOR.*")

这样,你就可以得到你所寻找的专栏,无论它是怎么写的。

(显然,您必须为每种情况编写正确的正则表达式)

有点类似于@cs95的答案,但这里不需要指定引擎:

df.query('A.str.contains("hello").values')