按子字符串条件筛选panda DataFrame

我有一个熊猫DataFrame，其中包含一列字符串值。我需要根据部分字符串匹配来选择行。

类似于这个成语：

re.search(pattern, cell_in_question)

返回布尔值。我熟悉df[df['A']==“helloworld”]的语法，但似乎找不到一种方法来处理部分字符串匹配，比如“hello”。

当前回答

这是我最后为部分字符串匹配所做的。如果有人有更有效的方法，请告诉我。

def stringSearchColumn_DataFrame(df, colName, regex):
    newdf = DataFrame()
    for idx, record in df[colName].iteritems():

        if re.search(regex, record):
            newdf = concat([df[df[colName] == record], newdf], ignore_index=True)

    return newdf

2012-07-06 17:08:46

其他回答

这是我最后为部分字符串匹配所做的。如果有人有更有效的方法，请告诉我。

def stringSearchColumn_DataFrame(df, colName, regex):
    newdf = DataFrame()
    for idx, record in df[colName].iteritems():

        if re.search(regex, record):
            newdf = concat([df[df[colName] == record], newdf], ignore_index=True)

    return newdf

2012-07-06 17:08:46

如果有人想知道如何执行相关问题：“按部分字符串选择列”

Use:

df.filter(like='hello')  # select columns which contain the word hello

若要通过部分字符串匹配来选择行，请将axis=0传递到筛选器：

# selects rows which contain the word hello in their index label
df.filter(like='hello', axis=0)

2016-10-12 21:04:32

如果需要对panda数据帧列中的字符串进行不区分大小写的搜索：

df[df['A'].str.contains("hello", case=False)]

2020-04-29 17:31:18

也许您想在Pandas数据帧的所有列中搜索一些文本，而不仅仅是在它们的子集中。在这种情况下，以下代码将有所帮助。

df[df.apply(lambda row: row.astype(str).str.contains('String To Find').any(), axis=1)]

警告这种方法虽然方便，但速度相对较慢。

2020-02-20 13:06:07

假设我们在数据帧df中有一个名为“ENTITY”的列。我们可以过滤df，以获得整个数据帧df，其中“实体”列的行不包含“DM”，方法如下：

mask = df['ENTITY'].str.contains('DM')

df = df.loc[~(mask)].copy(deep=True)

2021-03-30 12:06:24

按子字符串条件筛选panda DataFrame

推荐文章

最新文章

标签