我做了一些搜索,不知道如何过滤一个数据框架
df["col"].str.contains(word)
然而,我想知道是否有一种方法可以做相反的事情:通过该集合的赞美来过滤数据帧。例:效果是
!(df["col"].str.contains(word))
这可以通过DataFrame方法来完成吗?
我做了一些搜索,不知道如何过滤一个数据框架
df["col"].str.contains(word)
然而,我想知道是否有一种方法可以做相反的事情:通过该集合的赞美来过滤数据帧。例:效果是
!(df["col"].str.contains(word))
这可以通过DataFrame方法来完成吗?
当前回答
我也遇到了不(~)符号的麻烦,所以这里是另一个StackOverflow线程的另一种方式:
df[df["col"].str.contains('this|that')==False]
其他回答
以某种方式”。包含“不适合我,但当我尝试的时候”。isin'正如@kenan在回答中提到的(如何从熊猫数据帧中删除包含特定列中的特定字符串的行?)它是有效的。进一步说,如果你想查看整个数据帧,并删除那些有特定单词(或一组单词)的行,只需使用下面的循环
for col in df.columns:
df = df[~df[col].isin(['string or string list separeted by comma'])]
只需删除~以获得包含单词的数据框架
要否定查询,请使用~。使用query的优点是直接返回df的有效观测值:
df.query('~col.str.contains("word").values')
为了补充上面的问题,如果有人想删除所有带字符串的行,可以这样做:
df_new=df[~df['col_name'].apply(lambda x: isinstance(x, str))]
我希望答案已经贴出来了
我正在添加框架来查找多个单词,并从dataFrame中否定这些单词。
这里'word1','word2','word3','word4' =要搜索的模式列表
df = DataFrame
column_a = DataFrame df中的列名
values_to_remove = ['word1','word2','word3','word4']
pattern = '|'.join(values_to_remove)
result = df.loc[~df['column_a'].str.contains(pattern, case=False)]
你可以使用Apply和Lambda:
df[df["col"].apply(lambda x: word not in x)]
或者如果你想定义更复杂的规则,你可以使用AND:
df[df["col"].apply(lambda x: word_1 not in x and word_2 not in x)]