我做了一些搜索,不知道如何过滤一个数据框架

df["col"].str.contains(word)

然而,我想知道是否有一种方法可以做相反的事情:通过该集合的赞美来过滤数据帧。例:效果是

!(df["col"].str.contains(word))

这可以通过DataFrame方法来完成吗?


当前回答

在使用上面安迪推荐的命令之前,我必须去掉NULL值。一个例子:

df = pd.DataFrame(index = [0, 1, 2], columns=['first', 'second', 'third'])
df.ix[:, 'first'] = 'myword'
df.ix[0, 'second'] = 'myword'
df.ix[2, 'second'] = 'myword'
df.ix[1, 'third'] = 'myword'
df

    first   second  third
0   myword  myword   NaN
1   myword  NaN      myword 
2   myword  myword   NaN

现在运行命令:

~df["second"].str.contains(word)

我得到以下错误:

TypeError: bad operand type for unary ~: 'float'

我先用dropna()或fillna()摆脱了NULL值,然后重试该命令,没有问题。

其他回答

我也遇到了不(~)符号的麻烦,所以这里是另一个StackOverflow线程的另一种方式:

df[df["col"].str.contains('this|that')==False]

在使用上面安迪推荐的命令之前,我必须去掉NULL值。一个例子:

df = pd.DataFrame(index = [0, 1, 2], columns=['first', 'second', 'third'])
df.ix[:, 'first'] = 'myword'
df.ix[0, 'second'] = 'myword'
df.ix[2, 'second'] = 'myword'
df.ix[1, 'third'] = 'myword'
df

    first   second  third
0   myword  myword   NaN
1   myword  NaN      myword 
2   myword  myword   NaN

现在运行命令:

~df["second"].str.contains(word)

我得到以下错误:

TypeError: bad operand type for unary ~: 'float'

我先用dropna()或fillna()摆脱了NULL值,然后重试该命令,没有问题。

你可以使用Apply和Lambda:

df[df["col"].apply(lambda x: word not in x)]

或者如果你想定义更复杂的规则,你可以使用AND:

df[df["col"].apply(lambda x: word_1 not in x and word_2 not in x)]

除了nanselm2的答案,你可以用0代替False:

df["col"].str.contains(word)==0

要否定查询,请使用~。使用query的优点是直接返回df的有效观测值:

df.query('~col.str.contains("word").values')