使用多个单词边界分隔符将字符串拆分为单词

我想我想做的是一项相当常见的任务，但我在网上找不到任何参考资料。我有带标点符号的文本，我想要一个单词列表。

"Hey, you - what are you doing here!?"

应该是

['hey', 'you', 'what', 'are', 'you', 'doing', 'here']

但Python的str.split（）只对一个参数有效，所以在用空格拆分后，所有单词都带有标点符号。有什么想法吗？

当前回答

试试看：

import re

phrase = "Hey, you - what are you doing here!?"
matches = re.findall('\w+', phrase)
print matches

这将打印['Hey'，'you'，'what'，'are'，'you'，'doing'，'here']

2009-06-29 18:01:00

其他回答

我正在重新熟悉Python，需要同样的东西。findall解决方案可能更好，但我想到了这个：

tokens = [x.strip() for x in data.split(',')]

2012-04-20 16:53:46

使用panda的series.str.split方法可以获得相同的结果，而不是使用re-module函数re.split。

首先，使用上述字符串创建一个系列，然后将该方法应用于该系列。

thestring=pd.Series（“嘿，你-你在这里干什么！？”）thestring.str.split（pat='，|-'）

参数pat接受分隔符并将拆分字符串作为数组返回。这里，使用|（或运算符）传递两个分隔符。输出如下：

[嘿，你，你在这里干什么！？]

2018-09-10 15:32:40

我认为以下是满足您需求的最佳答案：

\W+可能适合这种情况，但可能不适合其他情况。

filter(None, re.compile('[ |,|\-|!|?]').split( "Hey, you - what are you doing here!?")

2012-03-09 08:30:11

专业提示：使用string.translate进行Python最快的字符串操作。

一些证据。。。

首先，缓慢的方式（抱歉pprzemek）：

>>> import timeit
>>> S = 'Hey, you - what are you doing here!?'
>>> def my_split(s, seps):
...     res = [s]
...     for sep in seps:
...         s, res = res, []
...         for seq in s:
...             res += seq.split(sep)
...     return res
... 
>>> timeit.Timer('my_split(S, punctuation)', 'from __main__ import S,my_split; from string import punctuation').timeit()
54.65477919578552

接下来，我们使用re.findall（）（如建议的答案所示）。更快：

>>> timeit.Timer('findall(r"\w+", S)', 'from __main__ import S; from re import findall').timeit()
4.194725036621094

最后，我们使用translate：

>>> from string import translate,maketrans,punctuation 
>>> T = maketrans(punctuation, ' '*len(punctuation))
>>> timeit.Timer('translate(S, T).split()', 'from __main__ import S,T,translate').timeit()
1.2835021018981934

说明：

string.translate是用C实现的，与Python中的许多字符串操作函数不同，string.ttranslate不会生成新字符串。所以它的速度和字符串替换一样快。

不过，这有点尴尬，因为它需要一个翻译表来实现这一魔术。您可以使用maketrans（）方便函数创建转换表。这里的目标是将所有不需要的字符转换为空格。一换一的替代品。同样，不会产生新数据。所以这很快！

接下来，我们使用旧的split（）。默认情况下，split（）将对所有空白字符进行操作，将它们分组以进行拆分。结果将是您想要的单词列表。而且这种方法几乎比re.findall（）快4倍！

2012-08-30 04:05:54

re.split（）

re.split（模式，字符串[，maxsplit=0]）按模式的出现次数拆分字符串。如果模式中使用了捕获括号，那么模式中所有组的文本也会作为结果列表的一部分返回。如果maxsplit为非零，则最多发生maxsplit拆分，字符串的剩余部分将作为列表的最后一个元素返回。（不兼容注意：在最初的Python1.5版本中，maxsplit被忽略。这在以后的版本中得到了修复。）

>>> re.split('\W+', 'Words, words, words.')
['Words', 'words', 'words', '']
>>> re.split('(\W+)', 'Words, words, words.')
['Words', ', ', 'words', ', ', 'words', '.', '']
>>> re.split('\W+', 'Words, words, words.', 1)
['Words', 'words, words.']

2009-06-29 17:57:49

使用多个单词边界分隔符将字符串拆分为单词

推荐文章

最新文章

标签