使用多个单词边界分隔符将字符串拆分为单词

我想我想做的是一项相当常见的任务，但我在网上找不到任何参考资料。我有带标点符号的文本，我想要一个单词列表。

"Hey, you - what are you doing here!?"

应该是

['hey', 'you', 'what', 'are', 'you', 'doing', 'here']

但Python的str.split（）只对一个参数有效，所以在用空格拆分后，所有单词都带有标点符号。有什么想法吗？

当前回答

re.split（）

re.split（模式，字符串[，maxsplit=0]）按模式的出现次数拆分字符串。如果模式中使用了捕获括号，那么模式中所有组的文本也会作为结果列表的一部分返回。如果maxsplit为非零，则最多发生maxsplit拆分，字符串的剩余部分将作为列表的最后一个元素返回。（不兼容注意：在最初的Python1.5版本中，maxsplit被忽略。这在以后的版本中得到了修复。）

>>> re.split('\W+', 'Words, words, words.')
['Words', 'words', 'words', '']
>>> re.split('(\W+)', 'Words, words, words.')
['Words', ', ', 'words', ', ', 'words', '.', '']
>>> re.split('\W+', 'Words, words, words.', 1)
['Words', 'words, words.']

2009-06-29 17:57:49

其他回答

正则表达式对正的情况：

import re
DATA = "Hey, you - what are you doing here!?"
print re.findall(r"[\w']+", DATA)
# Prints ['Hey', 'you', 'what', 'are', 'you', 'doing', 'here']

2009-06-29 17:56:39

在Python3中，您可以使用PY4E-PythonforEveryone中的方法。

我们可以通过使用字符串方法lower、标点符号和translate来解决这两个问题。翻译是最微妙的方法。以下是翻译文档：

your_string.translate（your_string.maketrans（fromstr，tostr，deletestr））

将fromstr中的字符替换为tostr中相同位置的字符，并删除deletestr中的所有字符。fromstr和tostr可以是空字符串，并且可以省略deletestr参数。

您可以看到“标点符号”：

In [10]: import string

In [11]: string.punctuation
Out[11]: '!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

例如：

In [12]: your_str = "Hey, you - what are you doing here!?"

In [13]: line = your_str.translate(your_str.maketrans('', '', string.punctuation))

In [14]: line = line.lower()

In [15]: words = line.split()

In [16]: print(words)
['hey', 'you', 'what', 'are', 'you', 'doing', 'here']

有关详细信息，请参阅：

PY4E-面向每个人的Python字符串转换str.maketransPython字符串maketrans（）方法

2018-07-15 15:09:06

使用maketrans和translate，您可以轻松、整洁地完成

import string
specials = ',.!?:;"()<>[]#$=-/'
trans = string.maketrans(specials, ' '*len(specials))
body = body.translate(trans)
words = body.strip().split()

2018-03-03 23:59:23

实现这一点的另一种方法是使用自然语言工具包（nltk）。

import nltk
data= "Hey, you - what are you doing here!?"
word_tokens = nltk.tokenize.regexp_tokenize(data, r'\w+')
print word_tokens

这张照片显示：[“嘿”、“你”、“什么”、“是”、“您”、“正在做”、“在这里”]

这种方法的最大缺点是需要安装nltk包。

好处是，一旦获得令牌，就可以使用nltk包的其余部分做很多有趣的事情。

2009-06-29 18:51:37

我遇到了类似的困境，不想使用“re”模块。

def my_split(s, seps):
    res = [s]
    for sep in seps:
        s, res = res, []
        for seq in s:
            res += seq.split(sep)
    return res

print my_split('1111  2222 3333;4444,5555;6666', [' ', ';', ','])
['1111', '', '2222', '3333', '4444', '5555', '6666']

2010-05-26 09:31:24

使用多个单词边界分隔符将字符串拆分为单词

推荐文章

最新文章

标签