使用多个单词边界分隔符将字符串拆分为单词

我想我想做的是一项相当常见的任务，但我在网上找不到任何参考资料。我有带标点符号的文本，我想要一个单词列表。

"Hey, you - what are you doing here!?"

应该是

['hey', 'you', 'what', 'are', 'you', 'doing', 'here']

但Python的str.split（）只对一个参数有效，所以在用空格拆分后，所有单词都带有标点符号。有什么想法吗？

当前回答

我正在重新熟悉Python，需要同样的东西。findall解决方案可能更好，但我想到了这个：

tokens = [x.strip() for x in data.split(',')]

2012-04-20 16:53:46

其他回答

join = lambda x: sum(x,[])  # a.k.a. flatten1([[1],[2,3],[4]]) -> [1,2,3,4]
# ...alternatively...
join = lambda lists: [x for l in lists for x in l]

然后变成三行：

fragments = [text]
for token in tokens:
    fragments = join(f.split(token) for f in fragments)

解释

这就是Haskell中所谓的列表monad。monad背后的想法是，一旦“进入monad”，你就“留在monad”直到有什么东西把你带走。例如，在Haskell中，假设您将python range（n）->[1，2，…，n]函数映射到List上。如果结果是一个List，它将被附加到List中，所以你会得到类似map（range，[3,4,1]）->[0,1,2,0,1,2,3,0]的结果。这被称为map append（或mappend，或类似的东西）。这里的想法是，你已经得到了你正在应用的这个操作（对一个令牌进行拆分），每当你这样做时，你都会将结果加入到列表中。

您可以将其抽象为一个函数，并在默认情况下使用token=string.p标点符号。

这种方法的优点：

这种方法（与基于正则表达式的简单方法不同）可以使用任意长度的令牌（正则表达式也可以使用更高级的语法）。你不仅仅局限于象征；您可以使用任意逻辑来代替每个标记，例如，其中一个“标记”可以是一个函数，该函数根据括号的嵌套程度进行拆分。

2011-05-05 08:35:59

re.split（）

re.split（模式，字符串[，maxsplit=0]）按模式的出现次数拆分字符串。如果模式中使用了捕获括号，那么模式中所有组的文本也会作为结果列表的一部分返回。如果maxsplit为非零，则最多发生maxsplit拆分，字符串的剩余部分将作为列表的最后一个元素返回。（不兼容注意：在最初的Python1.5版本中，maxsplit被忽略。这在以后的版本中得到了修复。）

>>> re.split('\W+', 'Words, words, words.')
['Words', 'words', 'words', '']
>>> re.split('(\W+)', 'Words, words, words.')
['Words', ', ', 'words', ', ', 'words', '.', '']
>>> re.split('\W+', 'Words, words, words.', 1)
['Words', 'words, words.']

2009-06-29 17:57:49

我正在重新熟悉Python，需要同样的东西。findall解决方案可能更好，但我想到了这个：

tokens = [x.strip() for x in data.split(',')]

2012-04-20 16:53:46

使用替换两次：

a = '11223FROM33344INTO33222FROM3344'
a.replace('FROM', ',,,').replace('INTO', ',,,').split(',,,')

结果是：

['11223', '33344', '33222', '3344']

2012-03-30 13:27:30

我喜欢pprzemek的解决方案，因为它不假设分隔符是单个字符，也不试图利用正则表达式（如果分隔符的数量太长，这将不会很好地工作）。

为清晰起见，以下是上述解决方案的更可读版本：

def split_string_on_multiple_separators(input_string, separators):
    buffer = [input_string]
    for sep in separators:
        strings = buffer
        buffer = []  # reset the buffer
        for s in strings:
            buffer = buffer + s.split(sep)

    return buffer

2019-05-23 17:03:55

使用多个单词边界分隔符将字符串拆分为单词

推荐文章

最新文章

标签