使用多个单词边界分隔符将字符串拆分为单词

我想我想做的是一项相当常见的任务，但我在网上找不到任何参考资料。我有带标点符号的文本，我想要一个单词列表。

"Hey, you - what are you doing here!?"

应该是

['hey', 'you', 'what', 'are', 'you', 'doing', 'here']

但Python的str.split（）只对一个参数有效，所以在用空格拆分后，所有单词都带有标点符号。有什么想法吗？

当前回答

我喜欢re，但这是我没有它的解决方案：

from itertools import groupby
sep = ' ,-!?'
s = "Hey, you - what are you doing here!?"
print [''.join(g) for k, g in groupby(s, sep.__contains__) if not k]

sep__contains__是“in”运算符使用的方法。基本上与

lambda ch: ch in sep

但在这里更方便。

groupby获取字符串和函数。它使用该函数将字符串分成多个组：每当函数值发生变化时，就会生成一个新的组。因此，sep__contains__正是我们需要的。

groupby返回一个对序列，其中对[0]是我们函数的结果，对[1]是一个组。使用“if not k”，我们筛选出带有分隔符的组（因为sep.__contains__的结果在分隔符上为True）。好了，就这些了-现在我们有一个组序列，每个组都是一个单词（组实际上是一个可迭代的，所以我们使用join将其转换为字符串）。

这个解决方案非常通用，因为它使用一个函数来分隔字符串（您可以根据需要的任何条件进行拆分）。此外，它不创建中间字符串/列表（您可以删除join，因为每个组都是一个迭代器，所以表达式将变得懒惰）

2013-10-06 17:30:05

其他回答

创建一个函数，将两个字符串（要拆分的源字符串和分隔符的拆分列表字符串）作为输入，并输出拆分单词列表：

def split_string(source, splitlist):
    output = []  # output list of cleaned words
    atsplit = True
    for char in source:
        if char in splitlist:
            atsplit = True
        else:
            if atsplit:
                output.append(char)  # append new word after split
                atsplit = False
            else: 
                output[-1] = output[-1] + char  # continue copying characters until next split
    return output

2017-05-10 00:58:57

我最近需要这样做，但需要一个与标准库str.split函数有点匹配的函数，当使用0或1参数调用时，该函数的行为与标准库相同。

def split_many(string, *separators):
    if len(separators) == 0:
        return string.split()
    if len(separators) > 1:
        table = {
            ord(separator): ord(separator[0])
            for separator in separators
        }
        string = string.translate(table)
    return string.split(separators[0])

注意：此函数仅在分隔符由单个字符组成时有用（正如我的用例）。

2019-05-17 08:22:13

使用panda的series.str.split方法可以获得相同的结果，而不是使用re-module函数re.split。

首先，使用上述字符串创建一个系列，然后将该方法应用于该系列。

thestring=pd.Series（“嘿，你-你在这里干什么！？”）thestring.str.split（pat='，|-'）

参数pat接受分隔符并将拆分字符串作为数组返回。这里，使用|（或运算符）传递两个分隔符。输出如下：

[嘿，你，你在这里干什么！？]

2018-09-10 15:32:40

专业提示：使用string.translate进行Python最快的字符串操作。

一些证据。。。

首先，缓慢的方式（抱歉pprzemek）：

>>> import timeit
>>> S = 'Hey, you - what are you doing here!?'
>>> def my_split(s, seps):
...     res = [s]
...     for sep in seps:
...         s, res = res, []
...         for seq in s:
...             res += seq.split(sep)
...     return res
... 
>>> timeit.Timer('my_split(S, punctuation)', 'from __main__ import S,my_split; from string import punctuation').timeit()
54.65477919578552

接下来，我们使用re.findall（）（如建议的答案所示）。更快：

>>> timeit.Timer('findall(r"\w+", S)', 'from __main__ import S; from re import findall').timeit()
4.194725036621094

最后，我们使用translate：

>>> from string import translate,maketrans,punctuation 
>>> T = maketrans(punctuation, ' '*len(punctuation))
>>> timeit.Timer('translate(S, T).split()', 'from __main__ import S,T,translate').timeit()
1.2835021018981934

说明：

string.translate是用C实现的，与Python中的许多字符串操作函数不同，string.ttranslate不会生成新字符串。所以它的速度和字符串替换一样快。

不过，这有点尴尬，因为它需要一个翻译表来实现这一魔术。您可以使用maketrans（）方便函数创建转换表。这里的目标是将所有不需要的字符转换为空格。一换一的替代品。同样，不会产生新数据。所以这很快！

接下来，我们使用旧的split（）。默认情况下，split（）将对所有空白字符进行操作，将它们分组以进行拆分。结果将是您想要的单词列表。而且这种方法几乎比re.findall（）快4倍！

2012-08-30 04:05:54

我喜欢pprzemek的解决方案，因为它不假设分隔符是单个字符，也不试图利用正则表达式（如果分隔符的数量太长，这将不会很好地工作）。

为清晰起见，以下是上述解决方案的更可读版本：

def split_string_on_multiple_separators(input_string, separators):
    buffer = [input_string]
    for sep in separators:
        strings = buffer
        buffer = []  # reset the buffer
        for s in strings:
            buffer = buffer + s.split(sep)

    return buffer

2019-05-23 17:03:55

使用多个单词边界分隔符将字符串拆分为单词

推荐文章

最新文章

标签