使用多个单词边界分隔符将字符串拆分为单词

我想我想做的是一项相当常见的任务，但我在网上找不到任何参考资料。我有带标点符号的文本，我想要一个单词列表。

"Hey, you - what are you doing here!?"

应该是

['hey', 'you', 'what', 'are', 'you', 'doing', 'here']

但Python的str.split（）只对一个参数有效，所以在用空格拆分后，所有单词都带有标点符号。有什么想法吗？

当前回答

遇到与@ooboo相同的问题并找到此主题@ghostdog74启发了我，也许有人觉得我的解决方案很有用

str1='adj:sg:nom:m1.m2.m3:pos'
splitat=':.'
''.join([ s if s not in splitat else ' ' for s in str1]).split()

在空格处输入内容，如果不想在空格处拆分，请使用相同的字符进行拆分。

2011-03-15 10:12:20

其他回答

试试看：

import re

phrase = "Hey, you - what are you doing here!?"
matches = re.findall('\w+', phrase)
print matches

这将打印['Hey'，'you'，'what'，'are'，'you'，'doing'，'here']

2009-06-29 18:01:00

我最近需要这样做，但需要一个与标准库str.split函数有点匹配的函数，当使用0或1参数调用时，该函数的行为与标准库相同。

def split_many(string, *separators):
    if len(separators) == 0:
        return string.split()
    if len(separators) > 1:
        table = {
            ord(separator): ord(separator[0])
            for separator in separators
        }
        string = string.translate(table)
    return string.split(separators[0])

注意：此函数仅在分隔符由单个字符组成时有用（正如我的用例）。

2019-05-17 08:22:13

我正在重新熟悉Python，需要同样的东西。findall解决方案可能更好，但我想到了这个：

tokens = [x.strip() for x in data.split(',')]

2012-04-20 16:53:46

在Python3中，您可以使用PY4E-PythonforEveryone中的方法。

我们可以通过使用字符串方法lower、标点符号和translate来解决这两个问题。翻译是最微妙的方法。以下是翻译文档：

your_string.translate（your_string.maketrans（fromstr，tostr，deletestr））

将fromstr中的字符替换为tostr中相同位置的字符，并删除deletestr中的所有字符。fromstr和tostr可以是空字符串，并且可以省略deletestr参数。

您可以看到“标点符号”：

In [10]: import string

In [11]: string.punctuation
Out[11]: '!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

例如：

In [12]: your_str = "Hey, you - what are you doing here!?"

In [13]: line = your_str.translate(your_str.maketrans('', '', string.punctuation))

In [14]: line = line.lower()

In [15]: words = line.split()

In [16]: print(words)
['hey', 'you', 'what', 'are', 'you', 'doing', 'here']

有关详细信息，请参阅：

PY4E-面向每个人的Python字符串转换str.maketransPython字符串maketrans（）方法

2018-07-15 15:09:06

我喜欢pprzemek的解决方案，因为它不假设分隔符是单个字符，也不试图利用正则表达式（如果分隔符的数量太长，这将不会很好地工作）。

为清晰起见，以下是上述解决方案的更可读版本：

def split_string_on_multiple_separators(input_string, separators):
    buffer = [input_string]
    for sep in separators:
        strings = buffer
        buffer = []  # reset the buffer
        for s in strings:
            buffer = buffer + s.split(sep)

    return buffer

2019-05-23 17:03:55

使用多个单词边界分隔符将字符串拆分为单词

推荐文章

最新文章

标签