从字符串中删除标点符号的最佳方法

似乎应该有一种比以下更简单的方法：

import string
s = "string. With. Punctuation?" # Sample string 
out = s.translate(string.maketrans("",""), string.punctuation)

有？

当前回答

我还没有看到这个答案。只需使用正则表达式；它删除了除单词字符（\w）和数字字符（\d）之外的所有字符，后跟一个空白字符（\s）：

import re
s = "string. With. Punctuation?" # Sample string 
out = re.sub(ur'[^\w\d\s]+', '', s)

2016-06-18 06:38:57

其他回答

字符串标点符号漏掉了现实世界中常用的大量标点符号。一个适用于非ASCII标点符号的解决方案怎么样？

import regex
s = u"string. With. Some・Really Weird、Non？ASCII。 「（Punctuation）」?"
remove = regex.compile(ur'[\p{C}|\p{M}|\p{P}|\p{S}|\p{Z}]+', regex.UNICODE)
remove.sub(u" ", s).strip()

我个人认为，这是在Python中删除字符串标点符号的最佳方法，因为：

它删除所有Unicode标点符号它很容易修改，例如，如果您想删除标点符号，可以删除\｛s｝，但保留像$这样的符号。您可以非常具体地了解要保留的内容和要删除的内容，例如，Pd只会删除破折号。此正则表达式还规范了空白。它将制表符、回车符和其他奇怪的字符映射到漂亮的单个空格。

这使用了Unicode字符财产，您可以在Wikipedia上阅读更多有关该属性的信息。

2016-10-06 16:46:01

不一定更简单，但如果你更熟悉re家族的话，就另辟蹊径。

import re, string
s = "string. With. Punctuation?" # Sample string 
out = re.sub('[%s]' % re.escape(string.punctuation), '', s)

2008-11-05 17:39:55

我通常用这样的词：

>>> s = "string. With. Punctuation?" # Sample string
>>> import string
>>> for c in string.punctuation:
...     s= s.replace(c,"")
...
>>> s
'string With Punctuation'

2008-11-05 17:41:27

试试那个：）

regex.sub(r'\p{P}','', s)

2020-09-02 07:51:45

下面是Python 3.5的一行代码：

import string
"l*ots! o(f. p@u)n[c}t]u[a'ti\"on#$^?/".translate(str.maketrans({a:None for a in string.punctuation}))

2016-03-21 02:46:47

从字符串中删除标点符号的最佳方法

推荐文章

最新文章

标签