如何在Python中删除字符串中的所有非数字字符?


当前回答

@Ned Batchelder和@newacct给出了正确答案,但是…

以防万一,如果你的字符串中有逗号(,)decimal(.):

import re
re.sub("[^\d\.]", "", "$1,999,888.77")
'1999888.77'

其他回答

最快的方法,如果你需要执行不止一个或两个这样的删除操作(甚至只是一个,但对一个非常长的字符串!-),是依赖于字符串的翻译方法,即使它确实需要一些准备:

>>> import string
>>> allchars = ''.join(chr(i) for i in xrange(256))
>>> identity = string.maketrans('', '')
>>> nondigits = allchars.translate(identity, string.digits)
>>> s = 'abc123def456'
>>> s.translate(identity, nondigits)
'123456'

翻译方法是不同的,可能更简单一点,在Unicode字符串上比在字节字符串上更容易使用,顺便说一下:

>>> unondig = dict.fromkeys(xrange(65536))
>>> for x in string.digits: del unondig[ord(x)]
... 
>>> s = u'abc123def456'
>>> s.translate(unondig)
u'123456'

您可能希望使用映射类而不是实际的dict,特别是如果您的Unicode字符串可能包含非常高的ord值的字符(这会使dict过大;-)。例如:

>>> class keeponly(object):
...   def __init__(self, keep): 
...     self.keep = set(ord(c) for c in keep)
...   def __getitem__(self, key):
...     if key in self.keep:
...       return key
...     return None
... 
>>> s.translate(keeponly(string.digits))
u'123456'
>>> 

不确定这是否是最有效的方法,但是:

>>> ''.join(c for c in "abc123def456" if c.isdigit())
'123456'

”。连接部分是指将所有产生的字符组合在一起,中间没有任何字符。然后它的其余部分是一个生成器表达式,其中(正如您可能猜到的那样)我们只取字符串中与条件isdigit匹配的部分。

>>> import re
>>> re.sub("[^0-9]", "", "sdkjh987978asd098as0980a98sd")
'987978098098098'

这应该适用于Python2中的字符串和unicode对象,以及Python3中的字符串和字节:

# python <3.0
def only_numerics(seq):
    return filter(type(seq).isdigit, seq)

# python ≥3.0
def only_numerics(seq):
    seq_type= type(seq)
    return seq_type().join(filter(seq_type.isdigit, seq))

为了在这个组合中添加另一个选项,string模块中有几个有用的常量。虽然在其他情况下更有用,但在这里可以使用它们。

>>> from string import digits
>>> ''.join(c for c in "abc123def456" if c in digits)
'123456'

模块中有几个常量,包括:

ascii_letters (abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ) 十六进制数字 (0123456789abcdefABCDEF)

如果你大量使用这些常量,将它们转换成一个冻结集是值得的。这样可以进行O(1)次查找,而不是O(n)次查找,其中n是原始字符串常量的长度。

>>> digits = frozenset(digits)
>>> ''.join(c for c in "abc123def456" if c in digits)
'123456'