如何检查字符串是否为unicode或ascii?

我必须在Python中做什么来找出字符串的编码?

当前回答

Unicode不是一种编码——引用Kumar McMillan的话:

如果ASCII, UTF-8和其他字节字符串是“text”… .．.那么Unicode就是“文本性”; 它是文本的抽象形式

读一读McMillan在PyCon 2008上的Unicode In Python，完全解密的演讲，它比Stack Overflow上的大多数相关答案更好地解释了事情。

2012-05-21 14:12:19

其他回答

use:

import six
if isinstance(obj, six.text_type)

在六个库中，它被表示为:

if PY3:
    string_types = str,
else:
    string_types = basestring,

2016-08-08 08:50:49

您可以使用通用编码检测器，但请注意，它只会给您最好的猜测，而不是实际的编码，因为不可能知道字符串“abc”的编码。您将需要在其他地方获取编码信息，例如HTTP协议使用内容类型报头。

2011-02-13 22:34:55

在Python-3中，我必须理解字符串是否像b='\x7f\x00\x00\x01'或b='127.0.0.1'我的解决方案是这样的:

def get_str(value):
    str_value = str(value)
    
    if str_value.isprintable():
        return str_value

    return '.'.join(['%d' % x for x in value])

对我有用，我希望对有需要的人有用

2021-04-07 16:05:45

在python中3。x所有字符串都是Unicode字符的序列。使用isinstance检查STR(默认为unicode字符串)就足够了。

isinstance(x, str)

关于python 2.x，大多数人似乎都在使用带有两次检查的if语句。一个用于STR，一个用于unicode。

如果你想检查你是否有一个'string-like'的对象，并且只有一个语句，你可以这样做:

isinstance(x, basestring)

2013-09-09 20:24:54

如果你的代码需要与Python 2和Python 3兼容，你不能直接使用isinstance(s,bytes)或isinstance(s,unicode)这样的东西，而不将它们包装在try/except或Python版本测试中，因为bytes在Python 2中未定义，unicode在Python 3中未定义。

有一些丑陋的变通办法。一种非常糟糕的方法是比较类型的名称，而不是比较类型本身。这里有一个例子:

# convert bytes (python 3) or unicode (python 2) to str
if str(type(s)) == "<class 'bytes'>":
    # only possible in Python 3
    s = s.decode('ascii')  # or  s = str(s)[2:-1]
elif str(type(s)) == "<type 'unicode'>":
    # only possible in Python 2
    s = str(s)

一个稍微不那么丑陋的解决方法是检查Python版本号，例如:

if sys.version_info >= (3,0,0):
    # for Python 3
    if isinstance(s, bytes):
        s = s.decode('ascii')  # or  s = str(s)[2:-1]
else:
    # for Python 2
    if isinstance(s, unicode):
        s = str(s)

这两个都是非python的，大多数时候可能有更好的方法。

2012-08-14 12:33:05

如何检查字符串是否为unicode或ascii?

推荐文章

最新文章

标签