如何将Unicode字符串(包含额外的字符,如£$等)转换为Python字符串?


当前回答

我已经做了下面的函数,它可以让你控制什么要保留根据Unicode的General_Category_Values (https://www.unicode.org/reports/tr44/#General_Category_Values)

def FormatToNameList(name_str):
    import unicodedata
    clean_str = ''
    for c in name_str:
        if unicodedata.category(c) in ['Lu','Ll']:
            clean_str += c.lower()
            print('normal letter: ',c)
        elif unicodedata.category(c) in ['Lt','Lm','Lo']:
            clean_str += c
            print('special letter: ',c)
        elif unicodedata.category(c) in ['Nd']:
            clean_str += c
            print('normal number: ',c)
        elif unicodedata.category(c) in ['Nl','No']:
            clean_str += c
            print('special number: ',c)
        elif unicodedata.category(c) in ['Cc','Sm','Zs','Zl','Zp','Pc','Pd','Ps','Pe','Pi','Pf','Po']:
            clean_str += ' '
            print('space or symbol: ',c)
        else:
            print('other: ',' : ',c,' unicodedata.category: ',unicodedata.category(c))    
    name_list = clean_str.split(' ')
    return clean_str, name_list
if __name__ == '__main__':
     u = 'some3^?"Weirdstr '+ chr(231) + chr(0x0af4)
     [clean_str, name_list] = FormatToNameList(u)
     print(clean_str)
     print(name_list)

参见https://docs.python.org/3/howto/unicode.html

其他回答

如果您有一个Unicode字符串,并且希望将其写入文件或其他序列化形式,则必须首先将其编码为可存储的特定表示形式。有几种常见的Unicode编码,例如UTF-16(大多数Unicode字符使用两个字节)或UTF-8(1-4字节/码点取决于字符),等等。要将该字符串转换为特定的编码,您可以使用:

>>> s= u'£10'
>>> s.encode('utf8')
'\xc2\x9c10'
>>> s.encode('utf16')
'\xff\xfe\x9c\x001\x000\x00'

可以将这个原始字节字符串写入文件。但是,请注意,当读取它时,您必须知道它是什么编码,并使用相同的编码进行解码。

当写入文件时,您可以使用codecs模块来摆脱这个手动编码/解码过程。因此,要打开一个将所有Unicode字符串编码为UTF-8的文件,请使用:

import codecs
f = codecs.open('path/to/file.txt','w','utf8')
f.write(my_unicode_string)  # Stored on disk as UTF-8

请注意,使用这些文件的任何其他程序如果想读取这些文件,就必须了解文件的编码。如果你是唯一一个读/写的人,这不是问题,否则请确保你写的是一种其他使用文件的人都能理解的形式。

在Python 3中,这种形式的文件访问是默认的,内置的open函数将接受编码参数,并始终将以文本模式打开的文件转换为Unicode字符串(Python 3中的默认字符串对象)。

>>> text=u'abcd'
>>> str(text)
'abcd'

如果字符串只包含ascii字符。

这里有一个例子:

>>> u = u'€€€'
>>> s = u.encode('utf8')
>>> s
'\xe2\x82\xac\xe2\x82\xac\xe2\x82\xac'

看到unicodedata.normalize

title = u"Klüft skräms inför på fédéral électoral große"
import unicodedata
unicodedata.normalize('NFKD', title).encode('ascii', 'ignore')
'Kluft skrams infor pa federal electoral groe'

下面是一个示例代码

import unicodedata    
raw_text = u"here $%6757 dfgdfg"
convert_text = unicodedata.normalize('NFKD', raw_text).encode('ascii','ignore')