将Unicode字符串转换为Python中的字符串(包含额外符号)

如何将Unicode字符串(包含额外的字符，如£$等)转换为Python字符串?

当前回答

>>> text=u'abcd'
>>> str(text)
'abcd'

如果字符串只包含ascii字符。

2012-10-25 16:27:20

其他回答

如果您有一个Unicode字符串，并且希望将其写入文件或其他序列化形式，则必须首先将其编码为可存储的特定表示形式。有几种常见的Unicode编码，例如UTF-16(大多数Unicode字符使用两个字节)或UTF-8(1-4字节/码点取决于字符)，等等。要将该字符串转换为特定的编码，您可以使用:

>>> s= u'£10'
>>> s.encode('utf8')
'\xc2\x9c10'
>>> s.encode('utf16')
'\xff\xfe\x9c\x001\x000\x00'

可以将这个原始字节字符串写入文件。但是，请注意，当读取它时，您必须知道它是什么编码，并使用相同的编码进行解码。

当写入文件时，您可以使用codecs模块来摆脱这个手动编码/解码过程。因此，要打开一个将所有Unicode字符串编码为UTF-8的文件，请使用:

import codecs
f = codecs.open('path/to/file.txt','w','utf8')
f.write(my_unicode_string)  # Stored on disk as UTF-8

请注意，使用这些文件的任何其他程序如果想读取这些文件，就必须了解文件的编码。如果你是唯一一个读/写的人，这不是问题，否则请确保你写的是一种其他使用文件的人都能理解的形式。

在Python 3中，这种形式的文件访问是默认的，内置的open函数将接受编码参数，并始终将以文本模式打开的文件转换为Unicode字符串(Python 3中的默认字符串对象)。

2009-07-30 16:44:54

好吧，如果你愿意/准备切换到Python 3(由于与一些Python 2代码向后不兼容，你可能不会切换到Python 3)，你不需要做任何转换;Python 3中的所有文本都用Unicode字符串表示，这也意味着不再使用u'<text>'语法。实际上，您还拥有用于表示数据的字节字符串(可能是经过编码的字符串)。

http://docs.python.org/3.1/whatsnew/3.0.html#text-vs-data-instead-of-unicode-vs-8-bit

(当然，如果你目前使用的是Python 3，那么问题很可能与你试图将文本保存到文件的方式有关。)

2009-07-30 16:09:31

有一个库可以帮助解决Unicode问题，称为ftfy。让我的生活更轻松。

示例1

import ftfy
print(ftfy.fix_text('uÌˆnicode'))

output -->
ünicode

例2 - UTF-8

import ftfy
print(ftfy.fix_text('\xe2\x80\xa2'))

output -->
•

例3 - Unicode 代码点

import ftfy
print(ftfy.fix_text(u'\u2026'))

output -->
…

https://ftfy.readthedocs.io/en/latest/

PIP安装ftfy

https://pypi.org/project/ftfy/

2020-11-16 14:10:20

这是我的函数

import unicodedata
def unicode_to_ascii(note):
    str_map = {'Š' : 'S', 'š' : 's', 'Đ' : 'D', 'đ' : 'd', 'Ž' : 'Z', 'ž' : 'z', 'Č' : 'C', 'č' : 'c', 'Ć' : 'C', 'ć' : 'c', 'À' : 'A', 'Á' : 'A', 'Â' : 'A', 'Ã' : 'A', 'Ä' : 'A', 'Å' : 'A', 'Æ' : 'A', 'Ç' : 'C', 'È' : 'E', 'É' : 'E', 'Ê' : 'E', 'Ë' : 'E', 'Ì' : 'I', 'Í' : 'I', 'Î' : 'I', 'Ï' : 'I', 'Ñ' : 'N', 'Ò' : 'O', 'Ó' : 'O', 'Ô' : 'O', 'Õ' : 'O', 'Ö' : 'O', 'Ø' : 'O', 'Ù' : 'U', 'Ú' : 'U', 'Û' : 'U', 'Ü' : 'U', 'Ý' : 'Y', 'Þ' : 'B', 'ß' : 'Ss', 'à' : 'a', 'á' : 'a', 'â' : 'a', 'ã' : 'a', 'ä' : 'a', 'å' : 'a', 'æ' : 'a', 'ç' : 'c', 'è' : 'e', 'é' : 'e', 'ê' : 'e', 'ë' : 'e', 'ì' : 'i', 'í' : 'i', 'î' : 'i', 'ï' : 'i', 'ð' : 'o', 'ñ' : 'n', 'ò' : 'o', 'ó' : 'o', 'ô' : 'o', 'õ' : 'o', 'ö' : 'o', 'ø' : 'o', 'ù' : 'u', 'ú' : 'u', 'û' : 'u', 'ý' : 'y', 'ý' : 'y', 'þ' : 'b', 'ÿ' : 'y', 'Ŕ' : 'R', 'ŕ' : 'r'}
    for key, value in str_map.items():
        note = note.replace(key, value)
    asciidata = unicodedata.normalize('NFKD', note).encode('ascii', 'ignore')
    return asciidata.decode('UTF-8')

2022-06-08 10:12:06

在我的例子中，没有答案，因为我有一个包含unicode字符的字符串变量，这里解释的编码-解码都不起作用。

如果我在终点站做

echo "no me llama mucho la atenci\u00f3n"

python3
>>> print("no me llama mucho la atenci\u00f3n")

输出是正确的:

output: no me llama mucho la atención

但是使用脚本加载这个字符串变量不起作用。

我的案子就是这么办的，说不定能帮到谁

string_to_convert = "no me llama mucho la atenci\u00f3n"
print(json.dumps(json.loads(r'"%s"' % string_to_convert), ensure_ascii=False))
output: no me llama mucho la atención

2019-11-05 20:40:38

将Unicode字符串转换为Python中的字符串(包含额外符号)

推荐文章

最新文章

标签