Unicode (UTF-8)在Python中读取和写入文件

我在理解读取和写入文件的文本方面有一些大脑故障(Python 2.4)。

# The string, which has an a-acute in it.
ss = u'Capit\xe1n'
ss8 = ss.encode('utf8')
repr(ss), repr(ss8)

(“u’Capit \ xe1n’”、“’Capit \ xc3 \ xa1n’")

print ss, ss8
print >> open('f1','w'), ss8

>>> file('f1').read()
'Capit\xc3\xa1n\n'

于是我在我最喜欢的编辑器f2文件中输入了大写字母\xc3\xa1n。

然后:

>>> open('f1').read()
'Capit\xc3\xa1n\n'
>>> open('f2').read()
'Capit\\xc3\\xa1n\n'
>>> open('f1').read().decode('utf8')
u'Capit\xe1n\n'
>>> open('f2').read().decode('utf8')
u'Capit\\xc3\\xa1n\n'

我哪里不明白了?显然，我忽略了一些至关重要的魔力(或良好的感觉)。在文本文件中输入什么才能得到正确的转换?

我在这里真正搞不懂的是，当它来自外部时，如果你不能让Python识别它，那么UTF-8表示的意义是什么。也许我应该只是JSON转储字符串，并使用它，因为它有一个asciiable表示!更重要的是，当这个Unicode对象从文件中传入时，是否存在Python能够识别和解码的ASCII表示形式?如果有，我怎么得到它?

>>> print simplejson.dumps(ss)
'"Capit\u00e1n"'
>>> print >> file('f3','w'), simplejson.dumps(ss)
>>> simplejson.load(open('f3'))
u'Capit\xe1n'

当前回答

我找到了最简单的方法，将整个脚本的默认编码改为'UTF-8':

import sys
reload(sys)
sys.setdefaultencoding('utf8')

任何打开、打印或其他语句将只使用utf8。

至少适用于Python 2.7.9。

谢谢到https://markhneedham.com/blog/2015/05/21/python-unicodeencodeerror-ascii-codec-cant-encode-character-uxfc-in-position-11-ordinal-not-in-range128/(看最后)。

2019-12-17 14:49:38

其他回答

您还可以改进原始的open()函数，通过使用partial函数替换它来处理Unicode文件。这个解决方案的美妙之处在于您不需要更改任何旧代码。它是透明的。

import codecs
import functools
open = functools.partial(codecs.open, encoding='utf-8')

2016-12-08 03:22:48

与其混淆.encode和.decode，不如在打开文件时指定编码。在Python 2.6中添加的io模块提供了一个io。Open函数，允许指定文件的编码。

假设文件用UTF-8编码，我们可以使用:

>>> import io
>>> f = io.open("test", mode="r", encoding="utf-8")

然后f.read返回一个解码后的Unicode对象:

>>> f.read()
u'Capit\xe1l\n\n'

在3。X, io。Open function是内置Open函数的别名，它支持encoding参数(在2.x中不支持)。

我们也可以使用codecs标准库模块中的open:

>>> import codecs
>>> f = codecs.open("test", "r", "utf-8")
>>> f.read()
u'Capit\xe1l\n\n'

但是请注意，当混合使用read()和readline()时，这可能会导致问题。

2009-05-10 00:45:58

这适用于在Python 3.2中读取UTF-8编码的文件:

import codecs
f = codecs.open('file_name.txt', 'r', 'UTF-8')
for line in f:
    print(line)

2014-08-19 08:09:28

为了读入Unicode字符串，然后发送到HTML，我这样做:

fileline.decode("utf-8").encode('ascii', 'xmlcharrefreplace')

适用于python支持的http服务器。

2014-09-18 14:38:14

所以，我找到了我想要的解决方案，那就是:

print open('f2').read().decode('string-escape').decode("utf-8")

这里有一些不寻常的编解码器很有用。这种特殊的读取允许从Python中获取UTF-8表示，将它们复制到ASCII文件中，并将它们读入Unicode。在“字符串转义”解码下，斜杠不会加倍。

这允许我想象的那种往返。

2009-01-29 20:01:27

Unicode (UTF-8)在Python中读取和写入文件

推荐文章

最新文章

标签