Unicode (UTF-8)在Python中读取和写入文件

我在理解读取和写入文件的文本方面有一些大脑故障(Python 2.4)。

# The string, which has an a-acute in it.
ss = u'Capit\xe1n'
ss8 = ss.encode('utf8')
repr(ss), repr(ss8)

(“u’Capit \ xe1n’”、“’Capit \ xc3 \ xa1n’")

print ss, ss8
print >> open('f1','w'), ss8

>>> file('f1').read()
'Capit\xc3\xa1n\n'

于是我在我最喜欢的编辑器f2文件中输入了大写字母\xc3\xa1n。

然后:

>>> open('f1').read()
'Capit\xc3\xa1n\n'
>>> open('f2').read()
'Capit\\xc3\\xa1n\n'
>>> open('f1').read().decode('utf8')
u'Capit\xe1n\n'
>>> open('f2').read().decode('utf8')
u'Capit\\xc3\\xa1n\n'

我哪里不明白了?显然，我忽略了一些至关重要的魔力(或良好的感觉)。在文本文件中输入什么才能得到正确的转换?

我在这里真正搞不懂的是，当它来自外部时，如果你不能让Python识别它，那么UTF-8表示的意义是什么。也许我应该只是JSON转储字符串，并使用它，因为它有一个asciiable表示!更重要的是，当这个Unicode对象从文件中传入时，是否存在Python能够识别和解码的ASCII表示形式?如果有，我怎么得到它?

>>> print simplejson.dumps(ss)
'"Capit\u00e1n"'
>>> print >> file('f3','w'), simplejson.dumps(ss)
>>> simplejson.load(open('f3'))
u'Capit\xe1n'

当前回答

与其混淆.encode和.decode，不如在打开文件时指定编码。在Python 2.6中添加的io模块提供了一个io。Open函数，允许指定文件的编码。

假设文件用UTF-8编码，我们可以使用:

>>> import io
>>> f = io.open("test", mode="r", encoding="utf-8")

然后f.read返回一个解码后的Unicode对象:

>>> f.read()
u'Capit\xe1l\n\n'

在3。X, io。Open function是内置Open函数的别名，它支持encoding参数(在2.x中不支持)。

我们也可以使用codecs标准库模块中的open:

>>> import codecs
>>> f = codecs.open("test", "r", "utf-8")
>>> f.read()
u'Capit\xe1l\n\n'

但是请注意，当混合使用read()和readline()时，这可能会导致问题。

2009-05-10 00:45:58

其他回答

\ x . .sequence是Python特有的。它不是通用的字节转义序列。

如何实际输入utf -8编码的非ascii取决于您的操作系统和/或编辑器。下面是在Windows中如何做的。对于OS X，输入带有重音的a，只需点击选项+ E，然后是a，几乎所有OS X中的文本编辑器都支持UTF-8。

2009-01-29 15:10:26

与其混淆.encode和.decode，不如在打开文件时指定编码。在Python 2.6中添加的io模块提供了一个io。Open函数，允许指定文件的编码。

假设文件用UTF-8编码，我们可以使用:

>>> import io
>>> f = io.open("test", mode="r", encoding="utf-8")

然后f.read返回一个解码后的Unicode对象:

>>> f.read()
u'Capit\xe1l\n\n'

在3。X, io。Open function是内置Open函数的别名，它支持encoding参数(在2.x中不支持)。

我们也可以使用codecs标准库模块中的open:

>>> import codecs
>>> f = codecs.open("test", "r", "utf-8")
>>> f.read()
u'Capit\xe1l\n\n'

但是请注意，当混合使用read()和readline()时，这可能会导致问题。

2009-05-10 00:45:58

# -*- encoding: utf-8 -*-

# converting a unknown formatting file in utf-8

import codecs
import commands

file_location = "jumper.sub"
file_encoding = commands.getoutput('file -b --mime-encoding %s' % file_location)

file_stream = codecs.open(file_location, 'r', file_encoding)
file_output = codecs.open(file_location+"b", 'w', 'utf-8')

for l in file_stream:
    file_output.write(l)

file_stream.close()
file_output.close()

2012-02-08 20:24:46

在符号u'Capit\xe1n\n'(应该是'Capit\xe1n\n'在3。X，并且必须在3.0和3.1中)，\xe1只代表一个字符。\x是转义序列，表示e1是十六进制。

在文本编辑器中将Capit\xc3\xa1n写入文件中意味着它实际上包含\xc3\xa1。这是8个字节，代码会全部读取。我们可以通过显示结果来看到这一点:

# Python 3.x - reading the file as bytes rather than text,
# to ensure we see the raw data
>>> open('f2', 'rb').read()
b'Capit\\xc3\\xa1n\n'

# Python 2.x
>>> open('f2').read()
'Capit\\xc3\\xa1n\n'

相反，只需在编辑器中输入像á这样的字符，然后编辑器将处理转换为UTF-8并保存它。

在2。X，实际上包含这些反斜杠转义序列的字符串可以使用string_escape编解码器解码:

# Python 2.x
>>> print 'Capit\\xc3\\xa1n\n'.decode('string_escape')
Capitán

结果是一个以UTF-8编码的str，其中重音字符由在原始字符串中写入\\xc3\\xa1的两个字节表示。要获得unicode结果，再次使用UTF-8解码。

在3。在X中，string_escape编解码器被unicode_escape取代，并且严格强制我们只能从STR编码到字节，并从字节解码到STR。unicode_escape需要从字节开始以便处理转义序列(相反，它会添加它们);然后它会把结果\xc3和\xa1当作字符转义，而不是字节转义。因此，我们必须做更多的工作:

# Python 3.x
>>> 'Capit\\xc3\\xa1n\n'.encode('ascii').decode('unicode_escape').encode('latin-1').decode('utf-8')
'Capitán\n'

2009-01-29 15:11:59

除了codecs.open()之外，io.open()可以在这两种情况下使用。X和3。X来读写文本文件。例子:

import io

text = u'á'
encoding = 'utf8'

with io.open('data.txt', 'w', encoding=encoding, newline='\n') as fout:
    fout.write(text)

with io.open('data.txt', 'r', encoding=encoding, newline='\n') as fin:
    text2 = fin.read()

assert text == text2

2017-06-21 09:37:44

Unicode (UTF-8)在Python中读取和写入文件

推荐文章

最新文章

标签