Unicode (UTF-8)在Python中读取和写入文件

我在理解读取和写入文件的文本方面有一些大脑故障(Python 2.4)。

# The string, which has an a-acute in it.
ss = u'Capit\xe1n'
ss8 = ss.encode('utf8')
repr(ss), repr(ss8)

(“u’Capit \ xe1n’”、“’Capit \ xc3 \ xa1n’")

print ss, ss8
print >> open('f1','w'), ss8

>>> file('f1').read()
'Capit\xc3\xa1n\n'

于是我在我最喜欢的编辑器f2文件中输入了大写字母\xc3\xa1n。

然后:

>>> open('f1').read()
'Capit\xc3\xa1n\n'
>>> open('f2').read()
'Capit\\xc3\\xa1n\n'
>>> open('f1').read().decode('utf8')
u'Capit\xe1n\n'
>>> open('f2').read().decode('utf8')
u'Capit\\xc3\\xa1n\n'

我哪里不明白了?显然，我忽略了一些至关重要的魔力(或良好的感觉)。在文本文件中输入什么才能得到正确的转换?

我在这里真正搞不懂的是，当它来自外部时，如果你不能让Python识别它，那么UTF-8表示的意义是什么。也许我应该只是JSON转储字符串，并使用它，因为它有一个asciiable表示!更重要的是，当这个Unicode对象从文件中传入时，是否存在Python能够识别和解码的ASCII表示形式?如果有，我怎么得到它?

>>> print simplejson.dumps(ss)
'"Capit\u00e1n"'
>>> print >> file('f3','w'), simplejson.dumps(ss)
>>> simplejson.load(open('f3'))
u'Capit\xe1n'

当前回答

除了codecs.open()之外，io.open()可以在这两种情况下使用。X和3。X来读写文本文件。例子:

import io

text = u'á'
encoding = 'utf8'

with io.open('data.txt', 'w', encoding=encoding, newline='\n') as fout:
    fout.write(text)

with io.open('data.txt', 'r', encoding=encoding, newline='\n') as fin:
    text2 = fin.read()

assert text == text2

2017-06-21 09:37:44

其他回答

好吧，您最喜欢的文本编辑器没有意识到\xc3\xa1应该是字符字面量，但它将它们解释为文本。这就是为什么你在最后一行得到双反斜杠——现在在你的文件中它是一个真正的反斜杠+ xc3等等。

如果你想在Python中读写编码文件，最好使用codecs模块。

在终端和应用程序之间粘贴文本是困难的，因为您不知道哪个程序将使用哪种编码来解释您的文本。你可以试试下面的方法:

>>> s = file("f1").read()
>>> print unicode(s, "Latin-1")
CapitÃ¡n

然后将这个字符串粘贴到编辑器中，并确保它使用Latin-1存储它。假设剪贴板不会使字符串乱码，那么往返应该可以工作。

2009-01-29 15:13:11

这适用于在Python 3.2中读取UTF-8编码的文件:

import codecs
f = codecs.open('file_name.txt', 'r', 'UTF-8')
for line in f:
    print(line)

2014-08-19 08:09:28

\ x . .sequence是Python特有的。它不是通用的字节转义序列。

如何实际输入utf -8编码的非ascii取决于您的操作系统和/或编辑器。下面是在Windows中如何做的。对于OS X，输入带有重音的a，只需点击选项+ E，然后是a，几乎所有OS X中的文本编辑器都支持UTF-8。

2009-01-29 15:10:26

除了codecs.open()之外，io.open()可以在这两种情况下使用。X和3。X来读写文本文件。例子:

import io

text = u'á'
encoding = 'utf8'

with io.open('data.txt', 'w', encoding=encoding, newline='\n') as fout:
    fout.write(text)

with io.open('data.txt', 'r', encoding=encoding, newline='\n') as fin:
    text2 = fin.read()

assert text == text2

2017-06-21 09:37:44

我试图用Python 2.7.9解析iCal:

从icalendar导入日历

但我得到:

 Traceback (most recent call last):
 File "ical.py", line 92, in parse
    print "{}".format(e[attr])
UnicodeEncodeError: 'ascii' codec can't encode character u'\xe1' in position 7: ordinal not in range(128)

它只是用:

print "{}".format(e[attr].encode("utf-8"))

(现在它可以打印liké á böss。)

2016-05-10 12:49:41

Unicode (UTF-8)在Python中读取和写入文件

推荐文章

最新文章

标签