导致UnicodeDecodeError: 'utf-8' codec不能解码字节

这是我的代码，

for line in open('u.item'):
# Read each line

每当我运行这段代码，它给出以下错误:

UnicodeDecodeError: 'utf-8' codec无法解码字节0xe9在位置2892:无效的延续字节

我试图解决这个问题，并在open()中添加了一个额外的参数。代码如下:

for line in open('u.item', encoding='utf-8'):
# Read each line

但是它又给出了同样的错误。那我该怎么办呢?

当前回答

有时当使用open(filepath)，其中filepath实际上不是一个文件时，会得到相同的错误，所以首先要确保你要打开的文件存在:

import os
assert os.path.isfile(filepath)

其他回答

您的文件实际上并不包含UTF-8编码的数据;它包含一些其他编码。弄清楚这种编码是什么，并在开放呼叫中使用它。

例如，在Windows-1252编码中，0xe9将是字符é。

根据Mark Ransom的建议，我找到了解决这个问题的正确编码。编码是“ISO-8859-1”，因此替换open(“u。Item "， encoding="utf-8")与open('u。item'， encoding = "ISO-8859-1")将解决问题。

用notepad++打开文件，选择“编码”或“编码”菜单来识别或从ANSI转换为UTF-8或ISO 8859-1代码页。

这是一个在Python 3中转换CSV文件的例子:

try:
    inputReader = csv.reader(open(argv[1], encoding='ISO-8859-1'), delimiter=',',quotechar='"')
except IOError:
    pass

试着用Pandas来阅读:

pd.read_csv('u.item', sep='|', names=m_cols, encoding='latin-1')

推荐文章