https://github.com/affinelayer/pix2pix-tensorflow/tree/master/tools

在上面的站点上编译“process.py”时发生错误。

 python tools/process.py --input_dir data --            operation resize --outp
ut_dir data2/resize
data/0.jpg -> data2/resize/0.png

回溯(最近一次调用):

File "tools/process.py", line 235, in <module>
  main()
File "tools/process.py", line 167, in main
  src = load(src_path)
File "tools/process.py", line 113, in load
  contents = open(path).read()
      File"/home/user/anaconda3/envs/tensorflow_2/lib/python3.5/codecs.py", line 321, in decode
  (result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode     byte 0xff in position 0: invalid start byte

错误的原因是什么? Python的版本是3.5.2。


当前回答

这仅仅意味着选择了错误的编码来读取文件。

在Mac上,使用file -I file.txt查找正确的编码。在Linux操作系统中,请使用file -i file.txt。

其他回答

那些在处理数据帧的Pandas时遇到类似错误的人使用以下解决方案。

示例解决方案。

df = pd.read_csv("File path", encoding='cp1252')

Python尝试将一个字节数组(一个字节,它假设是一个utf-8编码的字符串)转换为unicode字符串(str)。这个过程当然是根据utf-8规则进行解码。当它尝试这样做时,它会遇到一个字节序列,该字节序列在utf-8编码的字符串中是不允许的(即位置0的0xff)。

由于你没有提供任何代码,我们可以看,我们只能猜测剩下的。

从堆栈跟踪中,我们可以假设触发操作是读取文件(contents = open(path).read())。我建议以这样的方式重新编码:

with open(path, 'rb') as f:
  contents = f.read()

open()中模式说明符中的b表示该文件应被视为二进制,因此内容将保持为字节。这种方式不会发生解码尝试。

检查要读取的文件的路径。我的代码不断给我错误,直到我改变路径名,以呈现工作目录。错误是:

newchars, decodedbytes = self.decode(data, self.errors)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte

这是由于读取文件时使用了不同的编码方法。在python中,它是默认的 使用unicode编码数据。但是,它在不同的平台上可能并不适用。

我提出了一种编码方法,可以帮助您解决这个问题,如果'utf-8'不工作。

with open(path, newline='', encoding='cp1252') as csvfile:
    reader = csv.reader(csvfile)

如果你改变这里的编码方法,它应该可以工作。此外,如果上面不适合你,你可以在这里找到其他的编码方法——标准编码。

您必须使用latin1编码来读取该文件,因为该文件中有一些特殊字符,使用下面的代码片段来读取该文件。

这里的问题是编码类型。当Python不能将数据转换为读取时,它会给出一个错误。

您可以使用latin1或其他编码值。

我建议您尝试并测试为您的数据集找到正确的方法。