我使用Python-2.6 CGI脚本,但在服务器日志中发现这个错误,而做json.dumps(),

Traceback (most recent call last):
  File "/etc/mongodb/server/cgi-bin/getstats.py", line 135, in <module>
    print json.dumps(​​__get​data())
  File "/usr/lib/python2.7/json/__init__.py", line 231, in dumps
    return _default_encoder.encode(obj)
  File "/usr/lib/python2.7/json/encoder.py", line 201, in encode
    chunks = self.iterencode(o, _one_shot=True)
  File "/usr/lib/python2.7/json/encoder.py", line 264, in iterencode
    return _iterencode(o, 0)
UnicodeDecodeError: 'utf8' codec can't decode byte 0xa5 in position 0: invalid start byte

在这里,

__get data()函数返回字典{}。

在发布这个问题之前,我已经提到了这个问题。


更新

下面一行是伤害JSON编码器,

now = datetime.datetime.now()
now = datetime.datetime.strftime(now, '%Y-%m-%dT%H:%M:%S.%fZ')
print json.dumps({'current_time': now}) # this is the culprit

我有个临时解决办法

print json.dumps( {'old_time': now.encode('ISO-8859-1').strip() })

但我不确定这是正确的做法。


当前回答

在读取csv时,我添加了一个编码方法:

import pandas as pd
dataset = pd.read_csv('sample_data.csv', header= 0,
                        encoding= 'unicode_escape')

其他回答

简单的解决方案:

import pandas as pd

df = pd.read_csv('file_name.csv', engine='python-fwf')

如果不能工作,尝试将引擎更改为'python'或'c'。

截至2018-05,这是直接用decode处理的,至少对于Python 3是这样。

我正在使用下面的片段来处理无效的开始字节和无效的延续字节类型错误。添加错误='忽略'为我修复了它。

with open(out_file, 'rb') as f:
    for line in f:
        print(line.decode(errors='ignore'))

简单的解决方案:

import pandas as pd
df = pd.read_csv('file_name.csv', engine='python')

这个解决方案对我很有效:

import pandas as pd
data = pd.read_csv("training.csv", encoding = 'unicode_escape')

在读取csv时,我添加了一个编码方法:

import pandas as pd
dataset = pd.read_csv('sample_data.csv', header= 0,
                        encoding= 'unicode_escape')