UnicodeDecodeError: 'utf8' codec不能解码字节0x9c

我有一个套接字服务器，它应该从客户端接收UTF-8有效字符。

问题是一些客户端(主要是黑客)通过它发送所有错误类型的数据。

我可以很容易地区分真正的客户端，但我将发送的所有数据记录到文件中，以便以后进行分析。

有时我会得到这样的字符，导致UnicodeDecodeError错误。

我需要能够使字符串UTF-8与或没有这些字符。

更新:

对于我的特殊情况，套接字服务是一个MTA，因此我只希望接收ASCII命令，如:

EHLO example.com
MAIL FROM: <john.doe@example.com>
...

我用JSON记录了所有这些。

然后一些没有善意的人决定发送各种垃圾。

这就是为什么对于我的特定情况，剥离非ASCII字符是完全可以的。

当前回答

以防有人有同样的问题。我正在使用vim与YouCompleteMe，未能启动ycmd与此错误消息，我所做的是:导出LC_CTYPE="en_US。UTF-8"，问题消失了。

2014-04-10 11:26:24

其他回答

http://docs.python.org/howto/unicode.html#the-unicode-type

str = unicode(str, errors='replace')

str = unicode(str, errors='ignore')

注意:这将剔除(忽略)有问题的字符，返回没有它们的字符串。

对我来说，这是理想的情况，因为我使用它作为保护，防止我的应用程序不允许的非ascii输入。

或者:使用codecs模块中的open方法读入文件:

import codecs
with codecs.open(file_name, 'r', encoding='utf-8',
                 errors='ignore') as fdata:

2012-09-17 23:05:11

如果需要对文件进行更改，但不知道文件的编码，该怎么办?如果你知道编码是ASCII兼容的，并且只想检查或修改ASCII部分，你可以使用surrogateescape错误处理程序打开文件:

with open(fname, 'r', encoding="ascii", errors="surrogateescape") as f:
    data = f.read()

2018-03-11 12:45:14

>>> '\x9c'.decode('cp1252')
u'\u0153'
>>> print '\x9c'.decode('cp1252')
œ

2012-09-17 23:06:39

首先，使用get_encoding_type获取encode的文件类型:

import os    
from chardet import detect

# get file encoding type
def get_encoding_type(file):
    with open(file, 'rb') as f:
        rawdata = f.read()
    return detect(rawdata)['encoding']

第二步，使用以下类型打开文件:

open(current_file, 'r', encoding = get_encoding_type, errors='ignore')

2019-05-31 03:21:36

把引擎从C改为Python对我来说很管用。

发动机为C:

pd.read_csv(gdp_path, sep='\t', engine='c')

'utf-8'编解码器无法解码位置18中的字节0x92:无效的开始字节

引擎是Python:

pd.read_csv(gdp_path, sep='\t', engine='python')

对我来说没有错误。

2018-02-12 17:08:35

UnicodeDecodeError: 'utf8' codec不能解码字节0x9c

推荐文章

最新文章

标签