UnicodeDecodeError: 'utf8' codec不能解码字节0x9c

我有一个套接字服务器，它应该从客户端接收UTF-8有效字符。

问题是一些客户端(主要是黑客)通过它发送所有错误类型的数据。

我可以很容易地区分真正的客户端，但我将发送的所有数据记录到文件中，以便以后进行分析。

有时我会得到这样的字符，导致UnicodeDecodeError错误。

我需要能够使字符串UTF-8与或没有这些字符。

更新:

对于我的特殊情况，套接字服务是一个MTA，因此我只希望接收ASCII命令，如:

EHLO example.com
MAIL FROM: <john.doe@example.com>
...

我用JSON记录了所有这些。

然后一些没有善意的人决定发送各种垃圾。

这就是为什么对于我的特定情况，剥离非ASCII字符是完全可以的。

当前回答

我也犯了同样的错误。

对我来说，Python抱怨字节“0x87”。我在https://bytetool.web.app/en/ascii/code/0x87/上查了一下，上面告诉我这个字节属于Windows-1252编解码器。

然后我只在我的Python文件的开头添加了这一行:

#-*- encoding: Windows-1252 -*-"

所有的错误都消失了。在添加这一行之前，我曾尝试Pandas像这样导入文件:

Df = pd.read_csv(data, sep=",", engine='python', header=0, encoding='Windows-1252')

但是这返回了一个错误。所以我把它改成了这样:

Df = pd.read_csv(data, sep=",", engine='python', header=0)

2022-12-04 19:10:58

其他回答

http://docs.python.org/howto/unicode.html#the-unicode-type

str = unicode(str, errors='replace')

str = unicode(str, errors='ignore')

注意:这将剔除(忽略)有问题的字符，返回没有它们的字符串。

对我来说，这是理想的情况，因为我使用它作为保护，防止我的应用程序不允许的非ascii输入。

或者:使用codecs模块中的open方法读入文件:

import codecs
with codecs.open(file_name, 'r', encoding='utf-8',
                 errors='ignore') as fdata:

2012-09-17 23:05:11

以防有人有同样的问题。我正在使用vim与YouCompleteMe，未能启动ycmd与此错误消息，我所做的是:导出LC_CTYPE="en_US。UTF-8"，问题消失了。

2014-04-10 11:26:24

Django-storage隐式支持以文本模式读取字节文件，直到Django-storage == 1.8 移除https://github.com/jschneier/django-storages/pull/657的支持需要指定读取字节文件的二进制模式。

2022-09-21 05:02:58

如果像您说的那样，您只是想允许纯7位ASCII，那么就丢弃任何不是纯7位ASCII的字节。如果没有显式指定的编码，就没有直接的方法来猜测远端希望它们表示什么。

while bytes := socket.read_line_bytes():
    try:
        string = bytes.decode('us-ascii')
    except UnicodeDecodeError as exc:
        logger.warning('[%s] - rejected non-ASCII input %s' % (client, bytes.decode('us-ascii',  errors='backslashreplace'))
        socket.write(b'421 communication error - non-ASCII content rejected\r\n')
        continue
    ...

2022-10-25 10:37:50

我有同样的问题与UnicodeDecodeError，我解决了它与这一行。不知道这是不是最好的方法，但对我来说很有效。

str = str.decode('unicode_escape').encode('utf-8')

2017-03-13 11:19:57

UnicodeDecodeError: 'utf8' codec不能解码字节0x9c

推荐文章

最新文章

标签