UnicodeDecodeError: 'utf8' codec不能解码字节0x9c

我有一个套接字服务器，它应该从客户端接收UTF-8有效字符。

问题是一些客户端(主要是黑客)通过它发送所有错误类型的数据。

我可以很容易地区分真正的客户端，但我将发送的所有数据记录到文件中，以便以后进行分析。

有时我会得到这样的字符，导致UnicodeDecodeError错误。

我需要能够使字符串UTF-8与或没有这些字符。

更新:

对于我的特殊情况，套接字服务是一个MTA，因此我只希望接收ASCII命令，如:

EHLO example.com
MAIL FROM: <john.doe@example.com>
...

我用JSON记录了所有这些。

然后一些没有善意的人决定发送各种垃圾。

这就是为什么对于我的特定情况，剥离非ASCII字符是完全可以的。

当前回答

现在我已经迁移到Python 3，这类问题突然出现在我身上。我不知道Python 2只是简单地处理文件编码的问题。

我找到了这个关于差异的很好的解释，以及如何在以上都不适合我的情况下找到解决方案。

http://python-notes.curiousefficiency.org/en/latest/python3/text_file_processing.html

简而言之，要使Python 3的行为尽可能与Python 2相似，请使用:

with open(filename, encoding="latin-1") as datafile:
    # work on datafile here

然而，阅读这篇文章，没有一个万能的解决方案。

2016-06-09 10:21:19

其他回答

我有同样的问题与UnicodeDecodeError，我解决了它与这一行。不知道这是不是最好的方法，但对我来说很有效。

str = str.decode('unicode_escape').encode('utf-8')

2017-03-13 11:19:57

Django-storage隐式支持以文本模式读取字节文件，直到Django-storage == 1.8 移除https://github.com/jschneier/django-storages/pull/657的支持需要指定读取字节文件的二进制模式。

2022-09-21 05:02:58

首先，使用get_encoding_type获取encode的文件类型:

import os    
from chardet import detect

# get file encoding type
def get_encoding_type(file):
    with open(file, 'rb') as f:
        rawdata = f.read()
    return detect(rawdata)['encoding']

第二步，使用以下类型打开文件:

open(current_file, 'r', encoding = get_encoding_type, errors='ignore')

2019-05-31 03:21:36

当使用拉丁美洲口音时，这个解决方案很有效，比如“ñ”。

我已经通过加法解决了这个问题

df = pd.read_csv(fileName,encoding='latin1')

2020-06-03 18:09:43