我有一个套接字服务器,它应该从客户端接收UTF-8有效字符。
问题是一些客户端(主要是黑客)通过它发送所有错误类型的数据。
我可以很容易地区分真正的客户端,但我将发送的所有数据记录到文件中,以便以后进行分析。
有时我会得到这样的字符,导致UnicodeDecodeError错误。
我需要能够使字符串UTF-8与或没有这些字符。
更新:
对于我的特殊情况,套接字服务是一个MTA,因此我只希望接收ASCII命令,如:
EHLO example.com
MAIL FROM: <john.doe@example.com>
...
我用JSON记录了所有这些。
然后一些没有善意的人决定发送各种垃圾。
这就是为什么对于我的特定情况,剥离非ASCII字符是完全可以的。
http://docs.python.org/howto/unicode.html#the-unicode-type
str = unicode(str, errors='replace')
or
str = unicode(str, errors='ignore')
注意:这将剔除(忽略)有问题的字符,返回没有它们的字符串。
对我来说,这是理想的情况,因为我使用它作为保护,防止我的应用程序不允许的非ascii输入。
或者:使用codecs模块中的open方法读入文件:
import codecs
with codecs.open(file_name, 'r', encoding='utf-8',
errors='ignore') as fdata:
现在我已经迁移到Python 3,这类问题突然出现在我身上。我不知道Python 2只是简单地处理文件编码的问题。
我找到了这个关于差异的很好的解释,以及如何在以上都不适合我的情况下找到解决方案。
http://python-notes.curiousefficiency.org/en/latest/python3/text_file_processing.html
简而言之,要使Python 3的行为尽可能与Python 2相似,请使用:
with open(filename, encoding="latin-1") as datafile:
# work on datafile here
然而,阅读这篇文章,没有一个万能的解决方案。
首先,使用get_encoding_type获取encode的文件类型:
import os
from chardet import detect
# get file encoding type
def get_encoding_type(file):
with open(file, 'rb') as f:
rawdata = f.read()
return detect(rawdata)['encoding']
第二步,使用以下类型打开文件:
open(current_file, 'r', encoding = get_encoding_type, errors='ignore')
我也犯了同样的错误。
对我来说,Python抱怨字节“0x87”。我在https://bytetool.web.app/en/ascii/code/0x87/上查了一下,上面告诉我这个字节属于Windows-1252编解码器。
然后我只在我的Python文件的开头添加了这一行:
#-*- encoding: Windows-1252 -*-"
所有的错误都消失了。在添加这一行之前,我曾尝试Pandas像这样导入文件:
Df = pd.read_csv(data, sep=",", engine='python', header=0, encoding='Windows-1252')
但是这返回了一个错误。所以我把它改成了这样:
Df = pd.read_csv(data, sep=",", engine='python', header=0)