我有一个套接字服务器,它应该从客户端接收UTF-8有效字符。

问题是一些客户端(主要是黑客)通过它发送所有错误类型的数据。

我可以很容易地区分真正的客户端,但我将发送的所有数据记录到文件中,以便以后进行分析。

有时我会得到这样的字符,导致UnicodeDecodeError错误。

我需要能够使字符串UTF-8与或没有这些字符。


更新:

对于我的特殊情况,套接字服务是一个MTA,因此我只希望接收ASCII命令,如:

EHLO example.com
MAIL FROM: <john.doe@example.com>
...

我用JSON记录了所有这些。

然后一些没有善意的人决定发送各种垃圾。

这就是为什么对于我的特定情况,剥离非ASCII字符是完全可以的。


当前回答

如果需要对文件进行更改,但不知道文件的编码,该怎么办?如果你知道编码是ASCII兼容的,并且只想检查或修改ASCII部分,你可以使用surrogateescape错误处理程序打开文件:

with open(fname, 'r', encoding="ascii", errors="surrogateescape") as f:
    data = f.read()

其他回答

http://docs.python.org/howto/unicode.html#the-unicode-type

str = unicode(str, errors='replace')

or

str = unicode(str, errors='ignore')

注意:这将剔除(忽略)有问题的字符,返回没有它们的字符串。

对我来说,这是理想的情况,因为我使用它作为保护,防止我的应用程序不允许的非ascii输入。

或者:使用codecs模块中的open方法读入文件:

import codecs
with codecs.open(file_name, 'r', encoding='utf-8',
                 errors='ignore') as fdata:

当使用拉丁美洲口音时,这个解决方案很有效,比如“ñ”。

我已经通过加法解决了这个问题

df = pd.read_csv(fileName,encoding='latin1')
>>> '\x9c'.decode('cp1252')
u'\u0153'
>>> print '\x9c'.decode('cp1252')
œ

如果像您说的那样,您只是想允许纯7位ASCII,那么就丢弃任何不是纯7位ASCII的字节。如果没有显式指定的编码,就没有直接的方法来猜测远端希望它们表示什么。

while bytes := socket.read_line_bytes():
    try:
        string = bytes.decode('us-ascii')
    except UnicodeDecodeError as exc:
        logger.warning('[%s] - rejected non-ASCII input %s' % (client, bytes.decode('us-ascii',  errors='backslashreplace'))
        socket.write(b'421 communication error - non-ASCII content rejected\r\n')
        continue
    ...

以防有人有同样的问题。我正在使用vim与YouCompleteMe,未能启动ycmd与此错误消息,我所做的是:导出LC_CTYPE="en_US。UTF-8",问题消失了。