我想检查一个字符串是否是ASCII格式的。
我知道ord(),但是当我尝试ord('é')时,我有TypeError: ord()期望一个字符,但发现长度为2的字符串。我知道这是由我构建Python的方式引起的(如ord()的文档所解释的那样)。
还有别的办法吗?
我想检查一个字符串是否是ASCII格式的。
我知道ord(),但是当我尝试ord('é')时,我有TypeError: ord()期望一个字符,但发现长度为2的字符串。我知道这是由我构建Python的方式引起的(如ord()的文档所解释的那样)。
还有别的办法吗?
当前回答
要从Python 2.6(以及Python 3.x)改进Alexander的解决方案,您可以使用helper模块curses。ASCII和使用curses.ascii.isascii()函数或其他各种:https://docs.python.org/2.6/library/curses.ascii.html
from curses import ascii
def isascii(s):
return all(ascii.isascii(c) for c in s)
其他回答
您可以使用正则表达式库,它接受Posix标准[[:ASCII:]]定义。
Vincent Marchetti的想法是正确的,但是str.decode在Python 3中已被弃用。在Python 3中,你可以使用str.encode进行相同的测试:
try:
mystring.encode('ascii')
except UnicodeEncodeError:
pass # string is not ascii
else:
pass # string is ascii
注意,您想要捕获的异常也从UnicodeDecodeError更改为UnicodeEncodeError。
当我试图确定如何使用/编码/解码一个我不确定编码的字符串(以及如何转义/转换该字符串中的特殊字符)时,我发现了这个问题。
我的第一步应该是检查字符串的类型-我没有意识到我可以从类型中获得关于其格式的良好数据。这个回答很有帮助,并触及了我问题的真正根源。
如果你得到一个粗鲁而执着的
“ascii”编解码器无法解码263位置的0xc3字节:序号不在范围(128)
特别是当你正在进行ENCODING时,确保你没有尝试unicode()一个已经是unicode的字符串-由于某些可怕的原因,你会得到ascii编解码器错误。(请参阅Python厨房食谱和Python文档教程,以更好地了解这有多可怕。)
最终我决定我想做的是:
escaped_string = unicode(original_string.encode('ascii','xmlcharrefreplace'))
在调试中也有帮助的是在我的文件中设置默认编码为utf-8(把它放在你的python文件的开头):
# -*- coding: utf-8 -*-
这允许您测试特殊字符('àéç'),而不必使用它们的unicode转义(u'\xe0\xe9\xe7')。
>>> specials='àéç'
>>> specials.decode('latin-1').encode('ascii','xmlcharrefreplace')
'àéç'
为了防止代码崩溃,可能需要使用try-except来捕获TypeErrors
>>> ord("¶")
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
TypeError: ord() expected a character, but string of length 2 found
例如
def is_ascii(s):
try:
return all(ord(c) < 128 for c in s)
except TypeError:
return False
你的问题不正确;你看到的错误不是你如何构建python的结果,而是混淆了字节字符串和unicode字符串。
字节字符串(例如:“foo”,或“bar”,在python语法中)是八字节序列;0-255之间的数字。Unicode字符串(例如u"foo"或u'bar')是Unicode码位的序列;0-1112064之间的数字。但是您似乎对字符é感兴趣,它(在您的终端中)是表示单个字符的多字节序列。
不要用ord(u'é'),试试这个:
>>> [ord(x) for x in u'é']
它告诉您“é”表示哪个代码点序列。它可能给你[233],也可能给你[101,770]。
用unichr()代替chr()来扭转这一局面:
>>> unichr(233)
u'\xe9'
这个字符实际上可以用一个或多个unicode“码点”表示,这些码点本身既可以表示字素,也可以表示字符。它要么是“带有重音的e(即代码点233)”,要么是“e”(代码点101),后面跟着“前一个字符的重音”(代码点770)。因此,这个完全相同的字符可以表示为Python数据结构u'\ u0301'或u'\u00e9'。
大多数情况下,您不应该关心这个问题,但是如果在unicode字符串上迭代,它就会成为一个问题,因为迭代是按代码点进行的,而不是按可分解字符进行的。换句话说,len(u'\ u0301') == 2和len(u'\u00e9') == 1。如果这对您很重要,您可以使用unicodedata.normalize在组合表单和分解表单之间进行转换。
Unicode Glossary可以作为理解其中一些问题的有用指南,它指出每个特定术语如何引用文本表示的不同部分,这比许多程序员意识到的要复杂得多。