我想检查一个字符串是否是ASCII格式的。
我知道ord(),但是当我尝试ord('é')时,我有TypeError: ord()期望一个字符,但发现长度为2的字符串。我知道这是由我构建Python的方式引起的(如ord()的文档所解释的那样)。
还有别的办法吗?
我想检查一个字符串是否是ASCII格式的。
我知道ord(),但是当我尝试ord('é')时,我有TypeError: ord()期望一个字符,但发现长度为2的字符串。我知道这是由我构建Python的方式引起的(如ord()的文档所解释的那样)。
还有别的办法吗?
当前回答
我觉得你问的问题不对
python中的字符串没有对应于'ascii'、utf-8或任何其他编码的属性。字符串的来源(无论是从文件读取,还是从键盘输入,等等)可能已经用ascii编码了一个unicode字符串来生成字符串,但这是您需要去寻找答案的地方。
也许你会问:“这个字符串是用ascii编码unicode字符串的结果吗?”——这个你可以回答 通过:
try:
mystring.decode('ascii')
except UnicodeDecodeError:
print "it was not a ascii-encoded unicode string"
else:
print "It may have been an ascii-encoded unicode string"
其他回答
最近遇到了类似的事情,供以后参考
import chardet
encoding = chardet.detect(string)
if encoding['encoding'] == 'ascii':
print 'string is in ascii'
你可以用在:
string_ascii = string.decode(encoding['encoding']).encode('ascii')
我使用以下方法来确定字符串是ascii还是unicode:
>> print 'test string'.__class__.__name__
str
>>> print u'test string'.__class__.__name__
unicode
>>>
然后使用一个条件块来定义函数:
def is_ascii(input):
if input.__class__.__name__ == "str":
return True
return False
Python中的sting (str-type)是一系列字节。仅仅通过查看字符串无法判断这一系列字节是否代表ascii字符串、像ISO-8859-1这样的8位字符集的字符串,还是用UTF-8或UTF-16或其他编码的字符串。
但是,如果您知道使用的编码,那么您可以将str解码为unicode字符串,然后使用正则表达式(或循环)检查它是否包含您所关心的范围之外的字符。
你的问题不正确;你看到的错误不是你如何构建python的结果,而是混淆了字节字符串和unicode字符串。
字节字符串(例如:“foo”,或“bar”,在python语法中)是八字节序列;0-255之间的数字。Unicode字符串(例如u"foo"或u'bar')是Unicode码位的序列;0-1112064之间的数字。但是您似乎对字符é感兴趣,它(在您的终端中)是表示单个字符的多字节序列。
不要用ord(u'é'),试试这个:
>>> [ord(x) for x in u'é']
它告诉您“é”表示哪个代码点序列。它可能给你[233],也可能给你[101,770]。
用unichr()代替chr()来扭转这一局面:
>>> unichr(233)
u'\xe9'
这个字符实际上可以用一个或多个unicode“码点”表示,这些码点本身既可以表示字素,也可以表示字符。它要么是“带有重音的e(即代码点233)”,要么是“e”(代码点101),后面跟着“前一个字符的重音”(代码点770)。因此,这个完全相同的字符可以表示为Python数据结构u'\ u0301'或u'\u00e9'。
大多数情况下,您不应该关心这个问题,但是如果在unicode字符串上迭代,它就会成为一个问题,因为迭代是按代码点进行的,而不是按可分解字符进行的。换句话说,len(u'\ u0301') == 2和len(u'\u00e9') == 1。如果这对您很重要,您可以使用unicodedata.normalize在组合表单和分解表单之间进行转换。
Unicode Glossary可以作为理解其中一些问题的有用指南,它指出每个特定术语如何引用文本表示的不同部分,这比许多程序员意识到的要复杂得多。
这样做怎么样?
import string
def isAscii(s):
for c in s:
if c not in string.ascii_letters:
return False
return True