如何删除\xa0从字符串在Python?

我目前正在使用Beautiful Soup来解析HTML文件并调用get_text()，但似乎我留下了很多\xa0 Unicode表示空格。在python2.7中是否有一种有效的方法将它们全部删除，并将它们更改为空格?我想更普遍的问题应该是，有没有办法移除Unicode格式?

我尝试使用:line = line。replace(u'\xa0'，' ')，正如另一个线程所建议的那样，但这将\xa0改为u，所以现在我到处都是“u”。)：

编辑:这个问题似乎可以通过str.replace(u'\xa0'， ' ').encode('utf-8')来解决，但是仅仅使用.encode('utf-8')而不使用replace()似乎会导致它吐出更奇怪的字符，例如\xc2。有人能解释一下吗?

当前回答

\xa0在拉丁语1 (ISO 8859-1)中实际上是不间断空格，也叫chr(160)。你应该把它换成空格。

字符串=字符串。替换(u'\xa0'， u' ')

当.encode('utf-8')时，它将unicode编码为utf-8，这意味着每个unicode可以由1到4个字节表示。在本例中，\xa0由2字节\xc2\xa0表示。

阅读http://docs.python.org/howto/unicode.html。

请注意:这个答案在2012年，Python已经前进，你应该能够使用unicodedata。现在正常

其他回答

Python的unicodedata库中有很多有用的东西。其中之一是.normalize()函数。

Try:

new_str = unicodedata.normalize("NFKD", unicode_str)

如果你没有得到你想要的结果，用上面链接中列出的任何其他方法替换NFKD。

Python像识别空格字符一样识别它，所以你可以不带参数分割它，用一个普通的空格来连接:

line = ' '.join(line.split())

这就是我如何解决这个问题，因为我遇到了\xao在html编码字符串。

我发现插入了一个打破None的空格，以确保一个单词和后续的HTML标记不会由于页面大小的调整而分开。

这为解析代码提供了一个问题，因为它引入了编解码器编码问题。难办的是我们不知道所使用的编码。从Windows机器可以是latin-1或CP1252(西方ISO)，但最近的操作系统已经标准化为UTF-8。通过规范化unicode数据，我们去掉了\xa0

my_string = unicodedata.normalize('NFKD', my_string).encode('ASCII', 'ignore')

试试这段代码

import re
re.sub(r'[^\x00-\x7F]+','','paste your string here').decode('utf-8','ignore').strip()

试试这个:

string.replace('\\xa0', ' ')

推荐文章