如何删除\xa0从字符串在Python?

我目前正在使用Beautiful Soup来解析HTML文件并调用get_text()，但似乎我留下了很多\xa0 Unicode表示空格。在python2.7中是否有一种有效的方法将它们全部删除，并将它们更改为空格?我想更普遍的问题应该是，有没有办法移除Unicode格式?

我尝试使用:line = line。replace(u'\xa0'，' ')，正如另一个线程所建议的那样，但这将\xa0改为u，所以现在我到处都是“u”。)：

编辑:这个问题似乎可以通过str.replace(u'\xa0'， ' ').encode('utf-8')来解决，但是仅仅使用.encode('utf-8')而不使用replace()似乎会导致它吐出更奇怪的字符，例如\xc2。有人能解释一下吗?

当前回答

在尝试了几种方法之后，总结一下，我是这样做的。下面是两种避免/从解析的HTML字符串中删除\xa0字符的方法。

假设我们有我们的原始html如下:

raw_html = '<p>Dear Parent, </p><p><span style="font-size: 1rem;">This is a test message, </span><span style="font-size: 1rem;">kindly ignore it. </span></p><p><span style="font-size: 1rem;">Thanks</span></p>'

所以让我们尝试清理这个HTML字符串:

from bs4 import BeautifulSoup
raw_html = '<p>Dear Parent, </p><p><span style="font-size: 1rem;">This is a test message, </span><span style="font-size: 1rem;">kindly ignore it. </span></p><p><span style="font-size: 1rem;">Thanks</span></p>'
text_string = BeautifulSoup(raw_html, "lxml").text
print text_string
#u'Dear Parent,\xa0This is a test message,\xa0kindly ignore it.\xa0Thanks'

上面的代码在字符串中生成这些字符\xa0。要正确地去除它们，我们可以使用两种方法。

方法一(推荐): 第一个是BeautifulSoup的get_text方法，条带参数为True 所以我们的代码变成:

clean_text = BeautifulSoup(raw_html, "lxml").get_text(strip=True)
print clean_text
# Dear Parent,This is a test message,kindly ignore it.Thanks

方法二: 另一种选择是使用python的库unicodedata

import unicodedata
text_string = BeautifulSoup(raw_html, "lxml").text
clean_text = unicodedata.normalize("NFKD",text_string)
print clean_text
# u'Dear Parent,This is a test message,kindly ignore it.Thanks'

我也在这个博客上详细介绍了这些方法，你可能想要参考。

2018-01-16 16:57:40

其他回答

试试这段代码

import re
re.sub(r'[^\x00-\x7F]+','','paste your string here').decode('utf-8','ignore').strip()

2017-03-20 13:04:08

这就是我如何解决这个问题，因为我遇到了\xao在html编码字符串。

我发现插入了一个打破None的空格，以确保一个单词和后续的HTML标记不会由于页面大小的调整而分开。

这为解析代码提供了一个问题，因为它引入了编解码器编码问题。难办的是我们不知道所使用的编码。从Windows机器可以是latin-1或CP1252(西方ISO)，但最近的操作系统已经标准化为UTF-8。通过规范化unicode数据，我们去掉了\xa0

my_string = unicodedata.normalize('NFKD', my_string).encode('ASCII', 'ignore')

2022-07-06 03:13:05

尝试在行尾使用.strip() Line.strip()很适合我

2015-07-21 21:50:36

在Beautiful Soup中，您可以将strip参数传递给get_text()，该参数将删除文本开头和结尾的空白。这将删除\xa0或任何其他空白，如果它出现在字符串的开头或结尾。Beautiful Soup将空字符串替换为\xa0，这为我解决了问题。

mytext = soup.get_text(strip=True)

2015-01-19 14:51:48

Python的unicodedata库中有很多有用的东西。其中之一是.normalize()函数。

Try:

new_str = unicodedata.normalize("NFKD", unicode_str)

如果你没有得到你想要的结果，用上面链接中列出的任何其他方法替换NFKD。

2016-01-08 04:24:55

如何删除\xa0从字符串在Python?

推荐文章

最新文章

标签