我目前正在使用Beautiful Soup来解析HTML文件并调用get_text(),但似乎我留下了很多\xa0 Unicode表示空格。在python2.7中是否有一种有效的方法将它们全部删除,并将它们更改为空格?我想更普遍的问题应该是,有没有办法移除Unicode格式?

我尝试使用:line = line。replace(u'\xa0',' '),正如另一个线程所建议的那样,但这将\xa0改为u,所以现在我到处都是“u”。):

编辑:这个问题似乎可以通过str.replace(u'\xa0', ' ').encode('utf-8')来解决,但是仅仅使用.encode('utf-8')而不使用replace()似乎会导致它吐出更奇怪的字符,例如\xc2。有人能解释一下吗?


当前回答

我在这里结束,而谷歌的问题与不可打印的字符。我使用MySQL UTF-8 general_ci和处理波兰语言。对于有问题的字符串,我必须进行如下处理:

text=text.replace('\xc2\xa0', ' ')

这只是一个快速的解决方案,你可能应该尝试一些正确的编码设置。

其他回答

带有正则表达式的通用版本(它将删除所有控制字符):

import re
def remove_control_chart(s):
    return re.sub(r'\\x..', '', s)

在尝试了几种方法之后,总结一下,我是这样做的。下面是两种避免/从解析的HTML字符串中删除\xa0字符的方法。

假设我们有我们的原始html如下:

raw_html = '<p>Dear Parent, </p><p><span style="font-size: 1rem;">This is a test message, </span><span style="font-size: 1rem;">kindly ignore it. </span></p><p><span style="font-size: 1rem;">Thanks</span></p>'

所以让我们尝试清理这个HTML字符串:

from bs4 import BeautifulSoup
raw_html = '<p>Dear Parent, </p><p><span style="font-size: 1rem;">This is a test message, </span><span style="font-size: 1rem;">kindly ignore it. </span></p><p><span style="font-size: 1rem;">Thanks</span></p>'
text_string = BeautifulSoup(raw_html, "lxml").text
print text_string
#u'Dear Parent,\xa0This is a test message,\xa0kindly ignore it.\xa0Thanks'

上面的代码在字符串中生成这些字符\xa0。要正确地去除它们,我们可以使用两种方法。

方法一(推荐): 第一个是BeautifulSoup的get_text方法,条带参数为True 所以我们的代码变成:

clean_text = BeautifulSoup(raw_html, "lxml").get_text(strip=True)
print clean_text
# Dear Parent,This is a test message,kindly ignore it.Thanks

方法二: 另一种选择是使用python的库unicodedata

import unicodedata
text_string = BeautifulSoup(raw_html, "lxml").text
clean_text = unicodedata.normalize("NFKD",text_string)
print clean_text
# u'Dear Parent,This is a test message,kindly ignore it.Thanks'

我也在这个博客上详细介绍了这些方法,你可能想要参考。

Python像识别空格字符一样识别它,所以你可以不带参数分割它,用一个普通的空格来连接:

line = ' '.join(line.split())

我在这里结束,而谷歌的问题与不可打印的字符。我使用MySQL UTF-8 general_ci和处理波兰语言。对于有问题的字符串,我必须进行如下处理:

text=text.replace('\xc2\xa0', ' ')

这只是一个快速的解决方案,你可能应该尝试一些正确的编码设置。

试试这段代码

import re
re.sub(r'[^\x00-\x7F]+','','paste your string here').decode('utf-8','ignore').strip()