我试图抓取一个网站,但它给了我一个错误。
我正在使用以下代码:
import urllib.request
from bs4 import BeautifulSoup
get = urllib.request.urlopen("https://www.website.com/")
html = get.read()
soup = BeautifulSoup(html)
print(soup)
我得到以下错误:
File "C:\Python34\lib\encodings\cp1252.py", line 19, in encode
return codecs.charmap_encode(input,self.errors,encoding_table)[0]
UnicodeEncodeError: 'charmap' codec can't encode characters in position 70924-70950: character maps to <undefined>
我该怎么补救呢?
在保存get请求的响应时,在窗口10的Python 3.7上抛出了相同的错误。从URL接收到的响应,编码是UTF-8,所以总是建议检查编码,这样就可以传递相同的编码,以避免这种琐碎的问题,因为它真的在生产中浪费了大量的时间
import requests
resp = requests.get('https://en.wikipedia.org/wiki/NIFTY_50')
print(resp.encoding)
with open ('NiftyList.txt', 'w') as f:
f.write(resp.text)
当我用open命令添加encoding="utf-8"时,它会以正确的响应保存文件
with open ('NiftyList.txt', 'w', encoding="utf-8") as f:
f.write(resp.text)
在保存get请求的响应时,在窗口10的Python 3.7上抛出了相同的错误。从URL接收到的响应,编码是UTF-8,所以总是建议检查编码,这样就可以传递相同的编码,以避免这种琐碎的问题,因为它真的在生产中浪费了大量的时间
import requests
resp = requests.get('https://en.wikipedia.org/wiki/NIFTY_50')
print(resp.encoding)
with open ('NiftyList.txt', 'w') as f:
f.write(resp.text)
当我用open命令添加encoding="utf-8"时,它会以正确的响应保存文件
with open ('NiftyList.txt', 'w', encoding="utf-8") as f:
f.write(resp.text)
我得到了相同的UnicodeEncodeError时,保存抓取的网页内容到一个文件。为了修复它,我替换了以下代码:
with open(fname, "w") as f:
f.write(html)
用这个:
with open(fname, "w", encoding="utf-8") as f:
f.write(html)
如果你需要支持Python 2,那么使用这个:
import io
with io.open(fname, "w", encoding="utf-8") as f:
f.write(html)
如果您想使用与UTF-8不同的编码,请指定用于编码的实际编码。