我正在练习“使用Python进行网络抓取”的代码,我一直有这个证书问题:

from urllib.request import urlopen 
from bs4 import BeautifulSoup 
import re

pages = set()
def getLinks(pageUrl):
    global pages
    html = urlopen("http://en.wikipedia.org"+pageUrl)
    bsObj = BeautifulSoup(html)
    for link in bsObj.findAll("a", href=re.compile("^(/wiki/)")):
        if 'href' in link.attrs:
            if link.attrs['href'] not in pages:
                #We have encountered a new page
                newPage = link.attrs['href'] 
                print(newPage) 
                pages.add(newPage) 
                getLinks(newPage)
getLinks("")

错误是:

  File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/urllib/request.py", line 1319, in do_open
    raise URLError(err)
urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1049)>

顺便说一句,我也在练习scrapy,但一直得到的问题:命令找不到:scrapy(我尝试了各种在线解决方案,但没有一个工作…真的令人沮丧)


当前回答

顺便说一句,如果你使用aiohttp得到同样的错误,只需将verify_ssl=False参数放入你的TCPConnector:

import aiohttp
...

async with aiohttp.ClientSession(
    connector=aiohttp.TCPConnector(verify_ssl=False)
) as session:
    async with session.get(url) as response:
        body = await response.text()

其他回答

有一次,我被这个问题绊倒了。如果你使用macOS,进入Macintosh HD > Applications > Python3.6文件夹(或任何你使用的python版本)>双击“Install Certificates.command”文件。: D

open /Applications/Python\ 3.7/Install\ Certificates.command

在终端试试这个命令

看看这篇文章,似乎对于Python的后期版本,证书没有预安装,这似乎导致了这个错误。您应该能够运行以下命令来安装证书包:/Applications/Python\ 3.6/ install \ Certificates.command

Post 1: urllib和“SSL: CERTIFICATE_VERIFY_FAILED”错误

帖子2:Airbrake错误:urlopen错误[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed:无法获得本地颁发者证书

要解决这个问题:

你所需要做的就是安装Python证书!macOS的一个常见问题。

打开以下文件:

Install Certificates.command
Update Shell Profile.command

简单地运行这两个脚本,你就不会再有这个问题了。

希望这能有所帮助!

顺便说一句,如果你使用aiohttp得到同样的错误,只需将verify_ssl=False参数放入你的TCPConnector:

import aiohttp
...

async with aiohttp.ClientSession(
    connector=aiohttp.TCPConnector(verify_ssl=False)
) as session:
    async with session.get(url) as response:
        body = await response.text()