...
soup = BeautifulSoup(html, "lxml")
File "/Library/Python/2.7/site-packages/bs4/__init__.py", line 152, in __init__
% ",".join(features))
bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library?

以上输出在我的终端上。我使用的是Mac OS 10.7.x。我有Python 2.7.1,并遵循本教程获得了Beautiful Soup和lxml,它们都成功安装了,并与位于这里的单独测试文件一起工作。在导致此错误的Python脚本中,我包含了这一行: 导入comparePages 在pageCrawler文件中,我包含了以下两行代码: 从bs4导入BeautifulSoup 从urllib2导入urlopen

任何帮助找出问题是什么以及如何解决都将不胜感激。


当前回答

空白参数将导致最佳可用的警告。 soup = BeautifulSoup(html)

---------------/UserWarning:没有显式指定解析器,因此我正在使用此系统的最佳可用HTML解析器(“html5lib”)。这通常不是问题,但如果您在另一个系统或不同的虚拟环境中运行这段代码,它可能使用不同的解析器并表现不同。----------------------/

python 3.7.7

PyCharm 19.3.4 CE

其他回答

在我的例子中,我有一个过时版本的lxml包。所以我更新了它,这就解决了这个问题。

sudo python3 -m pip install lxml --upgrade

出现错误是因为您使用的解析器。一般来说,如果你有HTML文件/代码,那么你需要使用html5lib(文档可以在这里找到)&如果你有XML文件/数据,那么你需要使用lxml(文档可以在这里找到)。你也可以使用lxml的HTML文件/代码,但有时它会给出一个错误如上所示。因此,最好根据数据/文件的类型明智地选择包。你也可以使用内置模块html_parser。但是,这有时也不起作用。

有关何时使用哪个包的详细信息,您可以在这里查看详细信息

我的解决方案是从conda中删除lxml,然后用pip重新安装它。

我怀疑这与BS将用于读取HTML的解析器有关。他们的文档在这里,但如果你像我一样(在OSX上),你可能会被一些需要一些工作的东西困住:

您会注意到,在上面的BS4文档页面中,他们指出BS4默认将使用Python内置HTML解析器。假设你使用的是OSX, Python的apple捆绑版本是2.7.2,它对字符格式化并不宽容。我遇到了同样的问题,所以我升级了我的Python版本来解决它。在virtualenv中这样做可以最大限度地减少对其他项目的干扰。

如果这样做听起来很痛苦,你可以切换到LXML解析器:

pip install lxml

然后试试:

soup = BeautifulSoup(html, "lxml")

根据您的情况,这可能已经足够好了。我觉得这很烦人,所以升级了我的Python版本。使用virtualenv,您可以相当容易地迁移您的包。

运行这三个命令来确保你已经安装了所有相关的软件包:

pip install bs4
pip install html5lib
pip install lxml

然后,如果需要,重新启动您的Python IDE。

这样就可以解决所有与这个问题有关的问题了。