...
soup = BeautifulSoup(html, "lxml")
File "/Library/Python/2.7/site-packages/bs4/__init__.py", line 152, in __init__
% ",".join(features))
bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library?

以上输出在我的终端上。我使用的是Mac OS 10.7.x。我有Python 2.7.1,并遵循本教程获得了Beautiful Soup和lxml,它们都成功安装了,并与位于这里的单独测试文件一起工作。在导致此错误的Python脚本中,我包含了这一行: 导入comparePages 在pageCrawler文件中,我包含了以下两行代码: 从bs4导入BeautifulSoup 从urllib2导入urlopen

任何帮助找出问题是什么以及如何解决都将不胜感激。


当前回答

这个方法对我很有效。我想说的是,我是在虚拟环境中尝试这个方法的。第一:

pip install --upgrade bs4

其次,我使用了:

html.parser

而不是

html5lib

其他回答

我也遇到过同样的问题。我发现原因是我有一个稍微过时的python 6包。

>>> import html5lib
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
  File "/usr/local/lib/python2.7/site-packages/html5lib/__init__.py", line 16, in <module>
    from .html5parser import HTMLParser, parse, parseFragment
  File "/usr/local/lib/python2.7/site-packages/html5lib/html5parser.py", line 2, in <module>
    from six import with_metaclass, viewkeys, PY3
ImportError: cannot import name viewkeys

升级你的六个软件包将解决这个问题:

sudo pip install six=1.10.0

我更喜欢内置的python html解析器,没有安装没有依赖

soup = BeautifulSoup(s, “html.parser”)

在我的例子中,我有一个过时版本的lxml包。所以我更新了它,这就解决了这个问题。

sudo python3 -m pip install lxml --upgrade

如果你安装了多个版本的Python,你可能需要仔细检查你使用的解释器是否正确。

一旦我选择了正确的Python版本,就找到了lxml。

在python环境中安装LXML解析器。

pip install lxml

你的问题会解决的。你也可以使用内置的python包:

soup = BeautifulSoup(s,  "html.parser")

注意:“HTMLParser”模块已被重命名为“html”。在Python3中