bs4。FeatureNotFound:无法找到具有您所请求的功能的树构建器:lxml。是否需要安装解析器库?

...
soup = BeautifulSoup(html, "lxml")
File "/Library/Python/2.7/site-packages/bs4/__init__.py", line 152, in __init__
% ",".join(features))
bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library?

以上输出在我的终端上。我使用的是Mac OS 10.7.x。我有Python 2.7.1，并遵循本教程获得了Beautiful Soup和lxml，它们都成功安装了，并与位于这里的单独测试文件一起工作。在导致此错误的Python脚本中，我包含了这一行: 导入comparePages 在pageCrawler文件中，我包含了以下两行代码: 从bs4导入BeautifulSoup 从urllib2导入urlopen

任何帮助找出问题是什么以及如何解决都将不胜感激。

我怀疑这与BS将用于读取HTML的解析器有关。他们的文档在这里，但如果你像我一样(在OSX上)，你可能会被一些需要一些工作的东西困住:

您会注意到，在上面的BS4文档页面中，他们指出BS4默认将使用Python内置HTML解析器。假设你使用的是OSX, Python的apple捆绑版本是2.7.2，它对字符格式化并不宽容。我遇到了同样的问题，所以我升级了我的Python版本来解决它。在virtualenv中这样做可以最大限度地减少对其他项目的干扰。

如果这样做听起来很痛苦，你可以切换到LXML解析器:

pip install lxml

然后试试:

soup = BeautifulSoup(html, "lxml")

根据您的情况，这可能已经足够好了。我觉得这很烦人，所以升级了我的Python版本。使用virtualenv，您可以相当容易地迁移您的包。

2014-11-11 03:16:25

对于安装了bs4的基本开箱即用的python，您可以使用

soup = BeautifulSoup(html, "html5lib")

如果你想使用formatter='xml'，那么你需要

pip3 install lxml

soup = BeautifulSoup(html, features="xml")

2017-02-10 04:24:46

我也遇到过同样的问题。我发现原因是我有一个稍微过时的python 6包。

>>> import html5lib
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
  File "/usr/local/lib/python2.7/site-packages/html5lib/__init__.py", line 16, in <module>
    from .html5parser import HTMLParser, parse, parseFragment
  File "/usr/local/lib/python2.7/site-packages/html5lib/html5parser.py", line 2, in <module>
    from six import with_metaclass, viewkeys, PY3
ImportError: cannot import name viewkeys

升级你的六个软件包将解决这个问题:

sudo pip install six=1.10.0

2017-03-04 06:17:33

我更喜欢内置的python html解析器，没有安装没有依赖

soup = BeautifulSoup（s， “html.parser”）

2017-05-10 08:55:25

我使用的是Python 3.6，在这篇文章中我有同样的原始错误。在我运行命令后:

python3 -m pip install lxml

它解决了我的问题

2018-01-22 04:48:09

不要使用lxml，而是使用html。解析器，你可以使用这段代码:

soup = BeautifulSoup(html, 'html.parser')

2018-02-13 12:28:45

尽管BeautifulSoup默认支持HTML解析器如果您想使用任何其他第三方Python解析器，则需要安装该外部解析器，如(lxml)。

soup_object= BeautifulSoup(markup, "html.parser") #Python HTML parser

但是如果你没有指定任何解析器作为参数，你会得到一个没有指定解析器的警告。

soup_object= BeautifulSoup(markup) #Warnning

要使用任何其他外部解析器，您需要安装它，然后需要指定它。就像

pip install lxml

soup_object= BeautifulSoup(markup, 'lxml') # C dependent parser

外部解析器依赖于c和python，这可能有一些优点和缺点。

2018-03-24 11:06:12

在一些参考文献中，使用第二个而不是第一个:

soup_object= BeautifulSoup(markup,'html-parser')
soup_object= BeautifulSoup(markup,'html.parser')

2018-04-02 13:28:32

出现错误是因为您使用的解析器。一般来说，如果你有HTML文件/代码，那么你需要使用html5lib(文档可以在这里找到)&如果你有XML文件/数据，那么你需要使用lxml(文档可以在这里找到)。你也可以使用lxml的HTML文件/代码，但有时它会给出一个错误如上所示。因此，最好根据数据/文件的类型明智地选择包。你也可以使用内置模块html_parser。但是，这有时也不起作用。

有关何时使用哪个包的详细信息，您可以在这里查看详细信息

2020-01-24 03:07:16

运行这三个命令来确保你已经安装了所有相关的软件包:

pip install bs4
pip install html5lib
pip install lxml

然后，如果需要，重新启动您的Python IDE。

这样就可以解决所有与这个问题有关的问题了。

2020-02-12 08:22:29

空白参数将导致最佳可用的警告。 soup = BeautifulSoup(html)

---------------/UserWarning:没有显式指定解析器，因此我正在使用此系统的最佳可用HTML解析器(“html5lib”)。这通常不是问题，但如果您在另一个系统或不同的虚拟环境中运行这段代码，它可能使用不同的解析器并表现不同。----------------------/

python 3.7.7

PyCharm 19.3.4 CE

2020-03-30 20:01:21

在python环境中安装LXML解析器。

pip install lxml

你的问题会解决的。你也可以使用内置的python包:

soup = BeautifulSoup(s,  "html.parser")

注意:“HTMLParser”模块已被重命名为“html”。在Python3中

2020-05-28 12:00:25

实际上是其他作品中提到的三个选项。

# 1. 
soup_object= BeautifulSoup(markup,"html.parser") #Python HTML parser

# 2. 
pip install lxml
soup_object= BeautifulSoup(markup,'lxml') # C dependent parser 

# 3.
pip install html5lib
soup_object= BeautifulSoup(markup,'html5lib') # C dependent parser

2020-09-01 20:14:37

我的解决方案是从conda中删除lxml，然后用pip重新安装它。

2021-11-09 19:47:37

我在pycharm中使用python 3.8。我假设您在开始工作之前没有安装“lxml”。这就是我所做的:

进入“文件->设置” 在左侧设置菜单栏选择“Python解释器”，选择“Python解释器”。单击包列表上的“+”图标。搜索“lxml”。点击“可用软件包”窗口左下方的“安装软件包”。

2022-01-17 20:42:59

在我的例子中，我有一个过时版本的lxml包。所以我更新了它，这就解决了这个问题。

sudo python3 -m pip install lxml --upgrade

2022-02-17 03:25:57

这个方法对我很有效。我想说的是，我是在虚拟环境中尝试这个方法的。第一:

pip install --upgrade bs4

其次，我使用了:

html.parser

而不是

html5lib

2022-02-27 17:07:34

我修复了以下变化

之前更改

soup = BeautifulSoup(r.content, 'html5lib' )
print (soup.prettify())

后改变

soup = BeautifulSoup(r.content, features='html')
print(soup.prettify())

我的代码正常工作

2022-03-06 14:00:24

BS4默认情况下需要HTML文档。因此，它将XML文档解析为HTML文档。在构造函数中传递features="xml"作为参数。它解决了我的问题。

2022-07-03 04:41:01

如果你安装了多个版本的Python，你可能需要仔细检查你使用的解释器是否正确。

一旦我选择了正确的Python版本，就找到了lxml。

2022-07-30 23:21:58

pip安装lxml，然后将xml保存在soup = BeautifulSoup(URL， "xml")在Mac上完成了这项工作。

2022-12-29 20:41:52

bs4。FeatureNotFound:无法找到具有您所请求的功能的树构建器:lxml。是否需要安装解析器库?

推荐文章

最新文章

标签