...
soup = BeautifulSoup(html, "lxml")
File "/Library/Python/2.7/site-packages/bs4/__init__.py", line 152, in __init__
% ",".join(features))
bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library?

以上输出在我的终端上。我使用的是Mac OS 10.7.x。我有Python 2.7.1,并遵循本教程获得了Beautiful Soup和lxml,它们都成功安装了,并与位于这里的单独测试文件一起工作。在导致此错误的Python脚本中,我包含了这一行: 导入comparePages 在pageCrawler文件中,我包含了以下两行代码: 从bs4导入BeautifulSoup 从urllib2导入urlopen

任何帮助找出问题是什么以及如何解决都将不胜感激。


当前回答

如果你安装了多个版本的Python,你可能需要仔细检查你使用的解释器是否正确。

一旦我选择了正确的Python版本,就找到了lxml。

其他回答

尽管BeautifulSoup默认支持HTML解析器 如果您想使用任何其他第三方Python解析器,则需要安装该外部解析器,如(lxml)。

soup_object= BeautifulSoup(markup, "html.parser") #Python HTML parser

但是如果你没有指定任何解析器作为参数,你会得到一个没有指定解析器的警告。

soup_object= BeautifulSoup(markup) #Warnning

要使用任何其他外部解析器,您需要安装它,然后需要指定它。就像

pip install lxml

soup_object= BeautifulSoup(markup, 'lxml') # C dependent parser 

外部解析器依赖于c和python,这可能有一些优点和缺点。

我更喜欢内置的python html解析器,没有安装没有依赖

soup = BeautifulSoup(s, “html.parser”)

我修复了以下变化

之前更改

soup = BeautifulSoup(r.content, 'html5lib' )
print (soup.prettify())

后改变

soup = BeautifulSoup(r.content, features='html')
print(soup.prettify())

我的代码正常工作

出现错误是因为您使用的解析器。一般来说,如果你有HTML文件/代码,那么你需要使用html5lib(文档可以在这里找到)&如果你有XML文件/数据,那么你需要使用lxml(文档可以在这里找到)。你也可以使用lxml的HTML文件/代码,但有时它会给出一个错误如上所示。因此,最好根据数据/文件的类型明智地选择包。你也可以使用内置模块html_parser。但是,这有时也不起作用。

有关何时使用哪个包的详细信息,您可以在这里查看详细信息

不要使用lxml,而是使用html。解析器,你可以使用这段代码:

soup = BeautifulSoup(html, 'html.parser')