如何在PHP中解析和处理HTML/XML？

如何解析HTML/XML并从中提取信息？

当前回答

对于HTML5，html5lib已经被放弃多年了。我能找到的唯一一个最近更新和维护记录的HTML5库是一周多前刚刚发布到beta 1.0的HTML5 php。

2013-07-08 18:50:37

其他回答

Advanced Html Dom是一个简单的Html Dom替代品，它提供了相同的界面，但它是基于Dom的，这意味着不会出现任何相关的内存问题。

它还具有完整的CSS支持，包括jQuery扩展。

2014-12-18 04:29:07

您可以尝试使用类似HTMLTidy的东西来清理任何“损坏”的HTML，并将HTML转换为XHTML，然后可以使用XML解析器解析。

2008-11-15 22:24:15

只需使用DOMDocument->loadHTML（）就可以了。libxml的HTML解析算法非常好，速度也很快，与流行的观点相反，它不会对格式错误的HTML产生影响。

2008-11-26 20:02:44

为什么不应该以及何时应该使用正则表达式？

首先，一个常见的误称：Regexp不用于“解析”HTML。然而，正则表达式可以“提取”数据。提取是它们的目的。与适当的SGML工具包或基线XML解析器相比，正则表达式HTML提取的主要缺点是它们的语法工作和不同的可靠性。

考虑制作一个稍微可靠的HTML提取正则表达式：

<a\s+class="?playbutton\d?[^>]+id="(\d+)".+?    <a\s+class="[\w\s]*title
[\w\s]*"[^>]+href="(http://[^">]+)"[^>]*>([^<>]+)</a>.+?

比简单的phpQuery或QueryPath等效文件可读性差得多：

$div->find(".stationcool a")->attr("title");

然而，在某些特定的用例中，它们可以提供帮助。

许多DOM遍历前端不显示HTML注释<！--，然而，它们有时是用于提取的更有用的锚。特别是伪HTML变体＜$var＞或SGML残基很容易用正则表达式驯服。通常，正则表达式可以节省后期处理。然而，HTML实体通常需要手动管理。最后，对于提取<img src=urls等极其简单的任务，它们实际上是一个可能的工具。与SGML/XML解析器相比，速度优势主要用于这些非常基本的提取过程。

有时甚至建议使用正则表达式/<--内容-->（.+？）<--END-->/并使用更简单的HTML解析器前端处理其余部分。

注意：我实际上有一个应用程序，在那里我交替使用XML解析和正则表达式。就在上周，PyQuery解析中断，正则表达式仍然有效。是的，很奇怪，我自己也解释不了。但事情就是这样发生的。因此，请不要因为现实世界的考虑与正则表达式=邪恶模因不匹配就投票否决。但我们也不要对此投太多赞成票。这只是这个话题的一个旁注。

2010-09-06 09:40:53

简单HTML DOM是一个很棒的开源解析器：

simplehtmldom.sourceforge

它以面向对象的方式处理DOM元素，新的迭代包含了大量不兼容代码。还有一些很棒的函数，如JavaScript中的“find”函数，它将返回该标记名元素的所有实例。

我已经在许多工具中使用了这个，在许多不同类型的网页上测试了它，我认为它非常有用。

2008-11-15 22:16:00

如何在PHP中解析和处理HTML/XML？

推荐文章

最新文章

标签