如何在PHP中解析和处理HTML/XML？

如何解析HTML/XML并从中提取信息？

XML_HTMLMax相当稳定——即使不再维护它。另一种选择是通过HtmlTidy将HTML导入，然后用标准的XML工具解析它。

2008-11-15 19:55:44

简单HTML DOM是一个很棒的开源解析器：

simplehtmldom.sourceforge

它以面向对象的方式处理DOM元素，新的迭代包含了大量不兼容代码。还有一些很棒的函数，如JavaScript中的“find”函数，它将返回该标记名元素的所有实例。

我已经在许多工具中使用了这个，在许多不同类型的网页上测试了它，我认为它非常有用。

2008-11-15 22:16:00

您可以尝试使用类似HTMLTidy的东西来清理任何“损坏”的HTML，并将HTML转换为XHTML，然后可以使用XML解析器解析。

2008-11-15 22:24:15

只需使用DOMDocument->loadHTML（）就可以了。libxml的HTML解析算法非常好，速度也很快，与流行的观点相反，它不会对格式错误的HTML产生影响。

2008-11-26 20:02:44

尝试简单HTML DOM解析器。

一个用PHP5+编写的HTMLDOM解析器，可以让您以非常简单的方式操作HTML！需要PHP 5+。支持无效的HTML。使用类似jQuery的选择器在HTML页面上查找标记。从HTML中提取单行内容。下载

注意：顾名思义，它可以用于简单的任务。它使用正则表达式而不是HTML解析器，因此对于更复杂的任务，速度会慢得多。它的大部分代码库是在2008年编写的，此后只做了一些小的改进。它不遵循现代PHP编码标准，将其纳入符合PSR的现代项目将是一个挑战。

示例：

如何获取HTML元素：

// Create DOM from URL or file
$html = file_get_html('http://www.example.com/');

// Find all images
foreach($html->find('img') as $element)
       echo $element->src . '<br>';

// Find all links
foreach($html->find('a') as $element)
       echo $element->href . '<br>';

如何修改HTML元素：

// Create DOM from string
$html = str_get_html('<div id="hello">Hello</div><div id="world">World</div>');

$html->find('div', 1)->class = 'bar';

$html->find('div[id=hello]', 0)->innertext = 'foo';

echo $html;

从HTML中提取内容：

// Dump contents (without tags) from HTML
echo file_get_html('http://www.google.com/')->plaintext;

刮削Slashdot：

// Create DOM from URL
$html = file_get_html('http://slashdot.org/');

// Find all article blocks
foreach($html->find('div.article') as $article) {
    $item['title']     = $article->find('div.title', 0)->plaintext;
    $item['intro']    = $article->find('div.intro', 0)->plaintext;
    $item['details'] = $article->find('div.details', 0)->plaintext;
    $articles[] = $item;
}

print_r($articles);

2010-08-26 17:18:25

本机XML扩展

我更喜欢使用一种原生XML扩展，因为它们与PHP捆绑在一起，通常比所有第三方库都快，并为我提供了对标记所需的所有控制。

DOM

DOM扩展允许您使用PHP5通过DOMAPI对XML文档进行操作。它是W3C文档对象模型核心级别3的实现，这是一个平台和语言中立的界面，允许程序和脚本动态访问和更新文档的内容、结构和样式。

DOM能够解析和修改真实世界（已损坏）的HTML，并且可以执行XPath查询。它基于libxml。

使用DOM需要一些时间来提高效率，但这段时间是值得的。由于DOM是一种语言无关的接口，您可以找到多种语言的实现，因此如果您需要更改编程语言，那么您很可能已经知道如何使用该语言的DOM API。

StackOverflow上已经详细介绍了如何使用DOM扩展，因此如果您选择使用它，您可以确保通过搜索/浏览StackOverload来解决您遇到的大多数问题。

其他答案中提供了基本用法示例和一般概念概述。

解析器

XMLReader扩展是一个XML拉式解析器。读取器充当文档流上前进的光标，并在途中的每个节点处停止。

XMLReader与DOM一样，基于libxml。我不知道如何触发HTML解析器模块，因此使用XMLReader解析损坏的HTML可能比使用DOM更不可靠，在DOM中可以明确告诉它使用libxml的HTML解析器模块。

另一个答案中提供了一个基本用法示例。

解析器

此扩展允许您创建XML解析器，然后为不同的XML事件定义处理程序。每个XML解析器也有一些可以调整的参数。

XML解析器库也基于libxml，并实现SAX风格的XML推送解析器。对于内存管理，它可能比DOM或SimpleXML更好，但比XMLReader实现的pull解析器更难使用。

简单XML

SimpleXML扩展提供了一个非常简单且易于使用的工具集，用于将XML转换为可以使用普通属性选择器和数组迭代器处理的对象。

当您知道HTML是有效的XHTML时，SimpleXML是一个选项。如果您需要解析损坏的HTML，甚至不要考虑SimpleXml，因为它会窒息。

有一个基本的用法示例，PHP手册中还有很多其他示例。

第三方库（基于libxml）

如果您更喜欢使用第三方库，我建议使用实际上在下面使用DOM/libxml的库，而不是字符串解析。

流利通

FluentDOM为PHP中的DOMDocument提供了一个类似jQuery的fluent XML接口。选择器使用XPath或CSS（使用CSS到XPath转换器）编写。当前版本扩展了DOM实现标准接口，并添加了DOM Living standard的功能。FluentDOM可以加载JSON、CSV、JsonML、RabbitFish等格式。可以通过Composer安装。

HTML页面域

Wa72\HtmlPageDom是一个易于操作HTML的PHP库使用DOM的文档。它需要Symfony2的DomCrawler用于遍历的组件DOM树，并通过添加用于操作HTML文档的DOM树。

php查询

phpQuery是一个基于jQueryJavaScript库的服务器端、可链接的CSS3选择器驱动的文档对象模型（DOM）API。该库使用PHP5编写，并提供了额外的命令行界面（CLI）。

这被描述为“废弃软件和bug：使用风险自负”，但似乎维护得很少。

薄层dom

Laminas\Dom组件（以前称为Zend_Dom）提供了处理Dom文档和结构的工具。目前，我们提供Laminas\Dom\Query，它为使用XPath和CSS选择器查询Dom文档提供了统一的接口。此软件包被视为功能完整，现在处于仅安全维护模式。

fDOM文件

fDOMDocument扩展了标准DOM，在所有错误情况下都使用异常，而不是PHP警告或通知。为了方便和简化DOM的使用，他们还添加了各种自定义方法和快捷方式。

sa刀/xml

sabre/xml是一个库，它包装并扩展XMLReader和XMLWriter类，以创建一个简单的“xml到对象/数组”映射系统和设计模式。编写和读取XML是一次性的，因此速度很快，对大型XML文件的内存要求很低。

流体XML

FluidXML是一个PHP库，用于使用简洁流畅的API操作XML。它利用XPath和流畅的编程模式，使其变得有趣和有效。

第三方（非基于libxml）

基于DOM/libxml构建的好处是，由于您基于本机扩展，因此可以立即获得良好的性能。然而，并不是所有的第三方libs都走这条路。其中一些列在下面

PHP简单HTML DOM解析器

用PHP5+编写的HTML DOM解析器可以让您以非常简单的方式操作HTML！需要PHP 5+。支持无效的HTML。使用类似jQuery的选择器在HTML页面上查找标记。从HTML中提取单行内容。

我通常不建议使用此解析器。代码库很糟糕，解析器本身也很慢，内存不足。并非所有jQuery选择器（如子选择器）都是可能的。任何基于libxml的库都应该很容易地胜过这一点。

PHP Html解析器

PHPHtmlParser是一个简单、灵活的html解析器，它允许您使用任何css选择器（如jQuery）选择标记。目标是帮助开发需要快速、简单的方式来抓取html的工具，无论它是否有效！这个项目最初由sunra/php简单的html dom解析器支持，但支持似乎已经停止，所以这个项目是我对他以前工作的改编。

同样，我不建议使用此解析器。由于CPU使用率高，速度相当慢。也没有清除创建的DOM对象的内存的功能。这些问题尤其适用于嵌套循环。文档本身不准确，拼写错误，自2016年4月14日以来，没有对修复进行回复。

HTML 5

您可以使用上面的方法来解析HTML5，但由于HTML5允许的标记，可能会有一些奇怪之处。因此，对于HTML5，您可能需要考虑使用专用解析器。请注意，这些都是用PHP编写的，因此与使用较低级别语言编译的扩展相比，性能更慢，内存使用量更大。

HTML5DomDocument

HTML5DOMDocument扩展了本机DOMDocument库。它修复了一些错误并添加了一些新功能。保留html实体（DOMDocument不保留）保留空标记（DOMDocument不保留）允许插入HTML代码，将正确的部分移动到正确的位置（头部元素插入头部，身体元素插入身体）允许使用CSS选择器查询DOM（当前可用：*、标记名、标记名#id、#id、tagname.classname、.classname，tagname.cclassname2、.classname2、标记名[attribute selector]、[attributeselector]，div、p、div p、div>p、div+p和p~ul）添加对元素->classList的支持。添加对元素->innerHTML的支持。添加对元素->outerHTML的支持。

HTML5

HTML5是完全用PHP编写的符合标准的HTML5解析器和编写器。它是稳定的，在许多制作网站中使用，下载量超过500万。HTML5提供以下功能。

HTML5序列化程序支持PHP命名空间作曲家支持基于事件（类似SAX）的解析器DOM树生成器与QueryPath的互操作性在PHP 5.3.0或更高版本上运行

正则表达式

最后也是最不推荐的，您可以使用正则表达式从HTML中提取数据。通常不鼓励在HTML上使用正则表达式。

你在网上找到的大多数与标记匹配的代码片段都很脆弱。在大多数情况下，它们只适用于一段非常特殊的HTML。微小的标记更改，如在某处添加空白，或在标记中添加或更改属性，可能会导致RegEx在未正确编写时失败。在HTML上使用RegEx之前，您应该知道自己在做什么。

HTML解析器已经知道HTML的语法规则。必须为您编写的每个新RegEx教授正则表达式。RegEx在某些情况下是可以的，但它确实取决于您的用例。

您可以编写更可靠的解析器，但使用正则表达式编写完整可靠的自定义解析器是浪费时间的，因为前面提到的库已经存在，并且在这方面做得更好。

另请参见解析Html Cthulhu方法

书

如果你想花钱，看看

PHP架构师使用PHP进行Web抓取的指南

我不属于PHP架构师或作者。

2010-08-26 17:19:41

顺便说一下，这通常被称为屏幕刮擦。我为此使用的库是SimpleHTMLDomParser。

2010-08-26 17:20:17

对于1a和2：我将投票支持新的Symfony Componet类DOMCrawler（DOMCrawler）。此类允许类似于CSS选择器的查询。看看这个演示文稿，看看真实世界的例子：news-of-the-symfony2-world。

该组件设计为独立工作，可以在没有Symfony的情况下使用。

唯一的缺点是它只适用于PHP5.3或更高版本。

2010-09-06 09:19:20

为什么不应该以及何时应该使用正则表达式？

首先，一个常见的误称：Regexp不用于“解析”HTML。然而，正则表达式可以“提取”数据。提取是它们的目的。与适当的SGML工具包或基线XML解析器相比，正则表达式HTML提取的主要缺点是它们的语法工作和不同的可靠性。

考虑制作一个稍微可靠的HTML提取正则表达式：

<a\s+class="?playbutton\d?[^>]+id="(\d+)".+?    <a\s+class="[\w\s]*title
[\w\s]*"[^>]+href="(http://[^">]+)"[^>]*>([^<>]+)</a>.+?

比简单的phpQuery或QueryPath等效文件可读性差得多：

$div->find(".stationcool a")->attr("title");

然而，在某些特定的用例中，它们可以提供帮助。

许多DOM遍历前端不显示HTML注释<！--，然而，它们有时是用于提取的更有用的锚。特别是伪HTML变体＜$var＞或SGML残基很容易用正则表达式驯服。通常，正则表达式可以节省后期处理。然而，HTML实体通常需要手动管理。最后，对于提取<img src=urls等极其简单的任务，它们实际上是一个可能的工具。与SGML/XML解析器相比，速度优势主要用于这些非常基本的提取过程。

有时甚至建议使用正则表达式/<--内容-->（.+？）<--END-->/并使用更简单的HTML解析器前端处理其余部分。

注意：我实际上有一个应用程序，在那里我交替使用XML解析和正则表达式。就在上周，PyQuery解析中断，正则表达式仍然有效。是的，很奇怪，我自己也解释不了。但事情就是这样发生的。因此，请不要因为现实世界的考虑与正则表达式=邪恶模因不匹配就投票否决。但我们也不要对此投太多赞成票。这只是这个话题的一个旁注。

2010-09-06 09:40:53

SimpleHtmlDom的第三方替代方案使用DOM而不是字符串解析：phpQuery、Zend_DOM、QueryPath和FluentDom。

2010-09-07 08:57:59

注意，这个答案推荐了那些已经废弃了10多年的图书馆。

phpQuery和QueryPath在复制流畅的jQuery API方面非常相似。这也是为什么它们是在PHP中正确解析HTML的两种最简单的方法。

QueryPath示例

基本上，您首先从HTML字符串创建一个可查询的DOM树：

 $qp = qp("<html><body><h1>title</h1>..."); // or give filename or URL

结果对象包含HTML文档的完整树表示。可以使用DOM方法遍历它。但常见的方法是使用jQuery中的CSS选择器：

 $qp->find("div.classname")->children()->...;

 foreach ($qp->find("p img") as $img) {
     print qp($img)->attr("src");
 }

大多数情况下，您希望为->find（）使用简单的#id和.class或DIV标记选择器。但您也可以使用XPath语句，这有时会更快。另外，典型的jQuery方法，如->children（）和->text（），特别是->attr（），简化了提取正确的HTML片段。（并且已经解码了它们的SGML实体。）

 $qp->xpath("//div/p[1]");  // get first paragraph in a div

QueryPath还允许将新标记注入流（->追加），然后输出并美化更新的文档（->写入HTML）。它不仅可以解析格式错误的HTML，还可以解析各种XML方言（带有名称空间），甚至可以从HTML微格式（XFN、vCard）中提取数据。

 $qp->find("a[target=_blank]")->toggleClass("usability-blunder");

phpQuery还是QueryPath？

一般来说，QueryPath更适合处理文档。而phpQuery还实现了一些伪AJAX方法（仅HTTP请求），以更接近于jQuery。据称，phpQuery通常比QueryPath更快（因为总体特性较少）。

有关差异的更多信息，请参阅tagbyte.org上的wayback机器上的比较

优势

简单可靠易于使用的替代方案->查找（“a img，a object，div a”）正确的数据取消捕获（与正则表达式grepping相比）

2010-09-07 14:45:45

这听起来像是W3C XPath技术的一个很好的任务描述。很容易表达诸如“返回嵌套在＜foo＞＜bar＞＜baz＞元素中的img标记中的所有href属性”之类的查询。我不是一个PHP爱好者，无法告诉您XPath可能以什么形式可用。如果可以调用外部程序来处理HTML文件，则应该能够使用命令行版本的XPath。有关快速介绍，请参见http://en.wikipedia.org/wiki/XPath.

2011-04-14 19:08:11

我在这里没有提到的一种通用方法是通过Tidy运行HTML，它可以设置为输出保证有效的XHTML。然后可以在上面使用任何旧的XML库。

但对于您的具体问题，您应该看看这个项目：http://fivefilters.org/content-only/--这是Readability算法的一个修改版本，它旨在从页面中提取文本内容（而不是页眉和页脚）。

2011-05-01 02:04:38

您可以尝试的另一个选项是QueryPath。它的灵感来自jQuery，但在服务器上使用PHP，并在Drupal中使用。

2011-05-31 15:12:06

我们以前已经为我们的需求创建了不少爬虫。最后，通常是简单的正则表达式做得最好。虽然上面列出的库对于创建它们的原因来说是很好的，但如果您知道自己在寻找什么，正则表达式是一种更安全的方法，因为您还可以处理无效的HTML/XTML结构，如果通过大多数解析器加载，则会失败。

2011-10-04 13:14:59

Symfony框架具有可以解析HTML的捆绑包，您可以使用CSS样式来选择DOM，而不是使用XPath。

2011-12-29 10:07:21

是的，您可以使用simple_html_dom。然而，我已经使用simple_html_dom做了很多工作，特别是在web抓取方面，发现它太脆弱了。它做了基本的工作，但无论如何我都不推荐它。

我从未使用过卷发，但我学到的是，卷发可以更有效地完成这项工作，而且更结实。

请查看此链接：使用curl刮取网站

2012-01-05 14:49:26

QueryPath很好，但要小心“跟踪状态”，因为如果你没有意识到它的含义，这可能意味着你浪费了大量调试时间，试图找出发生了什么以及代码为什么不工作。

这意味着对结果集的每一次调用都会修改对象中的结果集，这与jquery中的每个链接都是一个新的集一样是不可链接的，您有一个单独的集，它是查询的结果，而每个函数调用都会更改该单独的集。

为了获得类似jquery的行为，您需要在执行类似过滤器/修改的操作之前进行分支，这意味着它将更紧密地反映jquery中发生的情况。

$results = qp("div p");
$forename = $results->find("input[name='forename']");

$results现在包含输入的结果集[name='rename']而不是原始查询“div p”。这让我很困惑，我发现QueryPath跟踪过滤器和查找结果，以及修改结果并将其存储在对象中的所有内容。你需要这样做

$forename = $results->branch()->find("input[name='forname']")

那么$results将不会被修改，您可以一次又一次地重用结果集，也许有更多知识的人可以稍微澄清一下，但从我的发现来看，基本上是这样的。

2012-04-15 13:12:06

我推荐PHP简单HTML DOM解析器。

它确实有很好的功能，比如：

foreach($html->find('img') as $element)
       echo $element->src . '<br>';

2012-11-06 21:02:09

我已经编写了一个通用XML解析器，可以轻松处理GB文件。它基于XMLReader，非常容易使用：

$source = new XmlExtractor("path/to/tag", "/path/to/file.xml");
foreach ($source as $tag) {
    echo $tag->field1;
    echo $tag->field2->subfield1;
}

下面是github repo:XmlExtractor

2013-05-12 01:23:11

对于HTML5，html5lib已经被放弃多年了。我能找到的唯一一个最近更新和维护记录的HTML5库是一周多前刚刚发布到beta 1.0的HTML5 php。

2013-07-08 18:50:37

JSON和来自XML的数组分为三行：

$xml = simplexml_load_string($xml_string);
$json = json_encode($xml);
$array = json_decode($json,TRUE);

大大！

2013-10-15 21:35:10

不使用正则表达式解析HTML有几个原因。但是，如果您完全控制将生成什么HTML，那么可以使用简单的正则表达式。

上面是一个通过正则表达式解析HTML的函数。请注意，此函数非常敏感，要求HTML遵守某些规则，但它在许多场景中都非常有效。如果您想要一个简单的解析器，并且不想安装库，请尝试一下：

function array_combine_($keys, $values) {
    $result = array();
    foreach ($keys as $i => $k) {
        $result[$k][] = $values[$i];
    }
    array_walk($result, create_function('&$v', '$v = (count($v) == 1)? array_pop($v): $v;'));

    return $result;
}

function extract_data($str) {
    return (is_array($str))
        ? array_map('extract_data', $str)
        : ((!preg_match_all('#<([A-Za-z0-9_]*)[^>]*>(.*?)</\1>#s', $str, $matches))
            ? $str
            : array_map(('extract_data'), array_combine_($matches[1], $matches[2])));
}

print_r(extract_data(file_get_contents("http://www.google.com/")));

2013-12-05 13:05:10

处理HTML/XML DOM的方法有很多，其中大多数已经提到。因此，我不会亲自列出这些。

我只想补充一点，我个人更喜欢使用DOM扩展，以及为什么：

iit充分利用了底层C代码的性能优势它是OO PHP（并允许我对其进行子类化）它的级别相当低（这允许我将其用作更高级行为的非臃肿基础）它提供对DOM的每个部分的访问（不像SimpleXml，它忽略了一些鲜为人知的XML特性）它具有用于DOM爬行的语法，与原生Javascript中使用的语法类似。

虽然我怀念为DOMDocument使用CSS选择器的能力，但有一种非常简单和方便的方法可以添加此功能：将DOMDocument子类化，并将类似于querySelectorAll和querySelector的JS方法添加到子类中。

为了解析选择器，我建议使用Symfony框架中的非常简约的CsSelector组件。该组件只是将CSS选择器转换为XPath选择器，然后可以将其输入到DOMX路径中以检索相应的Nodelist。

然后，您可以使用这个（仍然是非常低级的）子类作为更高级类的基础，例如解析非常特定的XML类型或添加更多类似jQuery的行为。

下面的代码直接来自我的DOM查询库，并使用了我描述的技术。

对于HTML分析：

namespace PowerTools;

use \Symfony\Component\CssSelector\CssSelector as CssSelector;

class DOM_Document extends \DOMDocument {
    public function __construct($data = false, $doctype = 'html', $encoding = 'UTF-8', $version = '1.0') {
        parent::__construct($version, $encoding);
        if ($doctype && $doctype === 'html') {
            @$this->loadHTML($data);
        } else {
            @$this->loadXML($data);
        }
    }

    public function querySelectorAll($selector, $contextnode = null) {
        if (isset($this->doctype->name) && $this->doctype->name == 'html') {
            CssSelector::enableHtmlExtension();
        } else {
            CssSelector::disableHtmlExtension();
        }
        $xpath = new \DOMXpath($this);
        return $xpath->query(CssSelector::toXPath($selector, 'descendant::'), $contextnode);
    }

    [...]

    public function loadHTMLFile($filename, $options = 0) {
        $this->loadHTML(file_get_contents($filename), $options);
    }

    public function loadHTML($source, $options = 0) {
        if ($source && $source != '') {
            $data = trim($source);
            $html5 = new HTML5(array('targetDocument' => $this, 'disableHtmlNsInDom' => true));
            $data_start = mb_substr($data, 0, 10);
            if (strpos($data_start, '<!DOCTYPE ') === 0 || strpos($data_start, '<html>') === 0) {
                $html5->loadHTML($data);
            } else {
                @$this->loadHTML('<!DOCTYPE html><html><head><meta charset="' . $encoding . '" /></head><body></body></html>');
                $t = $html5->loadHTMLFragment($data);
                $docbody = $this->getElementsByTagName('body')->item(0);
                while ($t->hasChildNodes()) {
                    $docbody->appendChild($t->firstChild);
                }
            }
        }
    }

    [...]
}

另请参见Symfony的创建者Fabien Potencier关于为Symfony创建CsSelector组件的决定以及如何使用它的CSS选择器解析XML文档。

2014-07-03 09:55:50

Advanced Html Dom是一个简单的Html Dom替代品，它提供了相同的界面，但它是基于Dom的，这意味着不会出现任何相关的内存问题。

它还具有完整的CSS支持，包括jQuery扩展。

2014-12-18 04:29:07

我创建了一个名为PHPPowertools/DOM Query的库，它允许您像使用jQuery一样抓取HTML5和XML文档。

在后台，它使用symfony/DomCrawler将CSS选择器转换为XPath选择器。它总是使用相同的DomDocument，即使在将一个对象传递给另一个对象时也是如此，以确保良好的性能。

示例用法：

namespace PowerTools;

// Get file content
$htmlcode = file_get_contents('https://github.com');

// Define your DOMCrawler based on file string
$H = new DOM_Query($htmlcode);

// Define your DOMCrawler based on an existing DOM_Query instance
$H = new DOM_Query($H->select('body'));

// Passing a string (CSS selector)
$s = $H->select('div.foo');

// Passing an element object (DOM Element)
$s = $H->select($documentBody);

// Passing a DOM Query object
$s = $H->select( $H->select('p + p'));

// Select the body tag
$body = $H->select('body');

// Combine different classes as one selector to get all site blocks
$siteblocks = $body->select('.site-header, .masthead, .site-body, .site-footer');

// Nest your methods just like you would with jQuery
$siteblocks->select('button')->add('span')->addClass('icon icon-printer');

// Use a lambda function to set the text of all site blocks
$siteblocks->text(function( $i, $val) {
    return $i . " - " . $val->attr('class');
});

// Append the following HTML to all site blocks
$siteblocks->append('<div class="site-center"></div>');

// Use a descendant selector to select the site's footer
$sitefooter = $body->select('.site-footer > .site-center');

// Set some attributes for the site's footer
$sitefooter->attr(array('id' => 'aweeesome', 'data-val' => 'see'));

// Use a lambda function to set the attributes of all site blocks
$siteblocks->attr('data-val', function( $i, $val) {
    return $i . " - " . $val->attr('class') . " - photo by Kelly Clark";
});

// Select the parent of the site's footer
$sitefooterparent = $sitefooter->parent();

// Remove the class of all i-tags within the site's footer's parent
$sitefooterparent->select('i')->removeAttr('class');

// Wrap the site's footer within two nex selectors
$sitefooter->wrap('<section><div class="footer-wrapper"></div></section>');

[...]

支持的方法：

[x] $（1）[x] $.parseHTML[x] $.parseXML[x] $.parseJSON[x] $选择添加[x] $selection.addClass[x] $selection.after[x] $selection.append[x] $选择属性[x] $选择之前[x] $selection.children[x] $选择最接近[x] $selection.contents[x] $选择分离[x] $selection.每个[x] $selection.eq[x] $selection.empty（2）[x] $selection.find[x] $selection.first[x] $selection.get[x] $selection.insert之后[x] $selection.insertBefore[x] $selection.last[x] $selection.parent[x] $selection.parents[x] $selection.remove[x] $selection.removeAttr[x] $selection.removeClass[x] $selection.text[x] $selection.wrap

出于明显原因，重命名为“select”重命名为“void”，因为“empty”是PHP中的保留字

注：

该库还包括自己的零配置自动加载器，用于PSR-0兼容库。所包含的示例应该可以开箱即用，无需任何额外配置。或者，您可以将其与composer一起使用。

2015-07-09 14:33:16

使用FluidXML，您可以使用XPath和CSS选择器查询和迭代XML。

$doc = fluidxml('<html>...</html>');

$title = $doc->query('//head/title')[0]->nodeValue;

$doc->query('//body/p', 'div.active', '#bgId')
        ->each(function($i, $node) {
            // $node is a DOMNode.
            $tag   = $node->nodeName;
            $text  = $node->nodeValue;
            $class = $node->getAttribute('class');
        });

https://github.com/servo-php/fluidxml

2015-12-11 03:51:36

我创建了一个名为HTML5DOMDocument的库，可以在https://github.com/ivopetkov/html5-dom-document-php

它还支持查询选择器，我认为这在您的情况下非常有用。下面是一些示例代码：

$dom = new IvoPetkov\HTML5DOMDocument();
$dom->loadHTML('<!DOCTYPE html><html><body><h1>Hello</h1><div class="content">This is some text</div></body></html>');
echo $dom->querySelector('h1')->innerHTML;

2017-12-21 08:38:33

如果您熟悉jQuery选择器，可以使用ScarletsQuery for PHP

<pre><?php
include "ScarletsQuery.php";

// Load the HTML content and parse it
$html = file_get_contents('https://www.lipsum.com');
$dom = Scarlets\Library\MarkupLanguage::parseText($html);

// Select meta tag on the HTML header
$description = $dom->selector('head meta[name="description"]')[0];

// Get 'content' attribute value from meta tag
print_r($description->attr('content'));

$description = $dom->selector('#Content p');

// Get element array
print_r($description->view);

这个库通常需要不到1秒的时间来处理脱机html。它还接受无效的HTML或标记属性上缺少引号。

2018-08-16 12:35:01

解析xml的最佳方法：

$xml='http://www.example.com/rss.xml';
$rss = simplexml_load_string($xml);
$i = 0;
foreach ($rss->channel->item as $feedItem) {
  $i++;
  echo $title=$feedItem->title;
  echo '<br>';
  echo $link=$feedItem->link;
  echo '<br>';
  if($feedItem->description !='') {
    $des=$feedItem->description;
  } else {
    $des='';
  }
  echo $des;
  echo '<br>';
  if($i>5) break;
}

2019-03-29 16:05:33

有很多方法：

一般来说：

本机XML扩展：它们与PHP捆绑在一起，通常比所有第三方库都快，并为我提供了对标记所需的所有控制。DOM:DOM能够解析和修改真实世界（损坏的）HTML，并且可以执行XPath查询。它基于libxml。XMLReader：XMLReader与DOM一样，基于libxml。XMLReader扩展是一个XML拉式解析器。读取器充当文档流上前进的光标，并在途中的每个节点处停止XML解析器：此扩展允许您创建XML解析器，然后为不同的XML事件定义处理程序。每个XML解析器也有一些可以调整的参数。它实现了SAX风格的XML推送解析器。简单XML：SimpleXML扩展提供了一个非常简单且易于使用的工具集，用于将XML转换为可以使用普通属性选择器和数组迭代器处理的对象。

第三方库[libxml-based]：

FluentDom-Repo:FluentDom为PHP中的DOMDocument提供了一个类似jQuery的fluent XML接口。它可以加载JSON、CSV、JsonML、RabbitFish等格式。可以通过Composer安装。HtmlPageDom：是一个PHP库，使用它可以方便地操纵HTML文档。它需要Symfony2组件的DomCrawler来遍历DOM树，并通过添加操纵HTML文档的DOM树的方法来扩展它。ZendDOM:Zend_Dom提供了处理Dom文档和结构的工具。目前，他们提供了Zend_Dom_Query，它为使用XPath和CSS选择器查询Dom文档提供了统一的接口。QueryPath：QueryPath是一个用于处理XML和HTML的PHP库。它不仅设计用于本地文件，还设计用于web服务和数据库资源。它实现了大部分jQuery接口（包括CSS样式选择器），但它针对服务器端使用进行了大量调整。可以通过Composer安装。fDOM文档：fDOMDocument扩展了标准DOM，以在所有错误情况下使用异常，而不是PHP警告或通知。为了方便和简化DOM的使用，他们还添加了各种自定义方法和快捷方式。Sabre/XML:ssabre/XML是一个库，它包装并扩展XMLReader和XMLWriter类，以创建一个简单的“XML到对象/数组”映射系统和设计模式。编写和读取XML是一次性的，因此速度很快，对大型XML文件的内存要求很低。FluidXML:FluidXML是一个PHP库，用于使用简洁流畅的API处理XML。它利用XPath和流畅的编程模式，使其变得有趣和有效。

第三方库[不基于libxml]：

PHP简单HTML DOM解析器：一个用PHP5+编写的HTML DOM解析器允许您以非常简单的方式操作HTML，它需要PHP 5+。还支持无效的HTML。它在单行中从HTML中提取内容。代码库很糟糕，而且工作速度很慢。PHPHtmlParser:HPHtmlParser是一个简单、灵活的Html解析器，允许您使用任何CSS选择器（如jQuery）选择标记。目标是帮助开发需要快速、简单的方式来抓取HTML的工具，无论它是否有效。它速度慢，占用了太多CPU电源。Ganon（推荐）：通用标记器和HTML/XML/RSS DOM解析器。它具有操纵元素及其属性的能力。它支持无效的HTML和UTF8。它可以对元素执行类似CSS3的高级查询（如jQuery——支持名称空间）。HTML美化器（如HTML Tidy）。精简CSS和Javascript。它对属性进行排序、更改字符大小写、正确缩进等。可扩展。操作分为较小的功能，便于覆盖和快速且易于使用。

Web服务：

如果您不想编写PHP，也可以使用Web服务。ScraperWiki的外部界面允许您以您希望在web或自己的应用程序中使用的形式提取数据。您还可以提取有关任何刮刀状态的信息。

我已经分享了所有的资源，你可以根据自己的口味、用途等进行选择。

2021-10-20 02:22:59

如何在PHP中解析和处理HTML/XML？

推荐文章

最新文章

标签