如何在PHP中解析和处理HTML/XML？

如何解析HTML/XML并从中提取信息？

当前回答

处理HTML/XML DOM的方法有很多，其中大多数已经提到。因此，我不会亲自列出这些。

我只想补充一点，我个人更喜欢使用DOM扩展，以及为什么：

iit充分利用了底层C代码的性能优势它是OO PHP（并允许我对其进行子类化）它的级别相当低（这允许我将其用作更高级行为的非臃肿基础）它提供对DOM的每个部分的访问（不像SimpleXml，它忽略了一些鲜为人知的XML特性）它具有用于DOM爬行的语法，与原生Javascript中使用的语法类似。

虽然我怀念为DOMDocument使用CSS选择器的能力，但有一种非常简单和方便的方法可以添加此功能：将DOMDocument子类化，并将类似于querySelectorAll和querySelector的JS方法添加到子类中。

为了解析选择器，我建议使用Symfony框架中的非常简约的CsSelector组件。该组件只是将CSS选择器转换为XPath选择器，然后可以将其输入到DOMX路径中以检索相应的Nodelist。

然后，您可以使用这个（仍然是非常低级的）子类作为更高级类的基础，例如解析非常特定的XML类型或添加更多类似jQuery的行为。

下面的代码直接来自我的DOM查询库，并使用了我描述的技术。

对于HTML分析：

namespace PowerTools;

use \Symfony\Component\CssSelector\CssSelector as CssSelector;

class DOM_Document extends \DOMDocument {
    public function __construct($data = false, $doctype = 'html', $encoding = 'UTF-8', $version = '1.0') {
        parent::__construct($version, $encoding);
        if ($doctype && $doctype === 'html') {
            @$this->loadHTML($data);
        } else {
            @$this->loadXML($data);
        }
    }

    public function querySelectorAll($selector, $contextnode = null) {
        if (isset($this->doctype->name) && $this->doctype->name == 'html') {
            CssSelector::enableHtmlExtension();
        } else {
            CssSelector::disableHtmlExtension();
        }
        $xpath = new \DOMXpath($this);
        return $xpath->query(CssSelector::toXPath($selector, 'descendant::'), $contextnode);
    }

    [...]

    public function loadHTMLFile($filename, $options = 0) {
        $this->loadHTML(file_get_contents($filename), $options);
    }

    public function loadHTML($source, $options = 0) {
        if ($source && $source != '') {
            $data = trim($source);
            $html5 = new HTML5(array('targetDocument' => $this, 'disableHtmlNsInDom' => true));
            $data_start = mb_substr($data, 0, 10);
            if (strpos($data_start, '<!DOCTYPE ') === 0 || strpos($data_start, '<html>') === 0) {
                $html5->loadHTML($data);
            } else {
                @$this->loadHTML('<!DOCTYPE html><html><head><meta charset="' . $encoding . '" /></head><body></body></html>');
                $t = $html5->loadHTMLFragment($data);
                $docbody = $this->getElementsByTagName('body')->item(0);
                while ($t->hasChildNodes()) {
                    $docbody->appendChild($t->firstChild);
                }
            }
        }
    }

    [...]
}

另请参见Symfony的创建者Fabien Potencier关于为Symfony创建CsSelector组件的决定以及如何使用它的CSS选择器解析XML文档。

2014-07-03 09:55:50

其他回答

Symfony框架具有可以解析HTML的捆绑包，您可以使用CSS样式来选择DOM，而不是使用XPath。

2011-12-29 10:07:21

我创建了一个名为HTML5DOMDocument的库，可以在https://github.com/ivopetkov/html5-dom-document-php

它还支持查询选择器，我认为这在您的情况下非常有用。下面是一些示例代码：

$dom = new IvoPetkov\HTML5DOMDocument();
$dom->loadHTML('<!DOCTYPE html><html><body><h1>Hello</h1><div class="content">This is some text</div></body></html>');
echo $dom->querySelector('h1')->innerHTML;

2017-12-21 08:38:33

XML_HTMLMax相当稳定——即使不再维护它。另一种选择是通过HtmlTidy将HTML导入，然后用标准的XML工具解析它。

2008-11-15 19:55:44

只需使用DOMDocument->loadHTML（）就可以了。libxml的HTML解析算法非常好，速度也很快，与流行的观点相反，它不会对格式错误的HTML产生影响。

2008-11-26 20:02:44

尝试简单HTML DOM解析器。

一个用PHP5+编写的HTMLDOM解析器，可以让您以非常简单的方式操作HTML！需要PHP 5+。支持无效的HTML。使用类似jQuery的选择器在HTML页面上查找标记。从HTML中提取单行内容。下载

注意：顾名思义，它可以用于简单的任务。它使用正则表达式而不是HTML解析器，因此对于更复杂的任务，速度会慢得多。它的大部分代码库是在2008年编写的，此后只做了一些小的改进。它不遵循现代PHP编码标准，将其纳入符合PSR的现代项目将是一个挑战。

示例：

如何获取HTML元素：

// Create DOM from URL or file
$html = file_get_html('http://www.example.com/');

// Find all images
foreach($html->find('img') as $element)
       echo $element->src . '<br>';

// Find all links
foreach($html->find('a') as $element)
       echo $element->href . '<br>';

如何修改HTML元素：

// Create DOM from string
$html = str_get_html('<div id="hello">Hello</div><div id="world">World</div>');

$html->find('div', 1)->class = 'bar';

$html->find('div[id=hello]', 0)->innertext = 'foo';

echo $html;

从HTML中提取内容：

// Dump contents (without tags) from HTML
echo file_get_html('http://www.google.com/')->plaintext;

刮削Slashdot：

// Create DOM from URL
$html = file_get_html('http://slashdot.org/');

// Find all article blocks
foreach($html->find('div.article') as $article) {
    $item['title']     = $article->find('div.title', 0)->plaintext;
    $item['intro']    = $article->find('div.intro', 0)->plaintext;
    $item['details'] = $article->find('div.details', 0)->plaintext;
    $articles[] = $item;
}

print_r($articles);

2010-08-26 17:18:25

如何在PHP中解析和处理HTML/XML？

推荐文章

最新文章

标签