如何在PHP中解析和处理HTML/XML？

如何解析HTML/XML并从中提取信息？

当前回答

Advanced Html Dom是一个简单的Html Dom替代品，它提供了相同的界面，但它是基于Dom的，这意味着不会出现任何相关的内存问题。

它还具有完整的CSS支持，包括jQuery扩展。

2014-12-18 04:29:07

其他回答

不使用正则表达式解析HTML有几个原因。但是，如果您完全控制将生成什么HTML，那么可以使用简单的正则表达式。

上面是一个通过正则表达式解析HTML的函数。请注意，此函数非常敏感，要求HTML遵守某些规则，但它在许多场景中都非常有效。如果您想要一个简单的解析器，并且不想安装库，请尝试一下：

function array_combine_($keys, $values) {
    $result = array();
    foreach ($keys as $i => $k) {
        $result[$k][] = $values[$i];
    }
    array_walk($result, create_function('&$v', '$v = (count($v) == 1)? array_pop($v): $v;'));

    return $result;
}

function extract_data($str) {
    return (is_array($str))
        ? array_map('extract_data', $str)
        : ((!preg_match_all('#<([A-Za-z0-9_]*)[^>]*>(.*?)</\1>#s', $str, $matches))
            ? $str
            : array_map(('extract_data'), array_combine_($matches[1], $matches[2])));
}

print_r(extract_data(file_get_contents("http://www.google.com/")));

2013-12-05 13:05:10

Advanced Html Dom是一个简单的Html Dom替代品，它提供了相同的界面，但它是基于Dom的，这意味着不会出现任何相关的内存问题。

它还具有完整的CSS支持，包括jQuery扩展。

2014-12-18 04:29:07

有很多方法：

一般来说：

本机XML扩展：它们与PHP捆绑在一起，通常比所有第三方库都快，并为我提供了对标记所需的所有控制。DOM:DOM能够解析和修改真实世界（损坏的）HTML，并且可以执行XPath查询。它基于libxml。XMLReader：XMLReader与DOM一样，基于libxml。XMLReader扩展是一个XML拉式解析器。读取器充当文档流上前进的光标，并在途中的每个节点处停止XML解析器：此扩展允许您创建XML解析器，然后为不同的XML事件定义处理程序。每个XML解析器也有一些可以调整的参数。它实现了SAX风格的XML推送解析器。简单XML：SimpleXML扩展提供了一个非常简单且易于使用的工具集，用于将XML转换为可以使用普通属性选择器和数组迭代器处理的对象。

第三方库[libxml-based]：

FluentDom-Repo:FluentDom为PHP中的DOMDocument提供了一个类似jQuery的fluent XML接口。它可以加载JSON、CSV、JsonML、RabbitFish等格式。可以通过Composer安装。HtmlPageDom：是一个PHP库，使用它可以方便地操纵HTML文档。它需要Symfony2组件的DomCrawler来遍历DOM树，并通过添加操纵HTML文档的DOM树的方法来扩展它。ZendDOM:Zend_Dom提供了处理Dom文档和结构的工具。目前，他们提供了Zend_Dom_Query，它为使用XPath和CSS选择器查询Dom文档提供了统一的接口。QueryPath：QueryPath是一个用于处理XML和HTML的PHP库。它不仅设计用于本地文件，还设计用于web服务和数据库资源。它实现了大部分jQuery接口（包括CSS样式选择器），但它针对服务器端使用进行了大量调整。可以通过Composer安装。fDOM文档：fDOMDocument扩展了标准DOM，以在所有错误情况下使用异常，而不是PHP警告或通知。为了方便和简化DOM的使用，他们还添加了各种自定义方法和快捷方式。Sabre/XML:ssabre/XML是一个库，它包装并扩展XMLReader和XMLWriter类，以创建一个简单的“XML到对象/数组”映射系统和设计模式。编写和读取XML是一次性的，因此速度很快，对大型XML文件的内存要求很低。FluidXML:FluidXML是一个PHP库，用于使用简洁流畅的API处理XML。它利用XPath和流畅的编程模式，使其变得有趣和有效。

第三方库[不基于libxml]：

PHP简单HTML DOM解析器：一个用PHP5+编写的HTML DOM解析器允许您以非常简单的方式操作HTML，它需要PHP 5+。还支持无效的HTML。它在单行中从HTML中提取内容。代码库很糟糕，而且工作速度很慢。PHPHtmlParser:HPHtmlParser是一个简单、灵活的Html解析器，允许您使用任何CSS选择器（如jQuery）选择标记。目标是帮助开发需要快速、简单的方式来抓取HTML的工具，无论它是否有效。它速度慢，占用了太多CPU电源。Ganon（推荐）：通用标记器和HTML/XML/RSS DOM解析器。它具有操纵元素及其属性的能力。它支持无效的HTML和UTF8。它可以对元素执行类似CSS3的高级查询（如jQuery——支持名称空间）。HTML美化器（如HTML Tidy）。精简CSS和Javascript。它对属性进行排序、更改字符大小写、正确缩进等。可扩展。操作分为较小的功能，便于覆盖和快速且易于使用。

Web服务：

如果您不想编写PHP，也可以使用Web服务。ScraperWiki的外部界面允许您以您希望在web或自己的应用程序中使用的形式提取数据。您还可以提取有关任何刮刀状态的信息。

我已经分享了所有的资源，你可以根据自己的口味、用途等进行选择。

2021-10-20 02:22:59

SimpleHtmlDom的第三方替代方案使用DOM而不是字符串解析：phpQuery、Zend_DOM、QueryPath和FluentDom。

2010-09-07 08:57:59

您可以尝试使用类似HTMLTidy的东西来清理任何“损坏”的HTML，并将HTML转换为XHTML，然后可以使用XML解析器解析。

2008-11-15 22:24:15

如何在PHP中解析和处理HTML/XML？

推荐文章

最新文章

标签