如何在PHP中解析和处理HTML/XML？

如何解析HTML/XML并从中提取信息？

当前回答

我已经编写了一个通用XML解析器，可以轻松处理GB文件。它基于XMLReader，非常容易使用：

$source = new XmlExtractor("path/to/tag", "/path/to/file.xml");
foreach ($source as $tag) {
    echo $tag->field1;
    echo $tag->field2->subfield1;
}

下面是github repo:XmlExtractor

2013-05-12 01:23:11

其他回答

XML_HTMLMax相当稳定——即使不再维护它。另一种选择是通过HtmlTidy将HTML导入，然后用标准的XML工具解析它。

2008-11-15 19:55:44

您可以尝试使用类似HTMLTidy的东西来清理任何“损坏”的HTML，并将HTML转换为XHTML，然后可以使用XML解析器解析。

2008-11-15 22:24:15

对于1a和2：我将投票支持新的Symfony Componet类DOMCrawler（DOMCrawler）。此类允许类似于CSS选择器的查询。看看这个演示文稿，看看真实世界的例子：news-of-the-symfony2-world。

该组件设计为独立工作，可以在没有Symfony的情况下使用。

唯一的缺点是它只适用于PHP5.3或更高版本。

2010-09-06 09:19:20

这听起来像是W3C XPath技术的一个很好的任务描述。很容易表达诸如“返回嵌套在＜foo＞＜bar＞＜baz＞元素中的img标记中的所有href属性”之类的查询。我不是一个PHP爱好者，无法告诉您XPath可能以什么形式可用。如果可以调用外部程序来处理HTML文件，则应该能够使用命令行版本的XPath。有关快速介绍，请参见http://en.wikipedia.org/wiki/XPath.

2011-04-14 19:08:11

是的，您可以使用simple_html_dom。然而，我已经使用simple_html_dom做了很多工作，特别是在web抓取方面，发现它太脆弱了。它做了基本的工作，但无论如何我都不推荐它。

我从未使用过卷发，但我学到的是，卷发可以更有效地完成这项工作，而且更结实。

请查看此链接：使用curl刮取网站

2012-01-05 14:49:26

如何在PHP中解析和处理HTML/XML？

推荐文章

最新文章

标签