如何在PHP中解析和处理HTML/XML？

如何解析HTML/XML并从中提取信息？

当前回答

我在这里没有提到的一种通用方法是通过Tidy运行HTML，它可以设置为输出保证有效的XHTML。然后可以在上面使用任何旧的XML库。

但对于您的具体问题，您应该看看这个项目：http://fivefilters.org/content-only/--这是Readability算法的一个修改版本，它旨在从页面中提取文本内容（而不是页眉和页脚）。

2011-05-01 02:04:38

其他回答

Symfony框架具有可以解析HTML的捆绑包，您可以使用CSS样式来选择DOM，而不是使用XPath。

2011-12-29 10:07:21

这听起来像是W3C XPath技术的一个很好的任务描述。很容易表达诸如“返回嵌套在＜foo＞＜bar＞＜baz＞元素中的img标记中的所有href属性”之类的查询。我不是一个PHP爱好者，无法告诉您XPath可能以什么形式可用。如果可以调用外部程序来处理HTML文件，则应该能够使用命令行版本的XPath。有关快速介绍，请参见http://en.wikipedia.org/wiki/XPath.

2011-04-14 19:08:11

对于1a和2：我将投票支持新的Symfony Componet类DOMCrawler（DOMCrawler）。此类允许类似于CSS选择器的查询。看看这个演示文稿，看看真实世界的例子：news-of-the-symfony2-world。

该组件设计为独立工作，可以在没有Symfony的情况下使用。

唯一的缺点是它只适用于PHP5.3或更高版本。

2010-09-06 09:19:20

我创建了一个名为HTML5DOMDocument的库，可以在https://github.com/ivopetkov/html5-dom-document-php

它还支持查询选择器，我认为这在您的情况下非常有用。下面是一些示例代码：

$dom = new IvoPetkov\HTML5DOMDocument();
$dom->loadHTML('<!DOCTYPE html><html><body><h1>Hello</h1><div class="content">This is some text</div></body></html>');
echo $dom->querySelector('h1')->innerHTML;

2017-12-21 08:38:33

我推荐PHP简单HTML DOM解析器。

它确实有很好的功能，比如：

foreach($html->find('img') as $element)
       echo $element->src . '<br>';

2012-11-06 21:02:09

如何在PHP中解析和处理HTML/XML？

推荐文章

最新文章

标签