如何在PHP中解析和处理HTML/XML？

如何解析HTML/XML并从中提取信息？

当前回答

简单HTML DOM是一个很棒的开源解析器：

simplehtmldom.sourceforge

它以面向对象的方式处理DOM元素，新的迭代包含了大量不兼容代码。还有一些很棒的函数，如JavaScript中的“find”函数，它将返回该标记名元素的所有实例。

我已经在许多工具中使用了这个，在许多不同类型的网页上测试了它，我认为它非常有用。

2008-11-15 22:16:00

其他回答

顺便说一下，这通常被称为屏幕刮擦。我为此使用的库是SimpleHTMLDomParser。

2010-08-26 17:20:17

解析xml的最佳方法：

$xml='http://www.example.com/rss.xml';
$rss = simplexml_load_string($xml);
$i = 0;
foreach ($rss->channel->item as $feedItem) {
  $i++;
  echo $title=$feedItem->title;
  echo '<br>';
  echo $link=$feedItem->link;
  echo '<br>';
  if($feedItem->description !='') {
    $des=$feedItem->description;
  } else {
    $des='';
  }
  echo $des;
  echo '<br>';
  if($i>5) break;
}

2019-03-29 16:05:33

您可以尝试使用类似HTMLTidy的东西来清理任何“损坏”的HTML，并将HTML转换为XHTML，然后可以使用XML解析器解析。

2008-11-15 22:24:15

是的，您可以使用simple_html_dom。然而，我已经使用simple_html_dom做了很多工作，特别是在web抓取方面，发现它太脆弱了。它做了基本的工作，但无论如何我都不推荐它。

我从未使用过卷发，但我学到的是，卷发可以更有效地完成这项工作，而且更结实。

请查看此链接：使用curl刮取网站

2012-01-05 14:49:26

您可以尝试的另一个选项是QueryPath。它的灵感来自jQuery，但在服务器上使用PHP，并在Drupal中使用。

2011-05-31 15:12:06

如何在PHP中解析和处理HTML/XML？

推荐文章

最新文章

标签