如何在PHP中解析和处理HTML/XML？

如何解析HTML/XML并从中提取信息？

当前回答

尝试简单HTML DOM解析器。

一个用PHP5+编写的HTMLDOM解析器，可以让您以非常简单的方式操作HTML！需要PHP 5+。支持无效的HTML。使用类似jQuery的选择器在HTML页面上查找标记。从HTML中提取单行内容。下载

注意：顾名思义，它可以用于简单的任务。它使用正则表达式而不是HTML解析器，因此对于更复杂的任务，速度会慢得多。它的大部分代码库是在2008年编写的，此后只做了一些小的改进。它不遵循现代PHP编码标准，将其纳入符合PSR的现代项目将是一个挑战。

示例：

如何获取HTML元素：

// Create DOM from URL or file
$html = file_get_html('http://www.example.com/');

// Find all images
foreach($html->find('img') as $element)
       echo $element->src . '<br>';

// Find all links
foreach($html->find('a') as $element)
       echo $element->href . '<br>';

如何修改HTML元素：

// Create DOM from string
$html = str_get_html('<div id="hello">Hello</div><div id="world">World</div>');

$html->find('div', 1)->class = 'bar';

$html->find('div[id=hello]', 0)->innertext = 'foo';

echo $html;

从HTML中提取内容：

// Dump contents (without tags) from HTML
echo file_get_html('http://www.google.com/')->plaintext;

刮削Slashdot：

// Create DOM from URL
$html = file_get_html('http://slashdot.org/');

// Find all article blocks
foreach($html->find('div.article') as $article) {
    $item['title']     = $article->find('div.title', 0)->plaintext;
    $item['intro']    = $article->find('div.intro', 0)->plaintext;
    $item['details'] = $article->find('div.details', 0)->plaintext;
    $articles[] = $item;
}

print_r($articles);

2010-08-26 17:18:25

其他回答

解析xml的最佳方法：

$xml='http://www.example.com/rss.xml';
$rss = simplexml_load_string($xml);
$i = 0;
foreach ($rss->channel->item as $feedItem) {
  $i++;
  echo $title=$feedItem->title;
  echo '<br>';
  echo $link=$feedItem->link;
  echo '<br>';
  if($feedItem->description !='') {
    $des=$feedItem->description;
  } else {
    $des='';
  }
  echo $des;
  echo '<br>';
  if($i>5) break;
}

2019-03-29 16:05:33

Symfony框架具有可以解析HTML的捆绑包，您可以使用CSS样式来选择DOM，而不是使用XPath。

2011-12-29 10:07:21

XML_HTMLMax相当稳定——即使不再维护它。另一种选择是通过HtmlTidy将HTML导入，然后用标准的XML工具解析它。

2008-11-15 19:55:44

顺便说一下，这通常被称为屏幕刮擦。我为此使用的库是SimpleHTMLDomParser。

2010-08-26 17:20:17

Advanced Html Dom是一个简单的Html Dom替代品，它提供了相同的界面，但它是基于Dom的，这意味着不会出现任何相关的内存问题。

它还具有完整的CSS支持，包括jQuery扩展。

2014-12-18 04:29:07

如何在PHP中解析和处理HTML/XML？

推荐文章

最新文章

标签