使用正则表达式解析HTML:为什么不呢?

似乎在stackoverflow上的每个问题中，提问者使用regex从HTML中获取一些信息，将不可避免地有一个“答案”，说不要使用regex解析HTML。

为什么不呢?我知道有一些所谓的“真正的”HTML解析器，比如Beautiful Soup，我相信它们是强大而有用的，但如果您只是在做一些简单、快速或简单的事情，那么当一些正则表达式语句就可以很好地工作时，为什么要麻烦使用如此复杂的东西呢?

此外，是否只是因为我不理解正则表达式的某些基本原理，才使得它们在解析中成为一个糟糕的选择?

当前回答

正则表达式并不是为处理嵌套的标记结构而设计的，要处理真正HTML中可能出现的所有边缘情况，往好里说是复杂的(往坏里说是不可能的)。

2009-02-26 14:35:50

其他回答

“这要看情况”。由于这里给出的所有原因，正则表达式不能也不能准确地解析HTML，这是事实。但是，如果错误的后果(比如不处理嵌套标记)很小，如果正则表达式在您的环境中非常方便(比如在入侵Perl时)，那么就继续。

假设您正在解析链接到您站点的网页——也许您是通过谷歌链接搜索找到它们的——并且您想要一种快速方法来大致了解链接周围的上下文。您试图运行一个小报告，可能会提醒您链接垃圾邮件，诸如此类。

在这种情况下，对某些文档进行错误解析并不是什么大问题。除了你自己，没有人会发现错误，如果你足够幸运，你可以单独跟进。

我想我是说这是一种权衡。有时，实现或使用正确的解析器(尽管很简单)可能不值得麻烦，如果准确性不是至关重要的话。

小心你的假设。例如，如果您试图解析将公开显示的内容，我可以想到regexp快捷方式可能适得其反的几种情况。

2009-02-26 15:26:20

(来自http://htmlparsing.com/regexes)

假设您有一个HTML文件，您试图从中提取url < img >标签。

<img src="http://example.com/whatever.jpg">

所以你可以用Perl写一个这样的正则表达式:

if ( $html =~ /<img src="(.+)"/ ) {
    $url = $1;
}

在本例中，$url确实包含 http://example.com/whatever.jpg。但是当你会得到这样的HTML:

<img src='http://example.com/whatever.jpg'>

<img src=http://example.com/whatever.jpg>

<img border=0 src="http://example.com/whatever.jpg">

<img
    src="http://example.com/whatever.jpg">

否则你就会得到假阳性

<!-- // commented out
<img src="http://example.com/outdated.png">
-->

它看起来很简单，对于一个单一的、不变的文件来说可能很简单，但是对于任意HTML数据，正则表达式只会让你将来头疼。

2013-09-10 17:07:31

请记住，虽然HTML本身不是规则的，但您正在查看的页面的某些部分可能是规则的。

例如，<form>标签被嵌套是一个错误;如果网页正常工作，那么使用正则表达式获取<form>将是完全合理的。

I recently did some web scraping using only Selenium and regular expressions. I got away with it because the data I wanted was put in a <form>, and put in a simple table format (so I could even count on <table>, <tr> and <td> to be non-nested--which is actually highly unusual). In some degree, regular expressions were even almost necessary, because some of the structure I needed to access was delimited by comments. (Beautiful Soup can give you comments, but it would have been difficult to grab  and  blocks using Beautiful Soup.)

但是，如果我不得不担心嵌套表，那么我的方法根本就行不通!我就只能靠《美丽汤》了。但是，即使这样，有时也可以使用正则表达式获取所需的块，然后从那里展开。

2013-02-12 18:34:47

我相信答案就在计算理论中。对于使用正则表达式解析的语言，根据定义必须是“regular”(链接)。HTML不是常规语言，因为它不符合常规语言的许多标准(与HTML代码中固有的多层嵌套有很大关系)。如果你对计算理论感兴趣，我推荐这本书。

2009-02-26 14:36:31

正则表达式无法解析整个HTML，因为它依赖于匹配开始标记和结束标记，而正则表达式则无法匹配。

正则表达式只能匹配常规语言，但HTML是一种与上下文无关的语言，而不是常规语言(正如@StefanPochmann所指出的，常规语言也是与上下文无关的，因此与上下文无关并不一定意味着不常规)。在HTML上使用regexp唯一能做的事情是启发式，但这并不适用于所有条件。任何正则表达式都可以错误地匹配HTML文件。

2009-02-26 14:32:44

使用正则表达式解析HTML:为什么不呢?

推荐文章

最新文章

标签