使用正则表达式解析HTML:为什么不呢?

似乎在stackoverflow上的每个问题中，提问者使用regex从HTML中获取一些信息，将不可避免地有一个“答案”，说不要使用regex解析HTML。

为什么不呢?我知道有一些所谓的“真正的”HTML解析器，比如Beautiful Soup，我相信它们是强大而有用的，但如果您只是在做一些简单、快速或简单的事情，那么当一些正则表达式语句就可以很好地工作时，为什么要麻烦使用如此复杂的东西呢?

此外，是否只是因为我不理解正则表达式的某些基本原理，才使得它们在解析中成为一个糟糕的选择?

当前回答

这个表达式从HTML元素中检索属性。它支持:

未加引号/加引号的属性，单引号/双引号，属性中的转义引号，等号周围的空格，任意数量的属性，只检查标签内的属性，转义注释，以及在一个属性值中管理不同的引号。

(?:\<\!\-\-(?:(?!\-\-\>)\r\n?|\n|。)*?-\-\>)|(?:<(\ S+)\s+(?=.*>)|(?<=[=\s])\G)(?:((?:(?!\s|=).)*)\s*?=\ s*?[\"']?((?:(?<=\"))(?:(?<=\\)\"|[^\"])*|(?<=')(? : (?<=\\)'|[^'])*)|(?:(?!\"|')(?:(?!\/>|>|\s).)+)[\ "']?\s*)

来看看。在演示中，使用“gisx”标志效果更好。

2016-10-17 21:19:55

其他回答

正则表达式无法解析整个HTML，因为它依赖于匹配开始标记和结束标记，而正则表达式则无法匹配。

正则表达式只能匹配常规语言，但HTML是一种与上下文无关的语言，而不是常规语言(正如@StefanPochmann所指出的，常规语言也是与上下文无关的，因此与上下文无关并不一定意味着不常规)。在HTML上使用regexp唯一能做的事情是启发式，但这并不适用于所有条件。任何正则表达式都可以错误地匹配HTML文件。

2009-02-26 14:32:44

正则表达式并不是为处理嵌套的标记结构而设计的，要处理真正HTML中可能出现的所有边缘情况，往好里说是复杂的(往坏里说是不可能的)。

2009-02-26 14:35:50

对于快速´n´dirty regexp就可以了。但是要知道的基本问题是，不可能构造一个正确解析HTML的regexp。

原因是regexp不能处理任意嵌套的表达式。参见正则表达式能否用于匹配嵌套模式?

2009-02-26 14:32:22

(来自http://htmlparsing.com/regexes)

假设您有一个HTML文件，您试图从中提取url < img >标签。

<img src="http://example.com/whatever.jpg">

所以你可以用Perl写一个这样的正则表达式:

if ( $html =~ /<img src="(.+)"/ ) {
    $url = $1;
}

在本例中，$url确实包含 http://example.com/whatever.jpg。但是当你会得到这样的HTML:

<img src='http://example.com/whatever.jpg'>

<img src=http://example.com/whatever.jpg>

<img border=0 src="http://example.com/whatever.jpg">

<img
    src="http://example.com/whatever.jpg">

否则你就会得到假阳性

<!-- // commented out
<img src="http://example.com/outdated.png">
-->

它看起来很简单，对于一个单一的、不变的文件来说可能很简单，但是对于任意HTML数据，正则表达式只会让你将来头疼。

2013-09-10 17:07:31

两个简单的原因:

编写一个能够抵御恶意输入的正则表达式是困难的;比使用预先构建的工具难多了编写一个正则表达式来处理你不可避免地会遇到的荒谬的标记是困难的;比使用预先构建的工具难多了

关于正则表达式在解析中的适用性:它们并不合适。您是否见过解析大多数语言所需的正则表达式类型?

2009-02-26 14:29:02

使用正则表达式解析HTML:为什么不呢?

推荐文章

最新文章

标签