RegEx匹配除XHTML自包含标记之外的开放标记

我需要匹配所有这些开头标记：

<p>
<a href="foo">

但不是这些：

<br />
<hr class="foo" />

我想出了这个，想确保我做得对。我只是在捕捉a-z。

<([a-z]+) *[^/]*?>

我相信上面写着：

找到一个小于，然后查找（并捕获）a-z一次或多次，然后找到零个或多个空格，然后查找任何字符零次或多次，贪婪，除了/，然后查找大于

我有这个权利吗？更重要的是，你怎么看？

当前回答

每当我需要从HTML文档中快速提取内容时，我都会使用Tidy将其转换为XML，然后使用XPath或XSLT来获取所需内容。在您的案例中，类似于：

//p/a[@href='foo']

2009-11-18 14:50:26

其他回答

解决方案如下：

<?php
// here's the pattern:
$pattern = '/<(\w+)(\s+(\w+)\s*\=\s*(\'|")(.*?)\\4\s*)*\s*(\/>|>)/';

// a string to parse:
$string = 'Hello, try clicking <a href="#paragraph">here</a>
    <br/>and check out.<hr />
    <h2>title</h2>
    <a name ="paragraph" rel= "I\'m an anchor"></a>
    Fine, <span title=\'highlight the "punch"\'>thanks<span>.
    <div class = "clear"></div>
    <br>';

// let's get the occurrences:
preg_match_all($pattern, $string, $matches, PREG_PATTERN_ORDER);

// print the result:
print_r($matches[0]);
?>

为了深入测试，我输入了字符串自动关闭标记，如：

我还输入了标记：

一个属性多个属性值绑定到单引号或双引号的属性分隔符为双引号时包含单引号的属性，反之亦然在“=”符号之前、之后以及前后都有空格的“unputy”属性。

如果你在上面的概念证明中发现了不起作用的东西，我可以分析代码来提高我的技能。

<编辑>我忘记了用户的问题是避免解析自动关闭标签。在这种情况下，模式更简单，变为：

$pattern = '/<(\w+)(\s+(\w+)\s*\=\s*(\'|")(.*?)\\4\s*)*\s*>/';

用户@ridgerunner注意到，该模式不允许未加引号的属性或没有值的属性。在这种情况下，微调会带来以下模式：

$pattern = '/<(\w+)(\s+(\w+)(\s*\=\s*(\'|"|)(.*?)\\5\s*)?)*\s*>/';

</EDIT>

了解模式

如果有人有兴趣了解更多有关模式的信息，我会提供一些提示：

第一个子表达式（\w+）与标记名匹配第二个子表达式包含属性的模式。其组成如下：一个或多个空白区+属性的名称（\w+）零个或多个空格\s*（是否可能，此处留空）“=”符号同样，零个或多个空白属性值的分隔符，单引号或双引号（“|”）。在模式中，单引号被转义，因为它与PHP字符串分隔符重合。此子表达式用括号捕获，因此可以再次引用它来解析属性的闭包，这就是为什么它非常重要的原因。属性的值，几乎可以匹配：（.*？）；在这个特定的语法中，使用贪婪匹配（星号后面的问号），RegExp引擎启用了一个类似“向前看”的运算符，它匹配除此子表达式后面的内容以外的任何内容有趣的是：\4部分是一个backreference运算符，它指的是模式中之前定义的子表达式，在本例中，我指的是第四个子表达式，它是找到的第一个属性分隔符零个或多个空格*属性子表达式在这里结束，指定了零个或多个可能出现的事件，用星号表示。然后，由于标记可能以“>”符号之前的空白结尾，因此零个或更多的空白与\s*子模式匹配。要匹配的标记可能以一个简单的“>”符号结尾，也可能以XHTML闭包结尾，这使用了前面的斜杠：（/>|>）。当然，斜线是转义的，因为它与正则表达式分隔符重合。

小提示：为了更好地分析这段代码，有必要查看生成的源代码，因为我没有提供任何HTML特殊字符转义。

2011-07-25 14:35:59

我以前使用过一个名为HTMLParser的开源工具。它被设计为以各种方式解析HTML，并且很好地达到了目的。它可以将HTML解析为不同的树节点，您可以轻松地使用它的API从节点中获取属性。看看它，看看这对你有没有帮助。

2009-11-16 18:34:50

的确，在编程时，在处理HTML时，最好使用专用解析器和API，而不是正则表达式，尤其是在准确性至关重要的情况下（例如，如果您的处理可能涉及安全问题）。然而，我并不认为XML风格的标记永远不应该用正则表达式来处理。在某些情况下，正则表达式是一个很好的工具，例如在文本编辑器中进行一次性编辑，修复损坏的XML文件，或者处理看起来像但不太像XML的文件格式。有一些问题需要注意，但它们并非不可逾越，甚至不一定相关。

像<（[^>“']|”[^“]*”|'[^']*'）*>这样的简单正则表达式通常足够好，例如我刚才提到的那些情况。这是一个天真的解决方案，但它确实允许在属性值中使用未编码的>符号。如果您正在查找，例如，表标签，您可以将其调整为</？表\b（[^>“']|”[^“]*”|'[^']*'）*>。

为了了解更“高级”的HTML正则表达式会是什么样子，以下内容在模拟真实世界的浏览器行为和HTML5解析算法方面做了相当出色的工作：

</?([A-Za-z][^\s>/]*)(?:=\s*(?:"[^"]*"|'[^']*'|[^\s>]+)|[^>])*(?:>|$)

以下内容与相当严格的XML标记定义相匹配（尽管它没有考虑XML名称中允许的全部Unicode字符集）：

<(?:([_:A-Z][-.:\w]*)(?:\s+[_:A-Z][-.:\w]*\s*=\s*(?:"[^"]*"|'[^']*'))*\s*/?|/([_:A-Z][-.:\w]*)\s*)>

当然，这些不考虑周围的上下文和一些边缘情况，但如果您真的想处理这些问题（例如，通过在另一个正则表达式的匹配项之间进行搜索），也可以处理这些问题。

在一天结束时，使用最适合该作业的工具，即使该工具恰好是正则表达式。

2012-05-28 23:27:06

每当我需要从HTML文档中快速提取内容时，我都会使用Tidy将其转换为XML，然后使用XPath或XSLT来获取所需内容。在您的案例中，类似于：

//p/a[@href='foo']

2009-11-18 14:50:26

您希望第一个>前面不带/。请查看此处了解如何执行此操作的详细信息。这被称为消极的后顾。

然而，在这个示例文档中，这一天真的实现最终将与<bar/></foo>匹配

<foo><bar/></foo>

你能提供更多关于你试图解决的问题的信息吗？您是否以编程方式遍历标签？

2009-11-13 22:47:17

RegEx匹配除XHTML自包含标记之外的开放标记

推荐文章

最新文章

标签