RegEx匹配除XHTML自包含标记之外的开放标记

我需要匹配所有这些开头标记：

<p>
<a href="foo">

但不是这些：

<br />
<hr class="foo" />

我想出了这个，想确保我做得对。我只是在捕捉a-z。

<([a-z]+) *[^/]*?>

我相信上面写着：

找到一个小于，然后查找（并捕获）a-z一次或多次，然后找到零个或多个空格，然后查找任何字符零次或多次，贪婪，除了/，然后查找大于

我有这个权利吗？更重要的是，你怎么看？

当前回答

Try:

<([^\s]+)(\s[^>]*?)?(?<!/)>

它与您的类似，但最后一个>不能在斜杠之后，也接受h1。

2009-11-13 22:50:48

其他回答

在我看来，你试图匹配结尾没有“/”的标签。试试看：

<([a-zA-Z][a-zA-Z0-9]*)[^>]*(?<!/)>

2009-11-15 17:13:19

正如许多人已经指出的那样，HTML不是一种常规语言，这会使解析变得非常困难。我的解决方案是使用整洁的程序将其转换为常规语言，然后使用XML解析器来使用结果。有很多好的选择。我的程序使用Java和jtidy库编写，将HTML转换为XML，然后Jaxen将其展开为结果。

2010-02-04 16:22:00

的确，在编程时，在处理HTML时，最好使用专用解析器和API，而不是正则表达式，尤其是在准确性至关重要的情况下（例如，如果您的处理可能涉及安全问题）。然而，我并不认为XML风格的标记永远不应该用正则表达式来处理。在某些情况下，正则表达式是一个很好的工具，例如在文本编辑器中进行一次性编辑，修复损坏的XML文件，或者处理看起来像但不太像XML的文件格式。有一些问题需要注意，但它们并非不可逾越，甚至不一定相关。

像<（[^>“']|”[^“]*”|'[^']*'）*>这样的简单正则表达式通常足够好，例如我刚才提到的那些情况。这是一个天真的解决方案，但它确实允许在属性值中使用未编码的>符号。如果您正在查找，例如，表标签，您可以将其调整为</？表\b（[^>“']|”[^“]*”|'[^']*'）*>。

为了了解更“高级”的HTML正则表达式会是什么样子，以下内容在模拟真实世界的浏览器行为和HTML5解析算法方面做了相当出色的工作：

</?([A-Za-z][^\s>/]*)(?:=\s*(?:"[^"]*"|'[^']*'|[^\s>]+)|[^>])*(?:>|$)

以下内容与相当严格的XML标记定义相匹配（尽管它没有考虑XML名称中允许的全部Unicode字符集）：

<(?:([_:A-Z][-.:\w]*)(?:\s+[_:A-Z][-.:\w]*\s*=\s*(?:"[^"]*"|'[^']*'))*\s*/?|/([_:A-Z][-.:\w]*)\s*)>

当然，这些不考虑周围的上下文和一些边缘情况，但如果您真的想处理这些问题（例如，通过在另一个正则表达式的匹配项之间进行搜索），也可以处理这些问题。

在一天结束时，使用最适合该作业的工具，即使该工具恰好是正则表达式。

2012-05-28 23:27:06

关于解析（x）HTML的正则表达式方法的问题，所有提到一些限制的人的答案都是：你没有受过足够的训练来统治这一强大武器的力量，因为这里没有人谈到递归。

一位正则表达式不可知论的同事通知了我这次讨论，这肯定不是网络上第一次讨论这个古老而热门的话题。

在阅读了一些帖子后，我做的第一件事就是在这个线程中查找“？R”字符串。第二个是搜索“递归”。

不，天哪，找不到火柴。由于没有人提到解析器构建的主要机制，我很快就意识到没有人理解这一点。

如果（x）HTML解析器需要递归，那么仅使用没有递归的正则表达式解析器是不够的。这是一个简单的构造。

正则表达式的黑色艺术很难掌握，因此，在尝试和测试我们的个人解决方案以一手掌握整个网络时，我们可能还遗漏了其他可能性。。。嗯，我很确定：）

这是一个神奇的模式：

$pattern = "/<([\w]+)([^>]*?)(([\s]*\/>)|(>((([^<]*?|<\!\-\-.*?\-\->)|(?R))*)<\/\\1[\s]*>))/s";

试试看。它是以PHP字符串形式编写的，所以“s”修饰符使类包含换行符。

下面是我在一月份编写的PHP手册的示例注释：参考

（注意。在那个注释中，我错误地使用了“m”修饰符；它应该被删除，尽管它被正则表达式引擎丢弃，因为没有使用^或$锚定）。

现在，我们可以从一个更明智的角度来讨论这种方法的局限性：

根据正则表达式引擎的具体实现，递归在解析嵌套模式的数量上可能有限制，但这取决于所使用的语言尽管已损坏，（x）HTML不会导致严重错误。它没有经过消毒。

无论如何，它只是一个正则表达式模式，但它揭示了开发许多强大实现的可能性。

我编写这个模式是为了支持我在框架中构建的模板引擎的递归下降解析器，无论是在执行时间还是在内存使用方面，性能都非常出色（与使用相同语法的其他模板引擎无关）。

2010-07-05 14:16:50

在shell中，可以使用sed解析HTML：

图灵.sed编写HTML解析器（作业）???利润

相关（为什么不应该使用正则表达式匹配）：

如果你这么喜欢正则表达式，为什么不嫁给它们？正则表达式：现在有两个问题黑客攻击stackoverflow.com的HTML清理器

2010-02-15 00:55:24

RegEx匹配除XHTML自包含标记之外的开放标记

推荐文章

最新文章

标签