RegEx匹配除XHTML自包含标记之外的开放标记

我需要匹配所有这些开头标记：

<p>
<a href="foo">

但不是这些：

<br />
<hr class="foo" />

我想出了这个，想确保我做得对。我只是在捕捉a-z。

<([a-z]+) *[^/]*?>

我相信上面写着：

找到一个小于，然后查找（并捕获）a-z一次或多次，然后找到零个或多个空格，然后查找任何字符零次或多次，贪婪，除了/，然后查找大于

我有这个权利吗？更重要的是，你怎么看？

当前回答

关于解析（x）HTML的正则表达式方法的问题，所有提到一些限制的人的答案都是：你没有受过足够的训练来统治这一强大武器的力量，因为这里没有人谈到递归。

一位正则表达式不可知论的同事通知了我这次讨论，这肯定不是网络上第一次讨论这个古老而热门的话题。

在阅读了一些帖子后，我做的第一件事就是在这个线程中查找“？R”字符串。第二个是搜索“递归”。

不，天哪，找不到火柴。由于没有人提到解析器构建的主要机制，我很快就意识到没有人理解这一点。

如果（x）HTML解析器需要递归，那么仅使用没有递归的正则表达式解析器是不够的。这是一个简单的构造。

正则表达式的黑色艺术很难掌握，因此，在尝试和测试我们的个人解决方案以一手掌握整个网络时，我们可能还遗漏了其他可能性。。。嗯，我很确定：）

这是一个神奇的模式：

$pattern = "/<([\w]+)([^>]*?)(([\s]*\/>)|(>((([^<]*?|<\!\-\-.*?\-\->)|(?R))*)<\/\\1[\s]*>))/s";

试试看。它是以PHP字符串形式编写的，所以“s”修饰符使类包含换行符。

下面是我在一月份编写的PHP手册的示例注释：参考

（注意。在那个注释中，我错误地使用了“m”修饰符；它应该被删除，尽管它被正则表达式引擎丢弃，因为没有使用^或$锚定）。

现在，我们可以从一个更明智的角度来讨论这种方法的局限性：

根据正则表达式引擎的具体实现，递归在解析嵌套模式的数量上可能有限制，但这取决于所使用的语言尽管已损坏，（x）HTML不会导致严重错误。它没有经过消毒。

无论如何，它只是一个正则表达式模式，但它揭示了开发许多强大实现的可能性。

我编写这个模式是为了支持我在框架中构建的模板引擎的递归下降解析器，无论是在执行时间还是在内存使用方面，性能都非常出色（与使用相同语法的其他模板引擎无关）。

2010-07-05 14:16:50

其他回答

如果您只是试图查找这些标记（没有解析的野心），请尝试以下正则表达式：

/<[^/]*?>/g

我在30秒内写下了它，并在这里进行了测试：http://gskinner.com/RegExr/

它匹配您提到的标记类型，而忽略您所说的要忽略的类型。

2012-06-01 05:13:26

中国古代军事家、将军和哲学家孙子说过：

据说，如果你了解你的敌人，了解你自己，你可以赢得百战百胜，而不会一败涂地。如果你只了解自己，而不了解对手，你可能会赢，也可能会输。如果你既不了解你自己也不了解你的敌人，你将永远危及自己。

在这种情况下，你的敌人是HTML，你要么是你自己，要么是正则表达式。您甚至可能是带有不规则正则表达式的Perl。了解HTML。了解自己。

我写了一首描述HTML本质的俳句。

HTML has
complexity exceeding
regular language.

我还写了一首俳句，描述Perl中正则表达式的性质。

The regex you seek
is defined within the phrase
<([a-zA-Z]+)(?:[^>]*[^/]*)?>

2012-05-17 10:13:03

无法使用正则表达式解析[X]HTML。因为正则表达式无法解析HTML。Regex不是一个可以用来正确解析HTML的工具。正如我之前多次在这里回答的HTML和正则表达式问题一样，正则表达式的使用不允许您使用HTML。正则表达式是一种不够复杂的工具，无法理解HTML所使用的构造。HTML不是一种正则语言，因此不能由正则表达式解析。Regex查询无法将HTML分解为有意义的部分。很多次，但我都不明白。即使是Perl使用的增强型不规则正则表达式，也无法完成解析HTML的任务。你永远不会让我崩溃。HTML是一种非常复杂的语言，它不能被正则表达式解析。甚至Jon Skeet也无法使用正则表达式解析HTML。每次你试图用正则表达式解析HTML时，这个邪恶的孩子都会痛哭流涕，而俄罗斯黑客则会在你的网络应用程序上进行攻击。用正则表达式解析HTML会将受污染的灵魂召唤到活人的领域。HTML和正则表达式就像爱情、婚姻和仪式性的杀婴。<center>无法保持它太晚了。正则表达式和HTML在同一概念空间中的合力会像水一样摧毁你的思想。如果你用正则表达式解析HTML，你就屈服于他们和他们的亵渎方式，这让我们所有人都要为一个名字无法在基本多语言平面中表达的人付出不人道的努力，他来了。HTML加正则表达式将使n当你观察时，你的心灵在恐惧的冲击中枯萎。基于x的HTML解析器是杀死StackOverflow的癌症，为时已晚，为时不晚，我们无法得救，因为一个chi͡ld的犯罪确保了regex将吞噬所有的活组织（除了它不能消耗的HTML，如前所预言的那样）亲爱的主，请帮助我们，任何人如何能在这场灾难中幸存下来，使用regex来解析HTML已经注定了人类将遭受永恒的可怕折磨使用正则表达式作为处理HTML的工具的安全漏洞在这个世界和c͒ͪo͛ͫ腐败实体（如SGML实体，但更腐败）的可怕领域之间建立了一个漏洞，这仅仅是对reg世界的一瞥用于HTML的ex解析器将他突然把一个程序员的意识带入了一个不断尖叫的世界，瘟疫般的slithy regex感染会我吞噬你的HTML解析器、应用程序和存在一直像Visual Basic一样，但更糟糕的是他来了，他来了就不来了对他来说s un̨hoğly radiańcé; destro҉ying all enli̍̈́س\836收紧，HTML标签lea͠ki̧n͘g fr ǫm̡yo͟我们的眼睛͢s̸̛l̕ik͏e liquid pain，re̸gular exp之歌压缩解析将退出用英语表达摩尔的声音来自sp的塔尔曼在这里我可以看到它，你可以看到它吗他终于揭穿了谎言人的全部都是LOS͖̩͇̗̪̏̈́T ALL I当他来的时候，他就失去了机会或渗透到我的脸上ᵒ天啊不不不O NΘ停止*̶͑̾̾ͫ͏̙̤g͛838̾ͫ;͇̫̑͆lot rȇͧ̌aͨl̘̝̙ͤ͂̾̆ZA̡͊͠LGΌISͮ;҉̛̯͈͕̹ͼ̱TO̶͇̺ͅƝȳ̳TH̘; Ë͖́̉\864 P͍̭O̚N̐Y̡Hͨ͊̽س̾̎801;̸̪̯E̾;̧̲̬͛ͪ̈́͘809;ͧ⁲̨̦̱̹̭̰C \877̙̝͖̏Oͮ͏7;͍M͊̒ͪ̚873; 876;Ỿ860;̲̖Ȇ∱̛̟͌S̨̥̫͎ͯ̿̔̀ͅ

您是否尝试过改用XML解析器？

主持人说明此帖子已锁定，以防止对其内容进行不当编辑。这篇文章看起来和它应该看起来完全一样——它的内容没有问题。请不要为我们的注意标记。

2009-11-13 23:04:30

一位正则表达式不可知论的同事通知了我这次讨论，这肯定不是网络上第一次讨论这个古老而热门的话题。

在阅读了一些帖子后，我做的第一件事就是在这个线程中查找“？R”字符串。第二个是搜索“递归”。

不，天哪，找不到火柴。由于没有人提到解析器构建的主要机制，我很快就意识到没有人理解这一点。

如果（x）HTML解析器需要递归，那么仅使用没有递归的正则表达式解析器是不够的。这是一个简单的构造。

这是一个神奇的模式：

$pattern = "/<([\w]+)([^>]*?)(([\s]*\/>)|(>((([^<]*?|<\!\-\-.*?\-\->)|(?R))*)<\/\\1[\s]*>))/s";

试试看。它是以PHP字符串形式编写的，所以“s”修饰符使类包含换行符。

下面是我在一月份编写的PHP手册的示例注释：参考

（注意。在那个注释中，我错误地使用了“m”修饰符；它应该被删除，尽管它被正则表达式引擎丢弃，因为没有使用^或$锚定）。

现在，我们可以从一个更明智的角度来讨论这种方法的局限性：

无论如何，它只是一个正则表达式模式，但它揭示了开发许多强大实现的可能性。

2010-07-05 14:16:50

OP似乎没有说他需要用标签做什么。例如，他需要提取内部文本，还是只检查标签？

我坚定地认为正则表达式不是万能的文本解析器。我已经编写了大量的文本解析代码，包括用于解析HTML标记的代码。

虽然我确实对正则表达式不太在行，但我认为正则表达式太死板，很难维护这种解析。

2011-03-06 12:38:47

RegEx匹配除XHTML自包含标记之外的开放标记

推荐文章

最新文章

标签