RegEx匹配除XHTML自包含标记之外的开放标记

我需要匹配所有这些开头标记：

<p>
<a href="foo">

但不是这些：

<br />
<hr class="foo" />

我想出了这个，想确保我做得对。我只是在捕捉a-z。

<([a-z]+) *[^/]*?>

我相信上面写着：

找到一个小于，然后查找（并捕获）a-z一次或多次，然后找到零个或多个空格，然后查找任何字符零次或多次，贪婪，除了/，然后查找大于

我有这个权利吗？更重要的是，你怎么看？

当前回答

我认为这里的缺陷是HTML是Chomsky Type 2语法（上下文无关语法），正则表达式是ChomskyType 3语法（正则语法）。由于第2类语法从根本上比第3类语法更复杂（请参见乔姆斯基层次结构），因此不可能实现这一点。

但很多人会尝试，有些人甚至会声称成功，但直到其他人发现错误并将你彻底搞砸。

其他回答

虽然只有正则表达式的任意HTML是不可能的，但有时使用它们来解析一组有限的已知HTML是合适的。

如果您有一小组HTML页面，希望从中提取数据，然后将其填充到数据库中，正则表达式可能会很好地工作。例如，我最近想获得澳大利亚联邦代表的姓名、党派和选区，这是我从议会网站上得到的。这是一份有限的一次性工作。

Regexes对我来说很好，而且安装速度很快。

在我看来，你试图匹配结尾没有“/”的标签。试试看：

<([a-zA-Z][a-zA-Z0-9]*)[^>]*(?<!/)>

<([a-z][^>\s]*)(?:\s+[^>]+)?>

此正则表达式将匹配由单个单词（例如＜p＞、＜a＞等）组成的开头标记，后跟零个或多个空格和任意数量的字符（除了＞或空白），然后是结束>字符。它还会将标记与属性匹配，并且不会将标记与包含a-z以外字符的名称匹配。然而，它仍然不会匹配自动关闭标签。

您希望第一个>前面不带/。请查看此处了解如何执行此操作的详细信息。这被称为消极的后顾。

然而，在这个示例文档中，这一天真的实现最终将与<bar/></foo>匹配

<foo><bar/></foo>

你能提供更多关于你试图解决的问题的信息吗？您是否以编程方式遍历标签？

如果您只是试图查找这些标记（没有解析的野心），请尝试以下正则表达式：

/<[^/]*?>/g

我在30秒内写下了它，并在这里进行了测试：http://gskinner.com/RegExr/

它匹配您提到的标记类型，而忽略您所说的要忽略的类型。

推荐文章