RegEx匹配除XHTML自包含标记之外的开放标记

我需要匹配所有这些开头标记：

<p>
<a href="foo">

但不是这些：

<br />
<hr class="foo" />

我想出了这个，想确保我做得对。我只是在捕捉a-z。

<([a-z]+) *[^/]*?>

我相信上面写着：

找到一个小于，然后查找（并捕获）a-z一次或多次，然后找到零个或多个空格，然后查找任何字符零次或多次，贪婪，除了/，然后查找大于

我有这个权利吗？更重要的是，你怎么看？

当前回答

<\s*(\w+)[^/>]*>

各部分解释如下：

<：起始字符

\s*：标签名称前可能有空格（难看，但可能）。

（\w+）：标记可以包含字母和数字（h1）。嗯，w也与“_”匹配，但我想它不会伤害你。如果好奇，请改用（[a-zA-Z0-9]+）。

[^/>]*：除了>和/直到关闭>

>：关闭>

不相关的

对于那些低估了正则表达式的人来说，他们说正则表达式的功能和正则语言一样强大：

anbanban不是规则的，甚至不是上下文无关的，可以与^（a+）b\1b\1匹配$

反向引用FTW！

其他回答

如果您只是试图查找这些标记（没有解析的野心），请尝试以下正则表达式：

/<[^/]*?>/g

我在30秒内写下了它，并在这里进行了测试：http://gskinner.com/RegExr/

它匹配您提到的标记类型，而忽略您所说的要忽略的类型。

我以前使用过一个名为HTMLParser的开源工具。它被设计为以各种方式解析HTML，并且很好地达到了目的。它可以将HTML解析为不同的树节点，您可以轻松地使用它的API从节点中获取属性。看看它，看看这对你有没有帮助。

我建议在PHP中使用QueryPath解析XML和HTML。它的语法与jQuery基本相同，只是在服务器端。

如果您只需要标记名，那么应该可以通过正则表达式执行此操作。

<([a-zA-Z]+)(?:[^>]*[^/] *)?>

应该做你需要的事。但我认为“莫里茨”的解决方案已经很好了。我一开始没看到。

对于所有反对者：在某些情况下，使用正则表达式是有意义的，因为这可能是最简单、最快捷的解决方案。我同意一般情况下不应该用正则表达式解析HTML。

但是当你有一个HTML子集，你知道格式并且你只想提取一些值时，正则表达式可以是一个非常强大的工具。我这样做了数百次，几乎总是达到我想要的目的。

每当我需要从HTML文档中快速提取内容时，我都会使用Tidy将其转换为XML，然后使用XPath或XSLT来获取所需内容。在您的案例中，类似于：

//p/a[@href='foo']

推荐文章