RegEx匹配除XHTML自包含标记之外的开放标记

我需要匹配所有这些开头标记：

<p>
<a href="foo">

但不是这些：

<br />
<hr class="foo" />

我想出了这个，想确保我做得对。我只是在捕捉a-z。

<([a-z]+) *[^/]*?>

我相信上面写着：

找到一个小于，然后查找（并捕获）a-z一次或多次，然后找到零个或多个空格，然后查找任何字符零次或多次，贪婪，除了/，然后查找大于

我有这个权利吗？更重要的是，你怎么看？

当前回答

我不知道你对此的确切需求，但如果你也在使用.NET，你就不能使用Html Agility Pack吗？

摘录：

它是一个.NET代码库，允许您可以解析“网页外”HTML文件夹。解析器非常宽容具有“真实世界”格式错误的HTML。

2009-11-16 23:15:03

其他回答

下面是XML/XTML的PCRE正则表达式，它是根据简化的EBNF语法定义构建的：

/
(?(DEFINE)
(?<tag> (?&tagempty) | (?&tagopen) ((?&textnode) | (?&tag) | (?&comment))* (?&tagclose))
(?<tagunnested> (?&tagempty) | (?&tagopen) ((?&textnode) | (?&comment))* (?&tagclose))
(?<textnode> [^<>]+)
(?<comment> <!--([\s\S]*?)-->)
(?<tagopen> < (?&tagname) (?&attrlist)? (?&ws)* >)
(?<tagempty> < (?&tagname) (?&ws)* (?&attrlist)? (?&ws)* \/>)
(?<tagclose> <\/ (?&tagname) (?&ws)* >)
(?<attrlist> ((?&ws)+ (?&attr))+)
(?<attr> (?&attrunquoted) | (?&attrsinglequoted) | (?&attrdoublequoted) | (?&attrempty))
(?<attrempty> (?&attrname))
(?<attrunquoted> (?&attrname) (?&ws)* = (?&ws)* (?&attrunquotedvalue))
(?<attrsinglequoted> (?&attrname) (?&ws)* = (?&ws)* ' (?&attrsinglequotedvalue) ')
(?<attrdoublequoted> (?&attrname) (?&ws)* = (?&ws)* " (?&attrdoublequotedvalue) ")
(?<tagname> (?&alphabets) ((?&alphabets) | (?&digits))*)
(?<attrname>(?&alphabets)+((?&alphabets)|(?&digits)|[:-]) )
(?<attrunquotedvalue> [^\s"'=<>`]+)
(?<attrsinglequotedvalue> [^']+)
(?<attrdoublequotedvalue> [^"]+)
(?<alphabets> [a-zA-Z])
(?<digits> [0-9])
(?<ws> \s)
)
(?&tagopen)
/x

这说明了如何为上下文无关语法构建正则表达式。您可以通过将最后一行的匹配从（？&tagopen）更改为例如（？&tagunnested）来匹配定义的其他部分

真正的问题是：你应该这样做吗？

对于XML/XTML，共识是否定的！

感谢尼基奇提供了这个想法。

2020-06-04 02:20:16

<([a-z][^>\s]*)(?:\s+[^>]+)?>

此正则表达式将匹配由单个单词（例如＜p＞、＜a＞等）组成的开头标记，后跟零个或多个空格和任意数量的字符（除了＞或空白），然后是结束>字符。它还会将标记与属性匹配，并且不会将标记与包含a-z以外字符的名称匹配。然而，它仍然不会匹配自动关闭标签。

2022-12-27 11:39:21

如果您只是试图查找这些标记（没有解析的野心），请尝试以下正则表达式：

/<[^/]*?>/g

我在30秒内写下了它，并在这里进行了测试：http://gskinner.com/RegExr/

它匹配您提到的标记类型，而忽略您所说的要忽略的类型。

2012-06-01 05:13:26

我不知道你对此的确切需求，但如果你也在使用.NET，你就不能使用Html Agility Pack吗？

摘录：

它是一个.NET代码库，允许您可以解析“网页外”HTML文件夹。解析器非常宽容具有“真实世界”格式错误的HTML。

2009-11-16 23:15:03

的确，在编程时，在处理HTML时，最好使用专用解析器和API，而不是正则表达式，尤其是在准确性至关重要的情况下（例如，如果您的处理可能涉及安全问题）。然而，我并不认为XML风格的标记永远不应该用正则表达式来处理。在某些情况下，正则表达式是一个很好的工具，例如在文本编辑器中进行一次性编辑，修复损坏的XML文件，或者处理看起来像但不太像XML的文件格式。有一些问题需要注意，但它们并非不可逾越，甚至不一定相关。

像<（[^>“']|”[^“]*”|'[^']*'）*>这样的简单正则表达式通常足够好，例如我刚才提到的那些情况。这是一个天真的解决方案，但它确实允许在属性值中使用未编码的>符号。如果您正在查找，例如，表标签，您可以将其调整为</？表\b（[^>“']|”[^“]*”|'[^']*'）*>。

为了了解更“高级”的HTML正则表达式会是什么样子，以下内容在模拟真实世界的浏览器行为和HTML5解析算法方面做了相当出色的工作：

</?([A-Za-z][^\s>/]*)(?:=\s*(?:"[^"]*"|'[^']*'|[^\s>]+)|[^>])*(?:>|$)

以下内容与相当严格的XML标记定义相匹配（尽管它没有考虑XML名称中允许的全部Unicode字符集）：

<(?:([_:A-Z][-.:\w]*)(?:\s+[_:A-Z][-.:\w]*\s*=\s*(?:"[^"]*"|'[^']*'))*\s*/?|/([_:A-Z][-.:\w]*)\s*)>

当然，这些不考虑周围的上下文和一些边缘情况，但如果您真的想处理这些问题（例如，通过在另一个正则表达式的匹配项之间进行搜索），也可以处理这些问题。

在一天结束时，使用最适合该作业的工具，即使该工具恰好是正则表达式。

2012-05-28 23:27:06

RegEx匹配除XHTML自包含标记之外的开放标记

推荐文章

最新文章

标签