RegEx匹配除XHTML自包含标记之外的开放标记

我需要匹配所有这些开头标记：

<p>
<a href="foo">

但不是这些：

<br />
<hr class="foo" />

我想出了这个，想确保我做得对。我只是在捕捉a-z。

<([a-z]+) *[^/]*?>

我相信上面写着：

找到一个小于，然后查找（并捕获）a-z一次或多次，然后找到零个或多个空格，然后查找任何字符零次或多次，贪婪，除了/，然后查找大于

我有这个权利吗？更重要的是，你怎么看？

当前回答

<([a-z][^>\s]*)(?:\s+[^>]+)?>

此正则表达式将匹配由单个单词（例如＜p＞、＜a＞等）组成的开头标记，后跟零个或多个空格和任意数量的字符（除了＞或空白），然后是结束>字符。它还会将标记与属性匹配，并且不会将标记与包含a-z以外字符的名称匹配。然而，它仍然不会匹配自动关闭标签。

2022-12-27 11:39:21

其他回答

Try:

<([^\s]+)(\s[^>]*?)?(?<!/)>

它与您的类似，但最后一个>不能在斜杠之后，也接受h1。

2009-11-13 22:50:48

无法使用正则表达式解析[X]HTML。因为正则表达式无法解析HTML。Regex不是一个可以用来正确解析HTML的工具。正如我之前多次在这里回答的HTML和正则表达式问题一样，正则表达式的使用不允许您使用HTML。正则表达式是一种不够复杂的工具，无法理解HTML所使用的构造。HTML不是一种正则语言，因此不能由正则表达式解析。Regex查询无法将HTML分解为有意义的部分。很多次，但我都不明白。即使是Perl使用的增强型不规则正则表达式，也无法完成解析HTML的任务。你永远不会让我崩溃。HTML是一种非常复杂的语言，它不能被正则表达式解析。甚至Jon Skeet也无法使用正则表达式解析HTML。每次你试图用正则表达式解析HTML时，这个邪恶的孩子都会痛哭流涕，而俄罗斯黑客则会在你的网络应用程序上进行攻击。用正则表达式解析HTML会将受污染的灵魂召唤到活人的领域。HTML和正则表达式就像爱情、婚姻和仪式性的杀婴。<center>无法保持它太晚了。正则表达式和HTML在同一概念空间中的合力会像水一样摧毁你的思想。如果你用正则表达式解析HTML，你就屈服于他们和他们的亵渎方式，这让我们所有人都要为一个名字无法在基本多语言平面中表达的人付出不人道的努力，他来了。HTML加正则表达式将使n当你观察时，你的心灵在恐惧的冲击中枯萎。基于x的HTML解析器是杀死StackOverflow的癌症，为时已晚，为时不晚，我们无法得救，因为一个chi͡ld的犯罪确保了regex将吞噬所有的活组织（除了它不能消耗的HTML，如前所预言的那样）亲爱的主，请帮助我们，任何人如何能在这场灾难中幸存下来，使用regex来解析HTML已经注定了人类将遭受永恒的可怕折磨使用正则表达式作为处理HTML的工具的安全漏洞在这个世界和c͒ͪo͛ͫ腐败实体（如SGML实体，但更腐败）的可怕领域之间建立了一个漏洞，这仅仅是对reg世界的一瞥用于HTML的ex解析器将他突然把一个程序员的意识带入了一个不断尖叫的世界，瘟疫般的slithy regex感染会我吞噬你的HTML解析器、应用程序和存在一直像Visual Basic一样，但更糟糕的是他来了，他来了就不来了对他来说s un̨hoğly radiańcé; destro҉ying all enli̍̈́س\836收紧，HTML标签lea͠ki̧n͘g fr ǫm̡yo͟我们的眼睛͢s̸̛l̕ik͏e liquid pain，re̸gular exp之歌压缩解析将退出用英语表达摩尔的声音来自sp的塔尔曼在这里我可以看到它，你可以看到它吗他终于揭穿了谎言人的全部都是LOS͖̩͇̗̪̏̈́T ALL I当他来的时候，他就失去了机会或渗透到我的脸上ᵒ天啊不不不O NΘ停止*̶͑̾̾ͫ͏̙̤g͛838̾ͫ;͇̫̑͆lot rȇͧ̌aͨl̘̝̙ͤ͂̾̆ZA̡͊͠LGΌISͮ;҉̛̯͈͕̹ͼ̱TO̶͇̺ͅƝȳ̳TH̘; Ë͖́̉\864 P͍̭O̚N̐Y̡Hͨ͊̽س̾̎801;̸̪̯E̾;̧̲̬͛ͪ̈́͘809;ͧ⁲̨̦̱̹̭̰C \877̙̝͖̏Oͮ͏7;͍M͊̒ͪ̚873; 876;Ỿ860;̲̖Ȇ∱̛̟͌S̨̥̫͎ͯ̿̔̀ͅ

您是否尝试过改用XML解析器？

主持人说明此帖子已锁定，以防止对其内容进行不当编辑。这篇文章看起来和它应该看起来完全一样——它的内容没有问题。请不要为我们的注意标记。

2009-11-13 23:04:30

RegEx匹配除XHTML自包含标记之外的开放标记跳过所有其他标记（和内容）。

这个正则表达式就是这样做的。如果您只需要匹配特定的Open标记，请列出一个列表替换（？：p | br |＜whatever tags you want＞）并替换[\w:]+构造在下面的适当位置。

https://regex101.com/r/uMvJn0/1

 # Mix html/xml     
 # https://regex101.com/r/uMvJn0/1     
 
 <
 (?:
    
    # Invisible content gets failed
    
    (?:
       (?:
                               # Invisible content; end tag req'd
          (                    # (1 start)
             script
           | style
           | object
           | embed
           | applet
           | noframes
           | noscript
           | noembed 
          )                    # (1 end)
          (?:
             \s+ 
             (?>
                " [\S\s]*? "
              | ' [\S\s]*? '
              | (?:
                   (?! /> )
                   [^>] 
                )?
             )+
          )?
          \s* >
       )
       
       [\S\s]*? </ \1 \s* 
       (?= > )
       (*SKIP)(*FAIL)
    )
    
  | 
    
    # This is any open html tag we will match
    
    (?:
       [\w:]+ \b 
       (?=
          (                    # (2 start)
             (?:
                " [\S\s]*? " 
              | ' [\S\s]*? ' 
              | [^>]? 
             )*
          )                    # (2 end)
          >
       )
       \2 
       (?<! / )
    )
    
  | 
    # All other tags get failed
    
    (?:
       (?: /? [\w:]+ \s* /? )
     | (?:
          [\w:]+ 
          \s+ 
          (?:
             " [\S\s]*? " 
           | ' [\S\s]*? ' 
           | [^>]? 
          )+
          \s* /?
       )
     | \? [\S\s]*? \?
     | (?:
          !
          (?:
             (?: DOCTYPE [\S\s]*? )
           | (?: \[CDATA\[ [\S\s]*? \]\] )
           | (?: -- [\S\s]*? -- )
           | (?: ATTLIST [\S\s]*? )
           | (?: ENTITY [\S\s]*? )
           | (?: ELEMENT [\S\s]*? )
          )
       )
    )
    (*SKIP)(*FAIL)
 )
 >

2020-10-01 18:55:20

虽然只有正则表达式的任意HTML是不可能的，但有时使用它们来解析一组有限的已知HTML是合适的。

如果您有一小组HTML页面，希望从中提取数据，然后将其填充到数据库中，正则表达式可能会很好地工作。例如，我最近想获得澳大利亚联邦代表的姓名、党派和选区，这是我从议会网站上得到的。这是一份有限的一次性工作。

Regexes对我来说很好，而且安装速度很快。

2009-11-14 06:27:19

我以前使用过一个名为HTMLParser的开源工具。它被设计为以各种方式解析HTML，并且很好地达到了目的。它可以将HTML解析为不同的树节点，您可以轻松地使用它的API从节点中获取属性。看看它，看看这对你有没有帮助。

2009-11-16 18:34:50

RegEx匹配除XHTML自包含标记之外的开放标记

推荐文章

最新文章

标签