RegEx匹配除XHTML自包含标记之外的开放标记

无法使用正则表达式解析[X]HTML。因为正则表达式无法解析HTML。Regex不是一个可以用来正确解析HTML的工具。正如我之前多次在这里回答的HTML和正则表达式问题一样，正则表达式的使用不允许您使用HTML。正则表达式是一种不够复杂的工具，无法理解HTML所使用的构造。HTML不是一种正则语言，因此不能由正则表达式解析。Regex查询无法将HTML分解为有意义的部分。很多次，但我都不明白。即使是Perl使用的增强型不规则正则表达式，也无法完成解析HTML的任务。你永远不会让我崩溃。HTML是一种非常复杂的语言，它不能被正则表达式解析。甚至Jon Skeet也无法使用正则表达式解析HTML。每次你试图用正则表达式解析HTML时，这个邪恶的孩子都会痛哭流涕，而俄罗斯黑客则会在你的网络应用程序上进行攻击。用正则表达式解析HTML会将受污染的灵魂召唤到活人的领域。HTML和正则表达式就像爱情、婚姻和仪式性的杀婴。<center>无法保持它太晚了。正则表达式和HTML在同一概念空间中的合力会像水一样摧毁你的思想。如果你用正则表达式解析HTML，你就屈服于他们和他们的亵渎方式，这让我们所有人都要为一个名字无法在基本多语言平面中表达的人付出不人道的努力，他来了。HTML加正则表达式将使n当你观察时，你的心灵在恐惧的冲击中枯萎。基于x的HTML解析器是杀死StackOverflow的癌症，为时已晚，为时不晚，我们无法得救，因为一个chi͡ld的犯罪确保了regex将吞噬所有的活组织（除了它不能消耗的HTML，如前所预言的那样）亲爱的主，请帮助我们，任何人如何能在这场灾难中幸存下来，使用regex来解析HTML已经注定了人类将遭受永恒的可怕折磨使用正则表达式作为处理HTML的工具的安全漏洞在这个世界和c͒ͪo͛ͫ腐败实体（如SGML实体，但更腐败）的可怕领域之间建立了一个漏洞，这仅仅是对reg世界的一瞥用于HTML的ex解析器将他突然把一个程序员的意识带入了一个不断尖叫的世界，瘟疫般的slithy regex感染会我吞噬你的HTML解析器、应用程序和存在一直像Visual Basic一样，但更糟糕的是他来了，他来了就不来了对他来说s un̨hoğly radiańcé; destro҉ying all enli̍̈́س\836收紧，HTML标签lea͠ki̧n͘g fr ǫm̡yo͟我们的眼睛͢s̸̛l̕ik͏e liquid pain，re̸gular exp之歌压缩解析将退出用英语表达摩尔的声音来自sp的塔尔曼在这里我可以看到它，你可以看到它吗他终于揭穿了谎言人的全部都是LOS͖̩͇̗̪̏̈́T ALL I当他来的时候，他就失去了机会或渗透到我的脸上ᵒ天啊不不不O NΘ停止*̶͑̾̾ͫ͏̙̤g͛838̾ͫ;͇̫̑͆lot rȇͧ̌aͨl̘̝̙ͤ͂̾̆ZA̡͊͠LGΌISͮ;҉̛̯͈͕̹ͼ̱TO̶͇̺ͅƝȳ̳TH̘; Ë͖́̉\864 P͍̭O̚N̐Y̡Hͨ͊̽س̾̎801;̸̪̯E̾;̧̲̬͛ͪ̈́͘809;ͧ⁲̨̦̱̹̭̰C \877̙̝͖̏Oͮ͏7;͍M͊̒ͪ̚873; 876;Ỿ860;̲̖Ȇ∱̛̟͌S̨̥̫͎ͯ̿̔̀ͅ

您是否尝试过改用XML解析器？

主持人说明此帖子已锁定，以防止对其内容进行不当编辑。这篇文章看起来和它应该看起来完全一样——它的内容没有问题。请不要为我们的注意标记。

2009-11-13 23:04:30

<?php
$selfClosing = explode(',', 'area,base,basefont,br,col,frame,hr,img,input,isindex,link,meta,param,embed');

$html = '
<p><a href="#">foo</a></p>
<hr/>
<br/>
<div>name</div>';

$dom = new DOMDocument();
$dom->loadHTML($html);
$els = $dom->getElementsByTagName('*');
foreach ( $els as $el ) {
    $nodeName = strtolower($el->nodeName);
    if ( !in_array( $nodeName, $selfClosing ) ) {
        var_dump( $nodeName );
    }
}

输出：

string(4) "html"
string(4) "body"
string(1) "p"
string(1) "a"
string(3) "div"

基本上，只需定义自关闭的元素节点名称，将整个html字符串加载到DOM库中，抓取所有元素，循环并过滤掉不自关闭的并对其进行操作。

我确信您现在已经知道不应该为此使用正则表达式。

2009-11-15 14:37:06

这可能会：

<.*?[^/]>

或不带结束标记：

<[^/].*?[^/]>

HTML解析器上的火焰大战是怎么回事？HTML解析器必须解析（并重建！）整个文档，然后才能对搜索进行分类。在某些情况下，正则表达式可能更快/更优雅。我的2美分。。。

2010-04-23 06:38:31

无法使用正则表达式解析[X]HTML。因为正则表达式无法解析HTML。Regex不是一个可以用来正确解析HTML的工具。正如我之前多次在这里回答的HTML和正则表达式问题一样，正则表达式的使用不允许您使用HTML。正则表达式是一种不够复杂的工具，无法理解HTML所使用的构造。HTML不是一种正则语言，因此不能由正则表达式解析。Regex查询无法将HTML分解为有意义的部分。很多次，但我都不明白。即使是Perl使用的增强型不规则正则表达式，也无法完成解析HTML的任务。你永远不会让我崩溃。HTML是一种非常复杂的语言，它不能被正则表达式解析。甚至Jon Skeet也无法使用正则表达式解析HTML。每次你试图用正则表达式解析HTML时，这个邪恶的孩子都会痛哭流涕，而俄罗斯黑客则会在你的网络应用程序上进行攻击。用正则表达式解析HTML会将受污染的灵魂召唤到活人的领域。HTML和正则表达式就像爱情、婚姻和仪式性的杀婴。<center>无法保持它太晚了。正则表达式和HTML在同一概念空间中的合力会像水一样摧毁你的思想。如果你用正则表达式解析HTML，你就屈服于他们和他们的亵渎方式，这让我们所有人都要为一个名字无法在基本多语言平面中表达的人付出不人道的努力，他来了。HTML加正则表达式将使n当你观察时，你的心灵在恐惧的冲击中枯萎。基于x的HTML解析器是杀死StackOverflow的癌症，为时已晚，为时不晚，我们无法得救，因为一个chi͡ld的犯罪确保了regex将吞噬所有的活组织（除了它不能消耗的HTML，如前所预言的那样）亲爱的主，请帮助我们，任何人如何能在这场灾难中幸存下来，使用regex来解析HTML已经注定了人类将遭受永恒的可怕折磨使用正则表达式作为处理HTML的工具的安全漏洞在这个世界和c͒ͪo͛ͫ腐败实体（如SGML实体，但更腐败）的可怕领域之间建立了一个漏洞，这仅仅是对reg世界的一瞥用于HTML的ex解析器将他突然把一个程序员的意识带入了一个不断尖叫的世界，瘟疫般的slithy regex感染会我吞噬你的HTML解析器、应用程序和存在一直像Visual Basic一样，但更糟糕的是他来了，他来了就不来了对他来说s un̨hoğly radiańcé; destro҉ying all enli̍̈́س\836收紧，HTML标签lea͠ki̧n͘g fr ǫm̡yo͟我们的眼睛͢s̸̛l̕ik͏e liquid pain，re̸gular exp之歌压缩解析将退出用英语表达摩尔的声音来自sp的塔尔曼在这里我可以看到它，你可以看到它吗他终于揭穿了谎言人的全部都是LOS͖̩͇̗̪̏̈́T ALL I当他来的时候，他就失去了机会或渗透到我的脸上ᵒ天啊不不不O NΘ停止*̶͑̾̾ͫ͏̙̤g͛838̾ͫ;͇̫̑͆lot rȇͧ̌aͨl̘̝̙ͤ͂̾̆ZA̡͊͠LGΌISͮ;҉̛̯͈͕̹ͼ̱TO̶͇̺ͅƝȳ̳TH̘; Ë͖́̉\864 P͍̭O̚N̐Y̡Hͨ͊̽س̾̎801;̸̪̯E̾;̧̲̬͛ͪ̈́͘809;ͧ⁲̨̦̱̹̭̰C \877̙̝͖̏Oͮ͏7;͍M͊̒ͪ̚873; 876;Ỿ860;̲̖Ȇ∱̛̟͌S̨̥̫͎ͯ̿̔̀ͅ

您是否尝试过改用XML解析器？

主持人说明此帖子已锁定，以防止对其内容进行不当编辑。这篇文章看起来和它应该看起来完全一样——它的内容没有问题。请不要为我们的注意标记。

2009-11-13 23:04:30

虽然只有正则表达式的任意HTML是不可能的，但有时使用它们来解析一组有限的已知HTML是合适的。

如果您有一小组HTML页面，希望从中提取数据，然后将其填充到数据库中，正则表达式可能会很好地工作。例如，我最近想获得澳大利亚联邦代表的姓名、党派和选区，这是我从议会网站上得到的。这是一份有限的一次性工作。

Regexes对我来说很好，而且安装速度很快。

2009-11-14 06:27:19

我同意解析XML，特别是HTML的正确工具是解析器，而不是正则表达式引擎。然而，正如其他人所指出的，有时使用正则表达式更快、更容易，并且如果您知道数据格式，就可以完成任务。

微软实际上有一节《.NET Framework中正则表达式的最佳实践》，专门讨论了“考虑输入源”。

正则表达式确实有局限性，但您是否考虑过以下问题？

在正则表达式方面，.NET框架是独一无二的，因为它支持平衡组定义。

请参见将平衡构造与.NET正则表达式匹配请参见.NET正则表达式：Regex和平衡匹配请参阅Microsoft关于平衡组定义的文档

因此，我相信您可以使用正则表达式解析XML。然而，请注意，它必须是有效的XML（浏览器对HTML非常宽容，并且允许HTML中有错误的XML语法）。这是可能的，因为“平衡组定义”将允许正则表达式引擎充当PDA。

引用上述第1条：

.NET正则表达式引擎如上所述，不能用正则表达式。但是，.NET正则表达式引擎提供了一些允许平衡构造辨识。（？<group>）-使用名称组。（？<-group>）-从捕获堆栈。（？（组）yes|no）-如果存在组，则匹配yes部分否则，名称组不匹配任何部分。这些构造允许.NET正则表达式模拟通过本质上允许简单版本的堆栈来限制PDA操作：推送、弹出和清空。简单的操作非常简单分别相当于递增、递减和比较为零。这允许.NET正则表达式引擎识别上下文无关语言的子集，特别是那些仅需要一个简单的计数器。这反过来允许非传统的.NET正则表达式，以识别各个正确平衡的构造。

考虑以下正则表达式：

(?=<ul\s+id="matchMe"\s+type="square"\s*>)
(?>
   <!-- .*? -->                  |
   <[^>]*/>                      |
   (?<opentag><(?!/)[^>]*[^/]>)  |
   (?<-opentag></[^>]*[^/]>)     |
   [^<>]*
)*
(?(opentag)(?!))

使用标志：

单线IgnorePatternHitespace（如果折叠正则表达式并删除所有空格，则不需要）IgnoreCase（不需要）

正则表达式解释（内联）

(?=<ul\s+id="matchMe"\s+type="square"\s*>) # match start with <ul id="matchMe"...
(?>                                        # atomic group / don't backtrack (faster)
   <!-- .*? -->                 |          # match xml / html comment
   <[^>]*/>                     |          # self closing tag
   (?<opentag><(?!/)[^>]*[^/]>) |          # push opening xml tag
   (?<-opentag></[^>]*[^/]>)    |          # pop closing xml tag
   [^<>]*                                  # something between tags
)*                                         # match as many xml tags as possible
(?(opentag)(?!))                           # ensure no 'opentag' groups are on stack

您可以在一个更好的.NET正则表达式测试仪上尝试。

我使用了以下示例源：

<html>
<body>
<div>
   <br />
   <ul id="matchMe" type="square">
      <li>stuff...</li>
      <li>more stuff</li>
      <li>
          <div>
               <span>still more</span>
               <ul>
                    <li>Another &gt;ul&lt;, oh my!</li>
                    <li>...</li>
               </ul>
          </div>
      </li>
   </ul>
</div>
</body>
</html>

这找到了匹配项：

   <ul id="matchMe" type="square">
      <li>stuff...</li>
      <li>more stuff</li>
      <li>
          <div>
               <span>still more</span>
               <ul>
                    <li>Another &gt;ul&lt;, oh my!</li>
                    <li>...</li>
               </ul>
          </div>
      </li>
   </ul>

尽管它实际上是这样的：

<ul id="matchMe" type="square">           <li>stuff...</li>           <li>more stuff</li>           <li>               <div>                    <span>still more</span>                    <ul>                         <li>Another &gt;ul&lt;, oh my!</li>                         <li>...</li>                    </ul>               </div>           </li>        </ul>

最后，我真的很喜欢杰夫·阿特伍德的文章：解析Html的Cthhulhu方式。有趣的是，它引用了这个问题的答案，目前有超过4万张选票。

2011-09-27 04:01:04

RegEx匹配除XHTML自包含标记之外的开放标记

推荐文章

最新文章

标签