我需要匹配所有这些开头标记:
<p>
<a href="foo">
但不是这些:
<br />
<hr class="foo" />
我想出了这个,想确保我做得对。我只是在捕捉a-z。
<([a-z]+) *[^/]*?>
我相信上面写着:
找到一个小于,然后查找(并捕获)a-z一次或多次,然后找到零个或多个空格,然后查找任何字符零次或多次,贪婪,除了/,然后查找大于
我有这个权利吗?更重要的是,你怎么看?
我需要匹配所有这些开头标记:
<p>
<a href="foo">
但不是这些:
<br />
<hr class="foo" />
我想出了这个,想确保我做得对。我只是在捕捉a-z。
<([a-z]+) *[^/]*?>
我相信上面写着:
找到一个小于,然后查找(并捕获)a-z一次或多次,然后找到零个或多个空格,然后查找任何字符零次或多次,贪婪,除了/,然后查找大于
我有这个权利吗?更重要的是,你怎么看?
当前回答
免责声明:如果您有选择,请使用解析器。那是说。。。
这是我使用(!)匹配HTML标记的正则表达式:
<(?:"[^"]*"['"]*|'[^']*'['"]*|[^'">])+>
它可能并不完美,但我通过大量HTML运行了这段代码。注意,它甚至会捕捉到一些奇怪的东西,比如出现在网络上的<a name=“badgenerator”“>。
我想,为了使其不匹配自包含的标签,您可能需要使用Kobi的负面外观:
<(?:"[^"]*"['"]*|'[^']*'['"]*|[^'">])+(?<!/\s*)>
或者如果没有,就合并。
对于下选民:这是从实际产品中工作的代码。我怀疑任何阅读此页面的人都会觉得在HTML上使用正则表达式是社会可以接受的。
注意:我应该注意,这个正则表达式在CDATA块、注释以及脚本和样式元素的存在下仍然会崩溃。好消息是,你可以去掉那些使用正则表达式的。。。
其他回答
我建议在PHP中使用QueryPath解析XML和HTML。它的语法与jQuery基本相同,只是在服务器端。
在我看来,你试图匹配结尾没有“/”的标签。试试看:
<([a-zA-Z][a-zA-Z0-9]*)[^>]*(?<!/)>
关于解析(x)HTML的正则表达式方法的问题,所有提到一些限制的人的答案都是:你没有受过足够的训练来统治这一强大武器的力量,因为这里没有人谈到递归。
一位正则表达式不可知论的同事通知了我这次讨论,这肯定不是网络上第一次讨论这个古老而热门的话题。
在阅读了一些帖子后,我做的第一件事就是在这个线程中查找“?R”字符串。第二个是搜索“递归”。
不,天哪,找不到火柴。由于没有人提到解析器构建的主要机制,我很快就意识到没有人理解这一点。
如果(x)HTML解析器需要递归,那么仅使用没有递归的正则表达式解析器是不够的。这是一个简单的构造。
正则表达式的黑色艺术很难掌握,因此,在尝试和测试我们的个人解决方案以一手掌握整个网络时,我们可能还遗漏了其他可能性。。。嗯,我很确定:)
这是一个神奇的模式:
$pattern = "/<([\w]+)([^>]*?)(([\s]*\/>)|(>((([^<]*?|<\!\-\-.*?\-\->)|(?R))*)<\/\\1[\s]*>))/s";
试试看。它是以PHP字符串形式编写的,所以“s”修饰符使类包含换行符。
下面是我在一月份编写的PHP手册的示例注释:参考
(注意。在那个注释中,我错误地使用了“m”修饰符;它应该被删除,尽管它被正则表达式引擎丢弃,因为没有使用^或$锚定)。
现在,我们可以从一个更明智的角度来讨论这种方法的局限性:
根据正则表达式引擎的具体实现,递归在解析嵌套模式的数量上可能有限制,但这取决于所使用的语言尽管已损坏,(x)HTML不会导致严重错误。它没有经过消毒。
无论如何,它只是一个正则表达式模式,但它揭示了开发许多强大实现的可能性。
我编写这个模式是为了支持我在框架中构建的模板引擎的递归下降解析器,无论是在执行时间还是在内存使用方面,性能都非常出色(与使用相同语法的其他模板引擎无关)。
我认为这里的缺陷是HTML是Chomsky Type 2语法(上下文无关语法),正则表达式是ChomskyType 3语法(正则语法)。由于第2类语法从根本上比第3类语法更复杂(请参见乔姆斯基层次结构),因此不可能实现这一点。
但很多人会尝试,有些人甚至会声称成功,但直到其他人发现错误并将你彻底搞砸。
无法使用正则表达式解析[X]HTML。因为正则表达式无法解析HTML。Regex不是一个可以用来正确解析HTML的工具。正如我之前多次在这里回答的HTML和正则表达式问题一样,正则表达式的使用不允许您使用HTML。正则表达式是一种不够复杂的工具,无法理解HTML所使用的构造。HTML不是一种正则语言,因此不能由正则表达式解析。Regex查询无法将HTML分解为有意义的部分。很多次,但我都不明白。即使是Perl使用的增强型不规则正则表达式,也无法完成解析HTML的任务。你永远不会让我崩溃。HTML是一种非常复杂的语言,它不能被正则表达式解析。甚至Jon Skeet也无法使用正则表达式解析HTML。每次你试图用正则表达式解析HTML时,这个邪恶的孩子都会痛哭流涕,而俄罗斯黑客则会在你的网络应用程序上进行攻击。用正则表达式解析HTML会将受污染的灵魂召唤到活人的领域。HTML和正则表达式就像爱情、婚姻和仪式性的杀婴。<center>无法保持它太晚了。正则表达式和HTML在同一概念空间中的合力会像水一样摧毁你的思想。如果你用正则表达式解析HTML,你就屈服于他们和他们的亵渎方式,这让我们所有人都要为一个名字无法在基本多语言平面中表达的人付出不人道的努力,他来了。HTML加正则表达式将使n当你观察时,你的心灵在恐惧的冲击中枯萎。基于x的HTML解析器是杀死StackOverflow的癌症,为时已晚,为时不晚,我们无法得救,因为一个chi͡ld的犯罪确保了regex将吞噬所有的活组织(除了它不能消耗的HTML,如前所预言的那样)亲爱的主,请帮助我们,任何人如何能在这场灾难中幸存下来,使用regex来解析HTML已经注定了人类将遭受永恒的可怕折磨使用正则表达式作为处理HTML的工具的安全漏洞在这个世界和c͒ͪo͛ͫ腐败实体(如SGML实体,但更腐败)的可怕领域之间建立了一个漏洞,这仅仅是对reg世界的一瞥用于HTML的ex解析器将他突然把一个程序员的意识带入了一个不断尖叫的世界,瘟疫般的slithy regex感染会我吞噬你的HTML解析器、应用程序和存在一直像Visual Basic一样,但更糟糕的是他来了,他来了就不来了对他来说s un̨hoğly radiańcé; destro҉ying all enli̍̈́س\836收紧,HTML标签lea͠ki̧n͘g fr ǫm̡yo͟我们的眼睛͢s̸̛l̕ik͏e liquid pain,re̸gular exp之歌压缩解析将退出用英语表达摩尔的声音来自sp的塔尔曼在这里我可以看到它,你可以看到它吗他终于揭穿了谎言人的全部都是LOS͖̩͇̗̪̏̈́T ALL I当他来的时候,他就失去了机会或渗透到我的脸上ᵒ天啊不不不O NΘ停止*̶͑̾̾ͫ͏̙̤g͛838̾ͫ;͇̫̑͆lot rȇͧ̌aͨl̘̝̙ͤ͂̾̆ZA̡͊͠LGΌISͮ;҉̛̯͈͕̹ͼ̱TO̶͇̺ͅƝȳ̳TH̘; Ë͖́̉\864 P͍̭O̚N̐Y̡Hͨ͊̽س̾̎801;̸̪̯E̾;̧̲̬͛ͪ̈́͘809;̨̦̱̹̭̰ͧC \877̙̝͖̏Oͮ͏7;͍M͊̒ͪ̚873; 876;Ỿ860;̲̖Ȇ∱̛̟͌S̨̥̫͎ͯ̿̔̀ͅ
您是否尝试过改用XML解析器?
主持人说明此帖子已锁定,以防止对其内容进行不当编辑。这篇文章看起来和它应该看起来完全一样——它的内容没有问题。请不要为我们的注意标记。