RegEx匹配除XHTML自包含标记之外的开放标记

我需要匹配所有这些开头标记：

<p>
<a href="foo">

但不是这些：

<br />
<hr class="foo" />

我想出了这个，想确保我做得对。我只是在捕捉a-z。

<([a-z]+) *[^/]*?>

我相信上面写着：

找到一个小于，然后查找（并捕获）a-z一次或多次，然后找到零个或多个空格，然后查找任何字符零次或多次，贪婪，除了/，然后查找大于

我有这个权利吗？更重要的是，你怎么看？

当前回答

正如许多人已经指出的那样，HTML不是一种常规语言，这会使解析变得非常困难。我的解决方案是使用整洁的程序将其转换为常规语言，然后使用XML解析器来使用结果。有很多好的选择。我的程序使用Java和jtidy库编写，将HTML转换为XML，然后Jaxen将其展开为结果。

2010-02-04 16:22:00

其他回答

2010-02-04 16:22:00

在我看来，你试图匹配结尾没有“/”的标签。试试看：

<([a-zA-Z][a-zA-Z0-9]*)[^>]*(?<!/)>

2009-11-15 17:13:19

关于解析（x）HTML的正则表达式方法的问题，所有提到一些限制的人的答案都是：你没有受过足够的训练来统治这一强大武器的力量，因为这里没有人谈到递归。

一位正则表达式不可知论的同事通知了我这次讨论，这肯定不是网络上第一次讨论这个古老而热门的话题。

在阅读了一些帖子后，我做的第一件事就是在这个线程中查找“？R”字符串。第二个是搜索“递归”。

不，天哪，找不到火柴。由于没有人提到解析器构建的主要机制，我很快就意识到没有人理解这一点。

如果（x）HTML解析器需要递归，那么仅使用没有递归的正则表达式解析器是不够的。这是一个简单的构造。

正则表达式的黑色艺术很难掌握，因此，在尝试和测试我们的个人解决方案以一手掌握整个网络时，我们可能还遗漏了其他可能性。。。嗯，我很确定：）

这是一个神奇的模式：

$pattern = "/<([\w]+)([^>]*?)(([\s]*\/>)|(>((([^<]*?|<\!\-\-.*?\-\->)|(?R))*)<\/\\1[\s]*>))/s";

试试看。它是以PHP字符串形式编写的，所以“s”修饰符使类包含换行符。

下面是我在一月份编写的PHP手册的示例注释：参考

（注意。在那个注释中，我错误地使用了“m”修饰符；它应该被删除，尽管它被正则表达式引擎丢弃，因为没有使用^或$锚定）。

现在，我们可以从一个更明智的角度来讨论这种方法的局限性：

根据正则表达式引擎的具体实现，递归在解析嵌套模式的数量上可能有限制，但这取决于所使用的语言尽管已损坏，（x）HTML不会导致严重错误。它没有经过消毒。

无论如何，它只是一个正则表达式模式，但它揭示了开发许多强大实现的可能性。

我编写这个模式是为了支持我在框架中构建的模板引擎的递归下降解析器，无论是在执行时间还是在内存使用方面，性能都非常出色（与使用相同语法的其他模板引擎无关）。

2010-07-05 14:16:50

这里有一些很好的正则表达式，可以用BBCode替换HTML。对于所有反对者来说，请注意，他并不是试图完全解析HTML，只是为了净化它。他可能可以消除那些简单的“解析器”无法理解的标记。

例如：

$store =~ s/http:/http:\/\//gi;
$store =~ s/https:/https:\/\//gi;
$baseurl = $store;

if (!$query->param("ascii")) {
    $html =~ s/\s\s+/\n/gi;
    $html =~ s/<pre(.*?)>(.*?)<\/pre>/\[code]$2\[\/code]/sgmi;
}

$html =~ s/\n//gi;
$html =~ s/\r\r//gi;
$html =~ s/$baseurl//gi;
$html =~ s/<h[1-7](.*?)>(.*?)<\/h[1-7]>/\n\[b]$2\[\/b]\n/sgmi;
$html =~ s/<p>/\n\n/gi;
$html =~ s/<br(.*?)>/\n/gi;
$html =~ s/<textarea(.*?)>(.*?)<\/textarea>/\[code]$2\[\/code]/sgmi;
$html =~ s/<b>(.*?)<\/b>/\[b]$1\[\/b]/gi;
$html =~ s/<i>(.*?)<\/i>/\[i]$1\[\/i]/gi;
$html =~ s/<u>(.*?)<\/u>/\[u]$1\[\/u]/gi;
$html =~ s/<em>(.*?)<\/em>/\[i]$1\[\/i]/gi;
$html =~ s/<strong>(.*?)<\/strong>/\[b]$1\[\/b]/gi;
$html =~ s/<cite>(.*?)<\/cite>/\[i]$1\[\/i]/gi;
$html =~ s/<font color="(.*?)">(.*?)<\/font>/\[color=$1]$2\[\/color]/sgmi;
$html =~ s/<font color=(.*?)>(.*?)<\/font>/\[color=$1]$2\[\/color]/sgmi;
$html =~ s/<link(.*?)>//gi;
$html =~ s/<li(.*?)>(.*?)<\/li>/\[\*]$2/gi;
$html =~ s/<ul(.*?)>/\[list]/gi;
$html =~ s/<\/ul>/\[\/list]/gi;
$html =~ s/<div>/\n/gi;
$html =~ s/<\/div>/\n/gi;
$html =~ s/<td(.*?)>/ /gi;
$html =~ s/<tr(.*?)>/\n/gi;

$html =~ s/<img(.*?)src="(.*?)"(.*?)>/\[img]$baseurl\/$2\[\/img]/gi;
$html =~ s/<a(.*?)href="(.*?)"(.*?)>(.*?)<\/a>/\[url=$baseurl\/$2]$4\[\/url]/gi;
$html =~ s/\[url=$baseurl\/http:\/\/(.*?)](.*?)\[\/url]/\[url=http:\/\/$1]$2\[\/url]/gi;
$html =~ s/\[img]$baseurl\/http:\/\/(.*?)\[\/img]/\[img]http:\/\/$1\[\/img]/gi;

$html =~ s/<head>(.*?)<\/head>//sgmi;
$html =~ s/<object>(.*?)<\/object>//sgmi;
$html =~ s/<script(.*?)>(.*?)<\/script>//sgmi;
$html =~ s/<style(.*?)>(.*?)<\/style>//sgmi;
$html =~ s/<title>(.*?)<\/title>//sgmi;
$html =~ s/<!--(.*?)-->/\n/sgmi;

$html =~ s/\/\//\//gi;
$html =~ s/http:\//http:\/\//gi;
$html =~ s/https:\//https:\/\//gi;

$html =~ s/<(?:[^>'"]*|(['"]).*?\1)*>//gsi;
$html =~ s/\r\r//gi;
$html =~ s/\[img]\//\[img]/gi;
$html =~ s/\[url=\//\[url=/gi;

2010-04-25 16:38:42

免责声明：如果您有选择，请使用解析器。那是说。。。

这是我使用（！）匹配HTML标记的正则表达式：

<(?:"[^"]*"['"]*|'[^']*'['"]*|[^'">])+>

它可能并不完美，但我通过大量HTML运行了这段代码。注意，它甚至会捕捉到一些奇怪的东西，比如出现在网络上的<a name=“badgenerator”“>。

我想，为了使其不匹配自包含的标签，您可能需要使用Kobi的负面外观：

<(?:"[^"]*"['"]*|'[^']*'['"]*|[^'">])+(?<!/\s*)>

或者如果没有，就合并。

对于下选民：这是从实际产品中工作的代码。我怀疑任何阅读此页面的人都会觉得在HTML上使用正则表达式是社会可以接受的。

注意：我应该注意，这个正则表达式在CDATA块、注释以及脚本和样式元素的存在下仍然会崩溃。好消息是，你可以去掉那些使用正则表达式的。。。

2009-11-15 06:37:18

RegEx匹配除XHTML自包含标记之外的开放标记

推荐文章

最新文章

标签