RegEx匹配除XHTML自包含标记之外的开放标记

我需要匹配所有这些开头标记：

<p>
<a href="foo">

但不是这些：

<br />
<hr class="foo" />

我想出了这个，想确保我做得对。我只是在捕捉a-z。

<([a-z]+) *[^/]*?>

我相信上面写着：

找到一个小于，然后查找（并捕获）a-z一次或多次，然后找到零个或多个空格，然后查找任何字符零次或多次，贪婪，除了/，然后查找大于

我有这个权利吗？更重要的是，你怎么看？

当前回答

我建议在PHP中使用QueryPath解析XML和HTML。它的语法与jQuery基本相同，只是在服务器端。

其他回答

这可能会：

<.*?[^/]>

或不带结束标记：

<[^/].*?[^/]>

HTML解析器上的火焰大战是怎么回事？HTML解析器必须解析（并重建！）整个文档，然后才能对搜索进行分类。在某些情况下，正则表达式可能更快/更优雅。我的2美分。。。

虽然只有正则表达式的任意HTML是不可能的，但有时使用它们来解析一组有限的已知HTML是合适的。

如果您有一小组HTML页面，希望从中提取数据，然后将其填充到数据库中，正则表达式可能会很好地工作。例如，我最近想获得澳大利亚联邦代表的姓名、党派和选区，这是我从议会网站上得到的。这是一份有限的一次性工作。

Regexes对我来说很好，而且安装速度很快。

我想这可能有用

<[a-z][^<>]*(?:(?:[^/]\s*)|(?:\s*[^/]))>

这可以在这里进行测试。

根据W3学校。。。

XML命名规则

XML元素必须遵循以下命名规则：

名称可以包含字母、数字和其他字符名称不能以数字或标点字符开头名称不能以字母xml（或xml、xml等）开头名称不能包含空格可以使用任何名称，不保留任何单词。

我使用的模式将遵循这些规则。

我喜欢用正则表达式解析HTML。我不会试图解析故意破坏的白痴HTML。这段代码是我的主解析器（Perl版）：

$_ = join "",<STDIN>; tr/\n\r \t/ /s; s/</\n</g; s/>/>\n/g; s/\n ?\n/\n/g;
s/^ ?\n//s; s/ $//s; print

它被称为htmlsplit，将HTML拆分为多行，每行上有一个标记或文本块。然后可以使用其他文本工具和脚本（如grep、sed、Perl等）进一步处理这些行。

如果您希望处理巨大的网页，将我的slurp一切第一个Perl脚本重新设置为一个不错的流式处理就足够简单了。但这不是真的必要。

HTML拆分

一些更好的正则表达式：

/(<.*?>|[^<]+)\s*/g    # Get tags and text
/(\w+)="(.*?)"/g       # Get attibutes

它们适用于XML/XTML。

通过小的变化，它可以处理杂乱的HTML。。。或者先转换HTML->XHTML。

编写正则表达式的最佳方式是使用Lex/Yacc样式，而不是不透明的单行或注释的多行怪物。我还没有在这里这样做；这些人几乎不需要它。

我建议在PHP中使用QueryPath解析XML和HTML。它的语法与jQuery基本相同，只是在服务器端。

推荐文章