如何在正则表达式中使用非捕获组,即(?:),它们有什么好处?


当前回答

为了补充本主题中的其他好答案,我想添加一个有趣的观察结果。

查找:您可以在非捕获组中包含捕获组。

问题详细信息:请查看下面匹配web URL的正则表达式:

var parse_url_regex = /^(?:([A-Za-z]+):)(\/{0,3})([0-9.\-A-Za-z]+)(?::(\d+))?(?:\/([^?#]*))?(?:\?([^#]*))?(?:#(.*))?$/;

以下是我的输入url字符串:

var url = "http://www.ora.com:80/goodparts?q#fragment";

正则表达式中的第一个组(?:([A-Za-z]+):)是一个非捕获组,它匹配协议方案(http)和冒号(:)字符。继续,它变为http:。但当我运行以下代码时:

console.debug(parse_url_regex.exec(url));

我可以看到返回数组的第一个索引包含字符串http(请参阅屏幕截图)。

此时,我的想法是http和冒号:两者都不会在输出中报告,因为它们位于非捕获组中。如果第一个正则表达式组(?:([A-Za-z]+):)是非捕获组,那么为什么它在输出数组中返回http字符串?

解释:如果你注意到,([A-Za-z]+)是一个捕获组(开头没有?)。但这个捕获组本身位于一个非捕获组(?:([a-Za-z]+):)内,后面跟着一个:字符。这就是为什么文本http仍然被捕获,但冒号:字符落在非捕获组内(但在捕获组外),不会在输出数组中报告。

其他回答

我是一名JavaScript开发人员,将尝试解释其与JavaScript相关的意义。

考虑一个场景,你想将猫与动物相匹配当你想要匹配猫和动物时,两者之间应该有一个平衡点。

 // this will ignore "is" as that's is what we want
"cat is animal".match(/(cat)(?: is )(animal)/) ;
result ["cat is animal", "cat", "animal"]

 // using lookahead pattern it will match only "cat" we can
 // use lookahead but the problem is we can not give anything
 // at the back of lookahead pattern
"cat is animal".match(/cat(?= is animal)/) ;
result ["cat"]

 //so I gave another grouping parenthesis for animal
 // in lookahead pattern to match animal as well
"cat is animal".match(/(cat)(?= is (animal))/) ;
result ["cat", "cat", "animal"]

 // we got extra cat in above example so removing another grouping
"cat is animal".match(/cat(?= is (animal))/) ;
result ["cat", "animal"]

在复杂的正则表达式中,可能会出现这样的情况:您希望使用大量的组,其中一些组用于重复匹配,另一些组用于提供反向引用。默认情况下,匹配每个组的文本将加载到backreference数组中。如果我们有很多组,并且只需要能够从backreference数组中引用其中的一些组,我们可以重写此默认行为,告诉正则表达式某些组只用于重复处理,不需要捕获并存储在backreference阵列中。

历史动机:

非捕获组的存在可以用括号来解释。

考虑表达式(a|b)c和a|bc,由于串联优先于|,这些表达式分别表示两种不同的语言({ac,bc}和{a,bc})。

然而,括号也用作匹配组(如其他答案所解释的…)。

当您想有括号但不想捕获子表达式时,可以使用NON-CAPTURING GROUPS。在示例中,(?:a|b)c

我不能评论最上面的答案来这样说:我想补充一个明确的观点,这只是在最上面的回答中暗示的:

非捕获组(?…)不会从原始完全匹配中删除任何字符,它只会对程序员进行可视化的正则表达式重组。

要访问正则表达式的特定部分而不定义外来字符,您将始终需要使用.group(<index>)

为了补充本主题中的其他好答案,我想添加一个有趣的观察结果。

查找:您可以在非捕获组中包含捕获组。

问题详细信息:请查看下面匹配web URL的正则表达式:

var parse_url_regex = /^(?:([A-Za-z]+):)(\/{0,3})([0-9.\-A-Za-z]+)(?::(\d+))?(?:\/([^?#]*))?(?:\?([^#]*))?(?:#(.*))?$/;

以下是我的输入url字符串:

var url = "http://www.ora.com:80/goodparts?q#fragment";

正则表达式中的第一个组(?:([A-Za-z]+):)是一个非捕获组,它匹配协议方案(http)和冒号(:)字符。继续,它变为http:。但当我运行以下代码时:

console.debug(parse_url_regex.exec(url));

我可以看到返回数组的第一个索引包含字符串http(请参阅屏幕截图)。

此时,我的想法是http和冒号:两者都不会在输出中报告,因为它们位于非捕获组中。如果第一个正则表达式组(?:([A-Za-z]+):)是非捕获组,那么为什么它在输出数组中返回http字符串?

解释:如果你注意到,([A-Za-z]+)是一个捕获组(开头没有?)。但这个捕获组本身位于一个非捕获组(?:([a-Za-z]+):)内,后面跟着一个:字符。这就是为什么文本http仍然被捕获,但冒号:字符落在非捕获组内(但在捕获组外),不会在输出数组中报告。