如何在正则表达式中使用非捕获组,即(?:),它们有什么好处?


当前回答

tl;dr非捕获组,顾名思义,是正则表达式中不希望包含在匹配中的部分,以及?:是一种将组定义为非捕获的方法。

假设你有一个电子邮件地址example@example.com.以下正则表达式将创建两个组,id部分和@example.com部分。(\p{Alpha}*[a-z])(@example.com)。为了简单起见,我们提取了包括@字符在内的整个域名。

现在让我们假设,您只需要地址的id部分。您要做的是获取匹配结果的第一个组,在正则表达式中用()包围,这样做的方法是使用非捕获组语法,即?:。因此,正则表达式(\p{Alpha}*[a-z])(?:@example.com)将只返回电子邮件的id部分。

其他回答

让我举个例子:

Regex代码:(?:animal)(?:=)(\w+)(,)\1\2

搜索字符串:

第1行-动物=猫、狗、猫、老虎、狗

第2行-动物=猫、猫、狗、狗、老虎

第3行-动物=狗、狗、猫、猫、老虎

(?:动物)-->未捕获组1

(?:=)-->未捕获组2

(\w+)-->捕获的组1

(,)-->捕获的组2

\1-->捕获组1的结果,即第1行是猫,第2行是猫、第3行是狗。

\2-->捕获组2的结果,即逗号(,)

因此,在这段代码中,通过给出“1”和“2”,我们在代码后面分别回忆或重复捕获的组1和组2的结果。

根据代码的顺序,(?:动物)应为第1组,(?=)应为2组,并继续。。

但通过给出?:我们使匹配组不被捕获(在匹配组中不计数,因此分组编号从第一个捕获的组开始,而不是未捕获的组),这样以后就不能在代码中调用匹配组(?:动物)结果的重复。

希望这能解释非捕获组的使用。

?: 当您想对表达式进行分组,但不想将其保存为字符串的匹配/捕获部分时,使用。

一个例子是匹配IP地址:

/(?:\d{1,3}\.){3}\d{1,3}/

请注意,我不在乎保存前3个八位字节,但(?:…)分组允许我缩短正则表达式,而不会导致捕获和存储匹配项的开销。

为了补充本主题中的其他好答案,我想添加一个有趣的观察结果。

查找:您可以在非捕获组中包含捕获组。

问题详细信息:请查看下面匹配web URL的正则表达式:

var parse_url_regex = /^(?:([A-Za-z]+):)(\/{0,3})([0-9.\-A-Za-z]+)(?::(\d+))?(?:\/([^?#]*))?(?:\?([^#]*))?(?:#(.*))?$/;

以下是我的输入url字符串:

var url = "http://www.ora.com:80/goodparts?q#fragment";

正则表达式中的第一个组(?:([A-Za-z]+):)是一个非捕获组,它匹配协议方案(http)和冒号(:)字符。继续,它变为http:。但当我运行以下代码时:

console.debug(parse_url_regex.exec(url));

我可以看到返回数组的第一个索引包含字符串http(请参阅屏幕截图)。

此时,我的想法是http和冒号:两者都不会在输出中报告,因为它们位于非捕获组中。如果第一个正则表达式组(?:([A-Za-z]+):)是非捕获组,那么为什么它在输出数组中返回http字符串?

解释:如果你注意到,([A-Za-z]+)是一个捕获组(开头没有?)。但这个捕获组本身位于一个非捕获组(?:([a-Za-z]+):)内,后面跟着一个:字符。这就是为什么文本http仍然被捕获,但冒号:字符落在非捕获组内(但在捕获组外),不会在输出数组中报告。

(?:…)充当一个组(…),但不捕获匹配的数据。它确实比标准的捕获组效率高得多。当你想对某个东西进行分组,但以后不需要重用它时,就可以使用它了@托托

我是一名JavaScript开发人员,将尝试解释其与JavaScript相关的意义。

考虑一个场景,你想将猫与动物相匹配当你想要匹配猫和动物时,两者之间应该有一个平衡点。

 // this will ignore "is" as that's is what we want
"cat is animal".match(/(cat)(?: is )(animal)/) ;
result ["cat is animal", "cat", "animal"]

 // using lookahead pattern it will match only "cat" we can
 // use lookahead but the problem is we can not give anything
 // at the back of lookahead pattern
"cat is animal".match(/cat(?= is animal)/) ;
result ["cat"]

 //so I gave another grouping parenthesis for animal
 // in lookahead pattern to match animal as well
"cat is animal".match(/(cat)(?= is (animal))/) ;
result ["cat", "cat", "animal"]

 // we got extra cat in above example so removing another grouping
"cat is animal".match(/cat(?= is (animal))/) ;
result ["cat", "animal"]