如何在正则表达式中使用非捕获组,即(?:),它们有什么好处?
当前回答
tl;dr非捕获组,顾名思义,是正则表达式中不希望包含在匹配中的部分,以及?:是一种将组定义为非捕获的方法。
假设你有一个电子邮件地址example@example.com.以下正则表达式将创建两个组,id部分和@example.com部分。(\p{Alpha}*[a-z])(@example.com)。为了简单起见,我们提取了包括@字符在内的整个域名。
现在让我们假设,您只需要地址的id部分。您要做的是获取匹配结果的第一个组,在正则表达式中用()包围,这样做的方法是使用非捕获组语法,即?:。因此,正则表达式(\p{Alpha}*[a-z])(?:@example.com)将只返回电子邮件的id部分。
其他回答
为了补充本主题中的其他好答案,我想添加一个有趣的观察结果。
查找:您可以在非捕获组中包含捕获组。
问题详细信息:请查看下面匹配web URL的正则表达式:
var parse_url_regex = /^(?:([A-Za-z]+):)(\/{0,3})([0-9.\-A-Za-z]+)(?::(\d+))?(?:\/([^?#]*))?(?:\?([^#]*))?(?:#(.*))?$/;
以下是我的输入url字符串:
var url = "http://www.ora.com:80/goodparts?q#fragment";
正则表达式中的第一个组(?:([A-Za-z]+):)是一个非捕获组,它匹配协议方案(http)和冒号(:)字符。继续,它变为http:。但当我运行以下代码时:
console.debug(parse_url_regex.exec(url));
我可以看到返回数组的第一个索引包含字符串http(请参阅屏幕截图)。
此时,我的想法是http和冒号:两者都不会在输出中报告,因为它们位于非捕获组中。如果第一个正则表达式组(?:([A-Za-z]+):)是非捕获组,那么为什么它在输出数组中返回http字符串?
解释:如果你注意到,([A-Za-z]+)是一个捕获组(开头没有?)。但这个捕获组本身位于一个非捕获组(?:([a-Za-z]+):)内,后面跟着一个:字符。这就是为什么文本http仍然被捕获,但冒号:字符落在非捕获组内(但在捕获组外),不会在输出数组中报告。
我不能评论最上面的答案来这样说:我想补充一个明确的观点,这只是在最上面的回答中暗示的:
非捕获组(?…)不会从原始完全匹配中删除任何字符,它只会对程序员进行可视化的正则表达式重组。
要访问正则表达式的特定部分而不定义外来字符,您将始终需要使用.group(<index>)
让我举一个地理坐标的例子,下面是两组
Latitude,Longitude
([+-]?\d+(?:\.\d+)?),([+-]?\d+(?:\.\d+)?)
让我们拿一个([+-]?\d+(?:\.\d+)?)
坐标可以是58这样的整数,也可以是58.666因此,可选的(.666)第二部分(\.\d+)?被提及。
(...)? - for optional
但这是加括号的,这将是另一组匹配。我们不需要两场比赛,一场58分,另一场666分,我们需要一个纬度作为比赛。这里是非捕获组(?:)
与非捕获组[+-]?\d+(?:\.\d+)?,58.666和58都是单场比赛
在复杂的正则表达式中,可能会出现这样的情况:您希望使用大量的组,其中一些组用于重复匹配,另一些组用于提供反向引用。默认情况下,匹配每个组的文本将加载到backreference数组中。如果我们有很多组,并且只需要能够从backreference数组中引用其中的一些组,我们可以重写此默认行为,告诉正则表达式某些组只用于重复处理,不需要捕获并存储在backreference阵列中。
?: 当您想对表达式进行分组,但不想将其保存为字符串的匹配/捕获部分时,使用。
一个例子是匹配IP地址:
/(?:\d{1,3}\.){3}\d{1,3}/
请注意,我不在乎保存前3个八位字节,但(?:…)分组允许我缩短正则表达式,而不会导致捕获和存储匹配项的开销。
推荐文章
- 使用String.split()和多个分隔符
- 从数字中移除无关紧要的尾随零?
- 最终的邮政编码和邮政正则表达式是什么?
- 删除多个空白空间
- 正则表达式不是运算符
- 如何通过正则表达式过滤熊猫行
- 我如何在JavaScript中使用unicode感知的正则表达式?
- RE错误:在Mac OS X上的非法字节序列
- Regex验证日期格式dd/mm/YYYY, dd-mm-YYYY, dd.mm。YYYY, dd mmm, dd-mmm-YYYY, dd/mmm/YYYY, dd.mmm.YYYY与闰年支持
- jQuery验证:如何为正则表达式验证添加规则?
- 正则表达式在Javascript中获得括号之间的字符串
- 如何检查有效的电子邮件地址?
- Regex邮件验证
- 如何在bash脚本中使用正则表达式否定测试?
- 如何提取位于圆括号(圆括号)之间的文本?