如何在正则表达式中使用非捕获组,即(?:),它们有什么好处?
当前回答
tl;dr非捕获组,顾名思义,是正则表达式中不希望包含在匹配中的部分,以及?:是一种将组定义为非捕获的方法。
假设你有一个电子邮件地址example@example.com.以下正则表达式将创建两个组,id部分和@example.com部分。(\p{Alpha}*[a-z])(@example.com)。为了简单起见,我们提取了包括@字符在内的整个域名。
现在让我们假设,您只需要地址的id部分。您要做的是获取匹配结果的第一个组,在正则表达式中用()包围,这样做的方法是使用非捕获组语法,即?:。因此,正则表达式(\p{Alpha}*[a-z])(?:@example.com)将只返回电子邮件的id部分。
其他回答
您可以使用捕获组来组织和分析表达式。非捕获组具有第一个好处,但没有第二个好处的开销。例如,您仍然可以说非捕获组是可选的。
假设你想匹配数字文本,但有些数字可以写成1、2、3、4,。。。如果要捕获数字部分,而不是(可选)后缀,则可以使用非捕获组。
([0-9]+)(?:st|nd|rd|th)?
这将匹配形式1、2、3…或形式1、第2、第3…的数字,。。。但它将只捕获数字部分。
我是一名JavaScript开发人员,将尝试解释其与JavaScript相关的意义。
考虑一个场景,你想将猫与动物相匹配当你想要匹配猫和动物时,两者之间应该有一个平衡点。
// this will ignore "is" as that's is what we want
"cat is animal".match(/(cat)(?: is )(animal)/) ;
result ["cat is animal", "cat", "animal"]
// using lookahead pattern it will match only "cat" we can
// use lookahead but the problem is we can not give anything
// at the back of lookahead pattern
"cat is animal".match(/cat(?= is animal)/) ;
result ["cat"]
//so I gave another grouping parenthesis for animal
// in lookahead pattern to match animal as well
"cat is animal".match(/(cat)(?= is (animal))/) ;
result ["cat", "cat", "animal"]
// we got extra cat in above example so removing another grouping
"cat is animal".match(/cat(?= is (animal))/) ;
result ["cat", "animal"]
它使组不捕获,这意味着该组匹配的子字符串将不包含在捕获列表中。ruby中的一个示例说明了区别:
"abc".match(/(.)(.)./).captures #=> ["a","b"]
"abc".match(/(?:.)(.)./).captures #=> ["b"]
打开您的Google Chrome devTools,然后单击Console选项卡:并键入以下内容:
"Peace".match(/(\w)(\w)(\w)/)
运行它,您将看到:
["Pea", "P", "e", "a", index: 0, input: "Peace", groups: undefined]
JavaScript RegExp引擎捕获三个组,索引为1、2、3的项。现在使用非捕获标记来查看结果。
"Peace".match(/(?:\w)(\w)(\w)/)
结果是:
["Pea", "e", "a", index: 0, input: "Peace", groups: undefined]
这是显而易见的非捕获组。
捕获的组可以稍后在正则表达式中使用以匹配,也可以在正则表达式的替换部分中使用它们。创建一个非捕获组只会使该组免于出于以下原因之一而被使用。
如果你试图捕捉很多不同的东西,而有些群体你不想捕捉,那么非捕捉群体是很好的。
这就是它们存在的原因。当你学习团体时,学习原子团体,他们做了很多!也有环视组,但它们有点复杂,而且使用得不多。
稍后在正则表达式中使用的示例(backreference):
<([A-Z][A-Z0-9]*)\b[^>]*>.*</\1> [查找xml标记(不支持ns)]
([A-Z][A-Z0-9]*)是一个捕获组(在本例中是标记名)
稍后在正则表达式中是\ 1,这意味着它将仅与第一组([A-Z][A-Z0-9]*)中的相同文本匹配(在本例中,它与结束标记匹配)。
推荐文章
- 在JavaScript中检查字符串包含另一个子字符串的最快方法?
- Python非贪婪正则表达式
- 正则表达式可以用来匹配嵌套模式吗?
- 在bash中使用正则表达式进行搜索和替换
- 将camelCaseText转换为标题大小写文本
- 正则表达式在Javascript中获取两个字符串之间的字符串
- Regex测试字符串是否以http://或https://开头
- 匹配HH:MM时间格式的正则表达式
- 使用String.split()和多个分隔符
- 从数字中移除无关紧要的尾随零?
- 最终的邮政编码和邮政正则表达式是什么?
- 删除多个空白空间
- 正则表达式不是运算符
- 如何通过正则表达式过滤熊猫行
- 我如何在JavaScript中使用unicode感知的正则表达式?