2025-03-31 10:00:04

Java Regex捕获组

我正在试图理解这个代码块。在第一个问题中,我们要从表达式中寻找什么?

我的理解是,它是任何字符(0或多次*),后跟0到9之间的任何数字(一次或多次+),后跟任何字符(0或多次*)。

当执行此命令时,结果是:

Found value: This order was placed for QT3000! OK?
Found value: This order was placed for QT300
Found value: 0

谁能跟我说一遍?

使用捕获组的优势是什么?

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexTut3 {

    public static void main(String args[]) {
        String line = "This order was placed for QT3000! OK?"; 
        String pattern = "(.*)(\\d+)(.*)";

        // Create a Pattern object
        Pattern r = Pattern.compile(pattern);

        // Now create matcher object.
        Matcher m = r.matcher(line);

        if (m.find()) {
            System.out.println("Found value: " + m.group(0));
            System.out.println("Found value: " + m.group(1));
            System.out.println("Found value: " + m.group(2));
        } else {
            System.out.println("NO MATCH");
        }
    }

}

你的理解是正确的。然而,如果我们走过:

(.*)将吞下整个字符串; 它需要返回字符,以便(\\d+)被满足(这就是为什么0被捕获,而不是3000); 最后一个(.*)将捕获剩下的部分。

但是,我不知道作者的初衷是什么。


医生说:

Capturing groups</a> are indexed from left
 * to right, starting at one.  Group zero denotes the entire pattern, so
 * the expression m.group(0) is equivalent to m.group().

捕获组0发送整条线。


这完全没问题。

第一组(m.group(0))总是捕获正则表达式所覆盖的整个区域。在这种情况下,它是整个字符串。 正则表达式在默认情况下是贪婪的,这意味着第一组在不违反正则表达式的情况下捕获尽可能多的内容。(.*)(\\d+)(正则表达式的第一部分)涵盖了…QT300是第一组,0是第二组。 您可以通过使第一组非贪婪来快速解决这个问题:将(.*)更改为(.*?)

想了解更多关于贪婪和懒惰的信息,请访问这个网站。


你遇到的问题是量词的类型。在第一个组中使用贪婪量词(索引1 -索引0表示整个Pattern),这意味着它将尽可能多地匹配(由于它是任何字符,它将匹配尽可能多的字符,以便满足下一个组的条件)。

简而言之,你的第一个组.*匹配任何东西,只要下一个组\\d+可以匹配某些东西(在这种情况下,是最后一位数字)。

根据第三组,它将匹配最后一位数字之后的任何数字。

如果你把它换成第一组中的一个不情愿的量词,你就会得到我想你所期望的结果,也就是3000部分。

注意第一组中的问号。

String line = "This order was placed for QT3000! OK?";
Pattern pattern = Pattern.compile("(.*?)(\\d+)(.*)");
Matcher matcher = pattern.matcher(line);
while (matcher.find()) {
    System.out.println("group 1: " + matcher.group(1));
    System.out.println("group 2: " + matcher.group(2));
    System.out.println("group 3: " + matcher.group(3));
}

输出:

group 1: This order was placed for QT
group 2: 3000
group 3: ! OK?

更多关于Java模式的信息。

最后,捕获组由圆括号分隔,并提供了一种非常有用的方法来使用反向引用(以及其他),一旦您的Pattern与输入匹配。

在Java 6中,组只能按顺序引用(注意嵌套组和顺序的微妙性)。

在Java 7中,这要容易得多,因为您可以使用命名组。