Java正規表示式


Java提供了java.util.regex包,用於與正規表示式進行模式匹配。 Java正規表示式與Perl程式設計語言非常相似,非常容易學習。

正規表示式是一種特殊的字元序列,可使用模式中的專用語法來匹配或查詢其他字串或字串集。 它們可用於搜尋,編輯或操作文字和資料。

java.util.regex包主要由以下三個類組成 -

  • Pattern類 - Pattern物件是正規表示式的編譯表示。 Pattern類不提供公共建構函式。 要建立模式,需要首先呼叫它的公共靜態compile()方法,然後返回Pattern物件。 這些方法接受正規表示式作為第一個引數。

  • Matcher類 - Matcher物件是解釋模式並對輸入字串執行匹配操作的引擎。 與Pattern類一樣,Matcher沒有定義公共建構函式。 通過在Pattern物件上呼叫matcher()方法獲取Matcher物件。

  • PatternSyntaxException - PatternSyntaxException物件是未經檢查的異常,指示正規表示式模式中的語法錯誤。

1. 捕獲組

捕獲組是將多個字元視為一個單元的一種方法。 它們是通過將要分組的字元放在一組括號中來建立的。 例如,正規表示式(dog)建立包含字母dog的單個組。

捕獲組通過從左到右計算它們的左括號來編號。 在表示式((A)(B(C)))中,例如,有四個這樣的組 -

  • ((A)(B(C)))
  • (A)
  • (B(C))
  • (C)

要查詢表示式中存在多少個組,請在Matcher物件上呼叫groupCount()方法。 groupCount()方法返回一個int型別值,顯示Matcher模式中存在的捕獲組數。

還有一個特殊組,即組0,它始終代表整個表示式。 該組未包含在groupCount()報告的總數中。

範例

以下範例說明如何從給定的字母數位字串中查詢數位字串 -

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexMatches {

   public static void main( String args[] ) {
      // String to be scanned to find the pattern.
      String line = "This order was placed for QT3000! OK?";
      String pattern = "(.*)(\\d+)(.*)";

      // Create a Pattern object
      Pattern r = Pattern.compile(pattern);

      // Now create matcher object.
      Matcher m = r.matcher(line);
      if (m.find( )) {
         System.out.println("Found value: " + m.group(0) );
         System.out.println("Found value: " + m.group(1) );
         System.out.println("Found value: " + m.group(2) );
      }else {
         System.out.println("NO MATCH");
      }
   }
}

執行上面範例程式碼,得到以下結果:

Found value: This order was placed for QT3000! OK?
Found value: This order was placed for QT300
Found value: 0

2. 正規表示式語法

下面列出了Java中可用的所有正規表示式元字元語法 -

編號 子表示式 匹配
1 ^ 匹配行的開頭。
2 $ 匹配行的結尾。
3 . 匹配除換行符之外的任何單個字元,使用m選項也可以匹配換行符。
4 [...] 匹配括號中的任何單個字元。
5 [^...] 匹配括號內的任何單個字元。
6 \A 整個字串的開頭。
7 \z 整個字串的結尾。
8 \Z 除允許的最終行終止符之外的整個字串的結尾。
9 re* 匹配前面表示式的0次或更多次出現。
10 re+ 匹配前面表示式的1次或更多次出現。
11 re? 匹配前面表示式的01次出現。
12 re{n} 準確匹配前面表示式的n次出現次數。
13 re{n,} 準確匹配前面表示式的n次以上出現次數。
14 aΙb 匹配ab
15 (re) 對正規表示式進行分組並記住匹配的文字。
16 (?: re) 將正規表示式分組而不記住匹配的文字。
17 (?> re) 匹配獨立模式而無需回溯。
18 \w 匹配單詞字元。
19 \W 匹配非單詞字元。
20 \s 匹配空白符,相當於:[\t\n\r\f]
21 \S 匹配非空白。
22 \d 匹配數位,相當於:[0-9]
23 \D 匹配非數位。
24 \A 匹配字串的開頭。
25 \Z 匹配字串的結尾。如果存在換行符,則它在換行符之前匹配。
26 \z 匹配字串的結尾。
27 \G 匹配最後一個匹配結束的點。
28 \n 反向參照以捕獲組號:n
29 \b 在括號外部匹配單詞邊界,在括號內匹配退格(0x08)。
30 \B 匹配非字邊界。
31 \n,\t 匹配換行符,回車符,製表符等。
32 \E 跳脫(參照)所有字元直到\E
33 \Q 結束以\Q開頭參照。

start()和end()方法

以下是計算字串中:cat一詞的出現次數範例 -

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexMatches {

   private static final String REGEX = "\\bcat\\b";
   private static final String INPUT = "cat cat cat cattie cat";

   public static void main( String args[] ) {
      Pattern p = Pattern.compile(REGEX);
      Matcher m = p.matcher(INPUT);   // get a matcher object
      int count = 0;

      while(m.find()) {
         count++;
         System.out.println("Match number "+count);
         System.out.println("start(): "+m.start());
         System.out.println("end(): "+m.end());
      }
   }
}

執行上面範例程式碼,得到以下結果:

Match number 1
start(): 0
end(): 3
Match number 2
start(): 4
end(): 7
Match number 3
start(): 8
end(): 11
Match number 4
start(): 19
end(): 22

可以看到此範例使用單詞邊界來確保字母:c,a,t不僅僅是較長單詞中的子字串。 它還提供了有關輸入字串中匹配發生位置的一些有用資訊。

start方法返回上一個匹配操作期間給定組捕獲的子序列的起始索引,end返回匹配的最後一個字元的索引加1

matches和lookingAt方法

matches()lookingAt()方法都嘗試將輸入序列與模式匹配。 然而,不同之處在於匹配需要匹配整個輸入序列,而查詢則不需要。

兩種方法總是從輸入字串的開頭開始。 以下是上述方法的範例 -

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexMatches {

   private static final String REGEX = "foo";
   private static final String INPUT = "fooooooooooooooooo";
   private static Pattern pattern;
   private static Matcher matcher;

   public static void main( String args[] ) {
      pattern = Pattern.compile(REGEX);
      matcher = pattern.matcher(INPUT);

      System.out.println("Current REGEX is: "+REGEX);
      System.out.println("Current INPUT is: "+INPUT);

      System.out.println("lookingAt(): "+matcher.lookingAt());
      System.out.println("matches(): "+matcher.matches());
   }
}

執行上面範例程式碼,得到以下結果:

Current REGEX is: foo
Current INPUT is: fooooooooooooooooo
lookingAt(): true
matches(): false

replaceFirst和replaceAll方法
replaceFirst()replaceAll()方法替換匹配給定正規表示式的文字。 正如其名稱所示,replaceFirst()替換第一個匹配項,replaceAll()替換所有匹配項。

以下是上述功能的範例 -

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexMatches {

   private static String REGEX = "dog";
   private static String INPUT = "The dog says meow. " + "All dogs say meow.";
   private static String REPLACE = "cat";

   public static void main(String[] args) {
      Pattern p = Pattern.compile(REGEX);

      // get a matcher object
      Matcher m = p.matcher(INPUT); 
      INPUT = m.replaceAll(REPLACE);
      System.out.println(INPUT);
   }
}

執行上面範例程式碼,得到以下結果:

The cat says meow. All cats say meow.

appendReplacement和appendTail方法

Matcher類還提供了appendReplacementappendTail方法來替換文字。

以下是上述方法的範例 -

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexMatches {

   private static String REGEX = "a*b";
   private static String INPUT = "aabfooaabfooabfoob";
   private static String REPLACE = "-";
   public static void main(String[] args) {

      Pattern p = Pattern.compile(REGEX);

      // get a matcher object
      Matcher m = p.matcher(INPUT);
      StringBuffer sb = new StringBuffer();
      while(m.find()) {
         m.appendReplacement(sb, REPLACE);
      }
      m.appendTail(sb);
      System.out.println(sb.toString());
   }
}

執行上面範例程式碼,得到以下結果:

-foo-foo-foo-