Java提供了java.util.regex
包,用於與正規表示式進行模式匹配。 Java正規表示式與Perl程式設計語言非常相似,非常容易學習。
正規表示式是一種特殊的字元序列,可使用模式中的專用語法來匹配或查詢其他字串或字串集。 它們可用於搜尋,編輯或操作文字和資料。
java.util.regex
包主要由以下三個類組成 -
Pattern
類 - Pattern
物件是正規表示式的編譯表示。 Pattern
類不提供公共建構函式。 要建立模式,需要首先呼叫它的公共靜態compile()
方法,然後返回Pattern
物件。 這些方法接受正規表示式作為第一個引數。
Matcher
類 - Matcher
物件是解釋模式並對輸入字串執行匹配操作的引擎。 與Pattern
類一樣,Matcher
沒有定義公共建構函式。 通過在Pattern
物件上呼叫matcher()
方法獲取Matcher
物件。
PatternSyntaxException
- PatternSyntaxException
物件是未經檢查的異常,指示正規表示式模式中的語法錯誤。
捕獲組是將多個字元視為一個單元的一種方法。 它們是通過將要分組的字元放在一組括號中來建立的。 例如,正規表示式(dog
)建立包含字母d
,o
和g
的單個組。
捕獲組通過從左到右計算它們的左括號來編號。 在表示式((A)(B(C)))
中,例如,有四個這樣的組 -
((A)(B(C)))
(A)
(B(C))
(C)
要查詢表示式中存在多少個組,請在Matcher
物件上呼叫groupCount()
方法。 groupCount()
方法返回一個int
型別值,顯示Matcher
模式中存在的捕獲組數。
還有一個特殊組,即組0
,它始終代表整個表示式。 該組未包含在groupCount()
報告的總數中。
範例
以下範例說明如何從給定的字母數位字串中查詢數位字串 -
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class RegexMatches {
public static void main( String args[] ) {
// String to be scanned to find the pattern.
String line = "This order was placed for QT3000! OK?";
String pattern = "(.*)(\\d+)(.*)";
// Create a Pattern object
Pattern r = Pattern.compile(pattern);
// Now create matcher object.
Matcher m = r.matcher(line);
if (m.find( )) {
System.out.println("Found value: " + m.group(0) );
System.out.println("Found value: " + m.group(1) );
System.out.println("Found value: " + m.group(2) );
}else {
System.out.println("NO MATCH");
}
}
}
執行上面範例程式碼,得到以下結果:
Found value: This order was placed for QT3000! OK?
Found value: This order was placed for QT300
Found value: 0
下面列出了Java中可用的所有正規表示式元字元語法 -
編號 | 子表示式 | 匹配 |
---|---|---|
1 | ^ |
匹配行的開頭。 |
2 | $ |
匹配行的結尾。 |
3 | . |
匹配除換行符之外的任何單個字元,使用m 選項也可以匹配換行符。 |
4 | [...] |
匹配括號中的任何單個字元。 |
5 | [^...] |
匹配括號內的任何單個字元。 |
6 | \A |
整個字串的開頭。 |
7 | \z |
整個字串的結尾。 |
8 | \Z |
除允許的最終行終止符之外的整個字串的結尾。 |
9 | re* |
匹配前面表示式的0 次或更多次出現。 |
10 | re+ |
匹配前面表示式的1 次或更多次出現。 |
11 | re? |
匹配前面表示式的0 或1 次出現。 |
12 | re{n} |
準確匹配前面表示式的n 次出現次數。 |
13 | re{n,} |
準確匹配前面表示式的n 次以上出現次數。 |
14 | aΙb | 匹配a 或b 。 |
15 | (re) |
對正規表示式進行分組並記住匹配的文字。 |
16 | (?: re) |
將正規表示式分組而不記住匹配的文字。 |
17 | (?> re) |
匹配獨立模式而無需回溯。 |
18 | \w |
匹配單詞字元。 |
19 | \W |
匹配非單詞字元。 |
20 | \s |
匹配空白符,相當於:[\t\n\r\f] |
21 | \S |
匹配非空白。 |
22 | \d |
匹配數位,相當於:[0-9] 。 |
23 | \D |
匹配非數位。 |
24 | \A |
匹配字串的開頭。 |
25 | \Z |
匹配字串的結尾。如果存在換行符,則它在換行符之前匹配。 |
26 | \z |
匹配字串的結尾。 |
27 | \G |
匹配最後一個匹配結束的點。 |
28 | \n |
反向參照以捕獲組號:n 。 |
29 | \b |
在括號外部匹配單詞邊界,在括號內匹配退格(0x08 )。 |
30 | \B |
匹配非字邊界。 |
31 | \n ,\t |
匹配換行符,回車符,製表符等。 |
32 | \E |
跳脫(參照)所有字元直到\E 。 |
33 | \Q |
結束以\Q 開頭參照。 |
start()和end()方法
以下是計算字串中:cat
一詞的出現次數範例 -
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class RegexMatches {
private static final String REGEX = "\\bcat\\b";
private static final String INPUT = "cat cat cat cattie cat";
public static void main( String args[] ) {
Pattern p = Pattern.compile(REGEX);
Matcher m = p.matcher(INPUT); // get a matcher object
int count = 0;
while(m.find()) {
count++;
System.out.println("Match number "+count);
System.out.println("start(): "+m.start());
System.out.println("end(): "+m.end());
}
}
}
執行上面範例程式碼,得到以下結果:
Match number 1
start(): 0
end(): 3
Match number 2
start(): 4
end(): 7
Match number 3
start(): 8
end(): 11
Match number 4
start(): 19
end(): 22
可以看到此範例使用單詞邊界來確保字母:c
,a
,t
不僅僅是較長單詞中的子字串。 它還提供了有關輸入字串中匹配發生位置的一些有用資訊。
start
方法返回上一個匹配操作期間給定組捕獲的子序列的起始索引,end
返回匹配的最後一個字元的索引加1
。
matches和lookingAt方法
matches()
和lookingAt()
方法都嘗試將輸入序列與模式匹配。 然而,不同之處在於匹配需要匹配整個輸入序列,而查詢則不需要。
兩種方法總是從輸入字串的開頭開始。 以下是上述方法的範例 -
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class RegexMatches {
private static final String REGEX = "foo";
private static final String INPUT = "fooooooooooooooooo";
private static Pattern pattern;
private static Matcher matcher;
public static void main( String args[] ) {
pattern = Pattern.compile(REGEX);
matcher = pattern.matcher(INPUT);
System.out.println("Current REGEX is: "+REGEX);
System.out.println("Current INPUT is: "+INPUT);
System.out.println("lookingAt(): "+matcher.lookingAt());
System.out.println("matches(): "+matcher.matches());
}
}
執行上面範例程式碼,得到以下結果:
Current REGEX is: foo
Current INPUT is: fooooooooooooooooo
lookingAt(): true
matches(): false
replaceFirst和replaceAll方法replaceFirst()
和replaceAll()
方法替換匹配給定正規表示式的文字。 正如其名稱所示,replaceFirst()
替換第一個匹配項,replaceAll()
替換所有匹配項。
以下是上述功能的範例 -
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class RegexMatches {
private static String REGEX = "dog";
private static String INPUT = "The dog says meow. " + "All dogs say meow.";
private static String REPLACE = "cat";
public static void main(String[] args) {
Pattern p = Pattern.compile(REGEX);
// get a matcher object
Matcher m = p.matcher(INPUT);
INPUT = m.replaceAll(REPLACE);
System.out.println(INPUT);
}
}
執行上面範例程式碼,得到以下結果:
The cat says meow. All cats say meow.
appendReplacement和appendTail方法
Matcher
類還提供了appendReplacement
和appendTail
方法來替換文字。
以下是上述方法的範例 -
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class RegexMatches {
private static String REGEX = "a*b";
private static String INPUT = "aabfooaabfooabfoob";
private static String REPLACE = "-";
public static void main(String[] args) {
Pattern p = Pattern.compile(REGEX);
// get a matcher object
Matcher m = p.matcher(INPUT);
StringBuffer sb = new StringBuffer();
while(m.find()) {
m.appendReplacement(sb, REPLACE);
}
m.appendTail(sb);
System.out.println(sb.toString());
}
}
執行上面範例程式碼,得到以下結果:
-foo-foo-foo-