正則表達式學習-子表達的使用 – JAVA編程語言程序開發技術文章

PS:在所有例子中正則表達式匹配結果包含在源文本中的【和】之間,有的例子會使用java來實現,如果是java本身正則表達式的用法,會在相應的地方說明。所有java例子都在JDK1.6.0_13下測試通過。

 

一、問題引入

    首先來看一個例子,有的短語如Windows 2000雖然是多個單詞組成,但其實是一個整體,HTML頁面中可以使用非換行空格( 即non-breaking space)讓它在瀏覽器中顯示在一行上,現在來匹配多個這樣的空格:

文本:Your operation systemis Windows   2000.

正則表達式:nbsp;{2,}

結果:Your operation systemis Windows   2000.

分析:這裡使用模式想匹配2個或2個以上的非換行空格,但是從結果可以看出,沒有匹配到任何東西,因為nbsp;{2,}這個模式隻能匹配到像nbsp;;;;;;;這樣以nbsp開頭,2個或2個以上連續分號的文本。

    因為前面說過的重復匹配都是緊挨著重復匹配元字符之前的那個字符的多次重復,但是,如果我們想對一個字符串進行多次匹配,又該怎麼做呢?

 

二、子表達式

    從上面我們引出子表達式。子表達式是一個大的表達式的一部分,把一個表達式劃分為多個子表達式的目的是為瞭把那些子表達式當作一個獨立的元素來使用。子表達式必須用(和)括起來。所以,前面的例子中正則表達式應該寫成(nbsp;){2,}。

    來看一個匹配有效年份的正則:

文本:1988-11-13

正則表達式:(19|20)\d{2}

結果:【1988】-11-13

分析:這個例子中,為瞭排除沒有意義的年份,把年份的前兩位數字限定為19或20,|是正則表達式裡的或操作符。這裡必須把19|20放到一個子表達式裡,即(19|20),否則隻能匹配到以20開頭的年份,

 

三、子表達式的嵌套

    子表達式允許嵌套,而且允許多層嵌套,嵌套層次在理論上沒有限制。

    在表達式 ((A)(B(C))) 中,存在以下幾個子表達式:

1   ((A)(B(C)))

2   (A)

3   (B(C))

4   (C)

共4個,第0個始終代表整個表達式。在後面的回溯引用中會介紹到通過\n(n是子表式的編號)來引用子表達式。

  

發佈留言