国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 開發 > 綜合 > 正文

正則表達式的3種匹配模式

2024-07-21 02:30:14
字體:
來源:轉載
供稿:網友

正則表達式是處理字符串的常用工具。在c#中,我們一般使用regex類來表示一個正則表達式。一般正則表達式引擎支持以下3種匹配模式:單行模式(singleline)、多行模式(multiline)與忽略大小寫(ignorecase)。

1. 單行模式(singleline)
msdn定義:更改點 (.) 的含義,使它與每一個字符匹配(而不是與除 /n 之外的每個字符匹配)。
使用單行模式的典型場景是獲取網頁源碼中的信息。
示例:
我們使用webbrowser控件,從http://www.xxx.com/1.htm上獲取了如下html源碼,它存儲在變量str中:
<html>
<body>
<div>
line 1
line 2
</div>
</body>
</html>
我們想把div標簽以及其中的內容提取出來,編寫代碼如下:

string pattern = @"<div>.*</div>";
regex regex = new regex(pattern);
if (regex.ismatch(str))
  console.writeline(regex.match(str).value);
else
  console.writeline("mismatch!");

//結果為:mismatch!
錯誤分析:
一般認為點符號(.)是匹配任意單個字符的,而(.*)就是匹配任意多個字符。但實際上點符號不能匹配換行符。在windows中與它等效的表達式為[^/r/n]。
而我們從網站上獲取的html源碼,極少有不換行的。這時候單行模式派上用場了,它可以改變點符號的意義。修改regex實例的構造函數,用regexoptions.singleline來聲明使用單行模式:

string pattern = @"<div>.*</div>";
regex regex = new regex(pattern, regexoptions.singleline);
if (regex.ismatch(str))
  console.writeline(regex.match(str).value);
else
  console.writeline("mismatch!");

/*
結果為:
<div>
line 1
line 2
</div>
*/

單行模式的嵌入修飾符:
我們可以直接在正則表達式中嵌入單行模式:
(?s)<div>.*</div>
(?s)修飾符說明,其后面的表達式采用單行模式。所以使用時請不要將它放在末尾。另外可以使用(?-s)關閉單行模式。
注意:嵌入模式的優先級要高于regex類的regexoptions設置,所以使用了(?s)后,無論是否使用regexoptions.singleline,均按照單行模式解析。

2. 多行模式(multiline)
msdn定義:更改 ^ 和 $ 的含義,使它們分別在任意一行的行首和行尾匹配,而不僅僅在整個字符串的開頭和結尾匹配。
示例:
有一個文本文件,它的每一行是一個用戶名,將文件讀入變量str中進行處理。其內容如下:
二十四畫生
terrylee
莫相會
dflying chen
rainy
借用博客園各位前輩的大名:)
我們想找出一個使用英文字母開頭的用戶名,編寫代碼如下:

string pattern = @"^[a-za-z]+.*";
regex regex = new regex(pattern);
if (regex.ismatch(str))
  console.writeline(regex.match(str).value);
else
  console.writeline("mismatch!");

//結果為:mismatch!
錯誤分析:
(^)是字符串的起始錨定,str的第一個字符是一個中文字,所以匹配不上。我們就可以使用多行模式來改變(^)的含義,使它匹配每一行的起始,而不是整個字符串的起始。
更改代碼如下:

string pattern = @"^[a-za-z]+.*";
regex regex = new regex(pattern, regexoptions.multiline);
if (regex.ismatch(str))
  console.writeline(regex.match(str).value);
else
  console.writeline("mismatch!");

//結果為:terrylee
同時,多行模式也會改變($)的含義,使它匹配每一行的結尾,而不是整個字符串的結尾。
與(^)和($)不同的是,(/a)和(/z)并不受多行模式的影響,永遠匹配整個字符串的起始和結尾。
多行模式的嵌入修飾符:(?m)與(?-m)

3. 忽略大小寫(ignorecase)
msdn定義:指定不區分大小寫的匹配。
這個模式很容易理解,它認為大小寫字符是相同的。我們仍以上例來說明。
示例:

string pattern = @"^[a-z]+.*";
regex regex = new regex(pattern, regexoptions.multiline | regexoptions.ignorecase);
if (regex.ismatch(str))
  console.writeline(regex.match(str).value);
else
  console.writeline("mismatch!");

//結果為:terrylee
分析:請注意這次使用的正則表達式,我們并沒有寫入大寫字母,但卻匹配了以大寫字母開頭的名字,這就是忽略大小寫的效果。
忽略大小寫的嵌入修飾符:(?i)與(?-i)

總結:
最后我們用一個表格來總結一下這三個模式
   定義    影響的表達式    regexoptions枚舉    嵌入標識符
單行模式    更改點 (.) 的含義,使它與每一個字符匹配(而不是與除 /n 之外的每個字符匹配)。    .    singleline    (?s)
多行模式    更改 ^ 和 $ 的含義,使它們分別在任意一行的行首和行尾匹配,而不僅僅在整個字符串的開頭和結尾匹配。    ^$    multiline    (?m)
忽略大小寫    指定不區分大小寫的匹配。        ignorecase    (?i)



收集最實用的網頁特效代碼!

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 乐亭县| 沾化县| 博罗县| 刚察县| 龙山县| 苍梧县| 溧水县| 博野县| 环江| 巴马| 锦屏县| 通渭县| 华宁县| 纳雍县| 龙井市| 襄城县| 沈丘县| 通河县| 新源县| 滁州市| 如东县| 平山县| 惠来县| 平定县| 项城市| 阳谷县| 桂平市| 柯坪县| 双峰县| 盐源县| 邮箱| 康乐县| 体育| 大埔县| 白山市| 吉隆县| 光泽县| 遂平县| 铜山县| 澎湖县| 方城县|