国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Regex > 正文

小議正則表達式效率 貪婪、非貪婪與回溯

2020-03-16 21:12:01
字體:
來源:轉載
供稿:網友
前幾天看了鳥哥的BLOG上寫的關于正則表達式的回溯與遞歸的限制時,對貪婪、非貪婪產生的回溯有疑問,遂近段時間,仔細的學習研究了一下,現在把經驗心得與大家分享一下。
 
 
先掃盲一下什么是正則表達式的貪婪,什么是非貪婪?或者說什么是匹配優先量詞,什么是忽略優先量詞? 
好吧,我也不知道概念是什么,來舉個例子吧。 
某同學想過濾之間的內容,那是這么寫正則以及程序的。 
復制代碼代碼如下:

$str = preg_replace('%<script>.+?</script>%i','',$str);//非貪婪 

看起來,好像沒什么問題,其實則不然。若 
復制代碼代碼如下:

$str = '<script<script>alert(document.cookie)</script>>alert(document.cookie)</script>'; 

那么經過上面的程序處理,其結果為 
復制代碼代碼如下:

$str = '<script<script>alert(document.cookie)</script>>alert(document.cookie)</script>'; 
$str = preg_replace('%<script>.+?</script>%i','',$str);//非貪婪 
print_r($str); 
//$str 輸出為 <script>alert(document.cookie)</script> 

仍然達不到他想要的效果。上面的就是非貪婪,也有的叫惰性。其標志非貪婪的標識為量數元字符后面加? ,比如 +?、*?、??(比較特殊,以后的BLOG中,我會寫到)等。即標識非貪婪,如果不寫?就是貪婪。比如 
復制代碼代碼如下:

$str = '<script<script>alert(document.cookie)</script>>alert(document.cookie)</script>'; 
$str = preg_replace('%<script>.+</script>%i','',$str);//非貪婪 
print_r($str); 
//$str 輸出為 <script 只有這些了,好像還是不太合適,哈,您知道如何重寫那個正則嗎? 

以上為貪婪,非貪婪的區別介紹。下面,聊下貪婪、非貪婪引起的回溯問題。先看個小例子。 
正則表達式為/w*(/d+),字符串為cfc456n,那么,這個正則匹配的$1是多少?? 

如果您回答是 456,那么,恭喜你,回答錯了,其結果不是456,而是6,您知道為什么嗎? 

CFC4N來解釋一下,當正則引擎用正則/w*(/d+)去匹配字符串cfc456n時,會先用/w*去匹配字符串cfc456n,首先,/w*會匹配字符串cfc456n的所有字符,然后再交給/d+去匹配剩下的字符串,而剩下的沒了,這時,/w*規則會不情愿的吐出一個字符,給/d+去匹配,同時,在吐出字符之前,記錄一個點,這個點,就是用于回溯的點,然后/d+去匹配n,發現并不能匹配成功,會再次要求/w*再吐出一個字符,/w*會先再次記錄一個回溯的點,再吐出一個字符。這時,/w* 匹配的結果只有cfc45了,已經吐出6n了,/d+再去匹配6,發現匹配成功,則會通知引擎,匹配成功了,就直接顯示出來了。所以,(/d+)的結果是6,而不是456。 

當上面的正則表達式改為 /w*?(/d+)(注意,此處為非貪婪),字符串仍然為cfc456n,那么,這時候,正則匹配的$1是多少?? 
甲同學回答:結果是 456。 
嗯,是的,正確,是456,CFC4N弱弱的問下,為什么是456 呢? 
我在來解釋一下 為什么是456 
正則表達式有條規則,是量詞優先匹配,所以/w*?會先去匹配字符串cfc456,由于/w*?是非貪婪,正則引擎會用表達式/w+?每次僅匹配一個字符串,然后再將控制權交給后面的/d+去匹配下一個字符,同時,記錄一個點,用于在匹配不成功的時候,返回這里,再次匹配,也就是回溯點。由于/w后面是量詞是*,*表示0到無數次,所以,首先是0次,也就是/w*?匹配個空,記錄回溯點,將控制權交給/d+,/d+去匹配cfc456n的第一個字符c,然后,匹配失敗,于是乎,接著講控制權交給/w*?去匹配cfc456n的c,/w*?匹配c成功,由于是非貪婪,所以,他每次只匹配一個字符,記錄回溯點,然后再將控制權交給/d+匹配f,接著,/d+匹配f再失敗,再把控制權給/w*?,/w*?再匹配c,記錄回溯點(這時/w*?匹配結果是cfc了),再把控制權給/d+,/d+去匹配4,匹配成功,然后,由于量詞是+,就是1到無數次,所以,接著往后匹配,再匹配5,成功,再接著,再匹配6,成功,再接著,繼續匹配操作,下一個字符是n,匹配失敗,這時,/d+會吧控制權交出去。由于/d+后面已經沒有正則表達式了,所以,整個正則表達式宣告匹配完成,其結果就是 cfc456, 其中第一組結果是456。親愛的同學,您明白剛剛的題目的結果,為什么是456了嗎? 

好了,您是否從上面的例子了解了貪婪,非貪婪的匹配原理了?那您是否明白您在什么時候需要使用貪婪,非貪婪去處理您的字符串了? 
鳥哥的文章里講到針對 
表達式、程序為 
復制代碼代碼如下:

$reg = "/<script>.*?<//script>/is"; 
$str = "<script>********</script>"; //長度大于100014 
$ret = preg_repalce($reg, "", $str); //返回NULL 

其原因就是回溯太多了,直到造成耗盡棧空間爆棧。 

再來看個例子。 
字符串 
復制代碼代碼如下:

$str = '<script>123456</script>'; 

正則表達式為 
復制代碼代碼如下:

$strRegex1 = '%<script>.+<//script>%'; 
$strRegex2 = '%<script>.+?<//script>%'; 
$strRegex3 = '%<script>(?:(?!<//script>).)+<//script>%'; 

這三個正則,分別會造成幾次回溯呢?? 

答案見下篇 PHP正則表達式的效率:回溯與固化分組

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 屏南县| 罗源县| 滨海县| 什邡市| 读书| 通渭县| 呼伦贝尔市| 介休市| 乌兰县| 无为县| 瑞昌市| 珠海市| 嘉鱼县| 泰安市| 南昌县| 台南市| 广汉市| 阿拉善左旗| 松江区| 辉南县| 武清区| 重庆市| 钦州市| 苏州市| 全椒县| 洛隆县| 含山县| 丰县| 石家庄市| 寿光市| 介休市| 工布江达县| 大安市| 峨边| 平利县| 衡山县| 德令哈市| 西乡县| 颍上县| 牡丹江市| 炉霍县|