小議正則表達式效率貪婪、非貪婪與回溯

2020-03-16 21:12:01

字體：大中小

來源：轉載

供稿：網友

前幾天看了鳥哥的BLOG上寫的關于正則表達式的回溯與遞歸的限制時，對貪婪、非貪婪產生的回溯有疑問，遂近段時間，仔細的學習研究了一下，現在把經驗心得與大家分享一下。

先掃盲一下什么是正則表達式的貪婪，什么是非貪婪？或者說什么是匹配優先量詞，什么是忽略優先量詞？
好吧，我也不知道概念是什么，來舉個例子吧。
某同學想過濾之間的內容，那是這么寫正則以及程序的。

復制代碼代碼如下:

$str = preg_replace('%<script>.+?</script>%i','',$str);//非貪婪

看起來，好像沒什么問題，其實則不然。若

復制代碼代碼如下:

		
		$str = '<script<script>alert(document.cookie)</script>>alert(document.cookie)</script>'; 

那么經過上面的程序處理，其結果為

復制代碼代碼如下:

		
		$str = '<script<script>alert(document.cookie)</script>>alert(document.cookie)</script>'; 
		$str = preg_replace('%<script>.+?</script>%i','',$str);//非貪婪 
		print_r($str); 
		//$str 輸出為 <script>alert(document.cookie)</script> 

仍然達不到他想要的效果。上面的就是非貪婪，也有的叫惰性。其標志非貪婪的標識為量數元字符后面加? ，比如 +?、*?、??(比較特殊，以后的BLOG中，我會寫到)等。即標識非貪婪，如果不寫?就是貪婪。比如

復制代碼代碼如下:

		
		$str = '<script<script>alert(document.cookie)</script>>alert(document.cookie)</script>'; 
		$str = preg_replace('%<script>.+</script>%i','',$str);//非貪婪 
		print_r($str); 
		//$str 輸出為 <script 只有這些了，好像還是不太合適，哈，您知道如何重寫那個正則嗎？ 

以上為貪婪，非貪婪的區別介紹。下面，聊下貪婪、非貪婪引起的回溯問題。先看個小例子。
正則表達式為/w*(/d+)，字符串為cfc456n，那么，這個正則匹配的$1是多少？？

如果您回答是 456,那么，恭喜你，回答錯了，其結果不是456，而是6，您知道為什么嗎？

CFC4N來解釋一下，當正則引擎用正則/w*(/d+)去匹配字符串cfc456n時，會先用/w*去匹配字符串cfc456n，首先，/w*會匹配字符串cfc456n的所有字符，然后再交給/d+去匹配剩下的字符串，而剩下的沒了，這時，/w*規則會不情愿的吐出一個字符，給/d+去匹配，同時，在吐出字符之前，記錄一個點，這個點，就是用于回溯的點，然后/d+去匹配n，發現并不能匹配成功，會再次要求/w*再吐出一個字符，/w*會先再次記錄一個回溯的點，再吐出一個字符。這時，/w* 匹配的結果只有cfc45了，已經吐出6n了，/d+再去匹配6，發現匹配成功，則會通知引擎，匹配成功了，就直接顯示出來了。所以，(/d+)的結果是6，而不是456。

當上面的正則表達式改為 /w*?(/d+)（注意，此處為非貪婪），字符串仍然為cfc456n，那么，這時候，正則匹配的$1是多少？？
甲同學回答：結果是 456。
嗯，是的，正確，是456，CFC4N弱弱的問下，為什么是456 呢？
我在來解釋一下為什么是456
正則表達式有條規則，是量詞優先匹配，所以/w*?會先去匹配字符串cfc456，由于/w*?是非貪婪，正則引擎會用表達式/w+?每次僅匹配一個字符串,然后再將控制權交給后面的/d+去匹配下一個字符，同時，記錄一個點，用于在匹配不成功的時候，返回這里，再次匹配，也就是回溯點。由于/w后面是量詞是*，*表示0到無數次，所以，首先是0次，也就是/w*?匹配個空，記錄回溯點，將控制權交給/d+,/d+去匹配cfc456n的第一個字符c,然后，匹配失敗，于是乎，接著講控制權交給/w*?去匹配cfc456n的c，/w*?匹配c成功，由于是非貪婪，所以，他每次只匹配一個字符，記錄回溯點，然后再將控制權交給/d+匹配f,接著，/d+匹配f再失敗，再把控制權給/w*?，/w*?再匹配c,記錄回溯點（這時/w*?匹配結果是cfc了），再把控制權給/d+，/d+去匹配4，匹配成功，然后，由于量詞是+，就是1到無數次，所以，接著往后匹配，再匹配5，成功，再接著，再匹配6，成功，再接著，繼續匹配操作，下一個字符是n，匹配失敗，這時，/d+會吧控制權交出去。由于/d+后面已經沒有正則表達式了，所以，整個正則表達式宣告匹配完成，其結果就是 cfc456, 其中第一組結果是456。親愛的同學，您明白剛剛的題目的結果，為什么是456了嗎？

好了，您是否從上面的例子了解了貪婪，非貪婪的匹配原理了？那您是否明白您在什么時候需要使用貪婪，非貪婪去處理您的字符串了？
鳥哥的文章里講到針對
表達式、程序為

復制代碼代碼如下:

		
		$reg = "/<script>.*?<//script>/is"; 
		$str = "<script>********</script>"; //長度大于100014 
		$ret = preg_repalce($reg, "", $str); //返回NULL 

其原因就是回溯太多了，直到造成耗盡棧空間爆棧。

再來看個例子。
字符串

復制代碼代碼如下:

$str = '<script>123456</script>';

正則表達式為

復制代碼代碼如下:

		
		$strRegex1 = '%<script>.+<//script>%'; 
		$strRegex2 = '%<script>.+?<//script>%'; 
		$strRegex3 = '%<script>(?:(?!<//script>).)+<//script>%'; 

這三個正則，分別會造成幾次回溯呢？？

答案見下篇 PHP正則表達式的效率：回溯與固化分組

上一篇：深度分析正則(pcre)最大回溯/遞歸限制

下一篇：PHP正則表達式的效率回溯與固化分組

學習交流

MBR怎么轉換為GPT？硬盤MBR格式轉換成GPT格

MBR怎么轉換為GPT？硬盤MBR格式轉換成GPT格式教程...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關注

新聞熱點

光刻機霸主阿斯麥(ASML)：控制芯片產業鏈上游獨占全球80％市場

2020-03-15 23:29:52

博通狀告Netflix侵犯專利：電視沒人看，我們受損失

2020-03-15 13:04:16

比爾·蓋茨退出公司董事會將繼續擔任公司的技術顧問

2020-03-14 11:49:47

微軟被曝高危漏洞“永恒之黑” 或波及全球10萬服務器

2020-03-13 20:04:13

SpaceX擬5月10日進行首次載人發射

2020-03-11 18:58:01

微軟首次任命首席科學官接替沈向洋統領人工智能

2020-03-11 12:55:56

疑難解答

圖片精選

網友關注

国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

小議正則表達式效率 貪婪、非貪婪與回溯

小議正則表達式效率貪婪、非貪婪與回溯