国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

Python 正則表達式(轉義問題)

2020-02-23 06:14:31
字體:
來源:轉載
供稿:網友

先說一個比較囧的事情:在寫蝦米音樂試聽下載器的時候遇到一個問題,因為保存的文件都是用音樂的標題命名的,所以碰到一些諸如「対峙/out border」等含有非法字符(哼哼,說的就是你 →_→ Windows)的標題的時候,就會保存失敗。于是我想起了迅雷的解決方法:把所有的非法字符替換成下劃線。

于是就引入了正則表達式的使用。一番搜索囫圇吞棗后,我寫下了這樣的函數:

代碼如下:
def sanitize_filename(filename):
return re.sub('[//:*?<>|]', '_', filename)

最近意識到了這個函數里的好多問題:

Python 和 Shell 不同,無論單引號還是雙引號,反斜杠都是轉義符。走狗屎運的是,Python 對于沒意義的轉義 // 的處理是保持原樣。 即便如此,sanitize_filename('///:*?<>|') 依舊返回 /_______ 而不是全部都是下劃線。

于是感覺得正正經經看看文檔了。

Raw strings

看了文檔后才意識到,Python 正則表達式模塊的轉義是獨立的。例如匹配一個反斜杠字符需要將參數寫成:'////':

Python 將字符串轉義://// 被轉義為 //
re 模塊獲得傳入的 // 將其解釋為正則表達式,按照正則表達式的轉義規則將其轉義為 /
如此麻煩的前提下,Raw String 就大有作為了,顧名思義就是(除了結尾的反斜杠)不會被轉義的字符串。于是匹配一個反斜杠字符就可以寫作 r'//'。

所以上面的 sanitize_filename 改成了:

代碼如下:
def sanitize_filename(filename):
return re.sub(r'[///:*?<>|]', '_', filename)

Regex 和 Match

于是正經看看 re 模塊吧~以下為流水帳,供急性子觀看。

Python 的正則表達式模塊 re 中主要的對象其實是這倆:

正則表達式 RegexObject
匹配 MatchObject
RegexObject 是正則表達式對象,所有 match sub 之類的操作都歸它所有。由 re.compile(pattern, flag) 生成。

代碼如下:
>>> email_pattern = re.compile(r'/w+@/w+/./w+')
>>> email_pattern.findall('My email is abc@def.com and his is user@example.com')
['abc@def.com', 'user@example.com']

其中的方法:

search 從任意字符開始匹配,返回 MatchObject 或者 None
match 從第一個字符開始匹配,返回 MatchObject 或者 None
split 返回由匹配分割的 List
findall 返回所有匹配的 List
finditr 返回 MatchObject 的迭代器
sub 返回替換后的字符串
subn 返回 (替換后的字符串, 替換次數)
re 模塊里提供的函數如 re.sub re.match re.findall 實際上都可以認為是一種省去直接創建正則表達式對象的捷徑。而由于 RegexObject 對象本身可以反復使用,這也是它相對于這些捷徑函數的優勢所在。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 平武县| 内乡县| 内江市| 东至县| 正安县| 绩溪县| 红原县| 柳河县| 赤水市| 玉树县| 岢岚县| 屏边| 祁门县| 雷州市| 定南县| 固始县| 安徽省| 中阳县| 绥德县| 滨州市| 广宗县| 南昌县| 沙雅县| 松滋市| 六枝特区| 怀安县| 长沙县| 上蔡县| 辉县市| 嘉禾县| 万盛区| 隆昌县| 无为县| 同心县| 唐河县| 长治市| 新蔡县| 龙门县| 临湘市| 安福县| 兰西县|