前言
在上一篇文中,我們介紹了關(guān)于Python正則表達(dá)式的基礎(chǔ),那么在這一篇文章里,我們將總結(jié)一下正則表達(dá)式關(guān)于捕獲的用法。下面話不多說,來看看詳細(xì)的介紹吧。
捕獲
捕獲和分組在正則表達(dá)式中有著密切的聯(lián)系,一般情況下,分組即捕獲,都用小括號(hào)完成(因此,小括號(hào)在正則表達(dá)式中也屬于特殊字符,表達(dá)原含義時(shí)需要轉(zhuǎn)義):
(…) 正常分組,并捕獲
(?:…) 分組,但是不捕獲
舉個(gè)例子,假設(shè)我們需要匹配一個(gè)座機(jī)號(hào)碼:
>>> m = re.search(r'^(/d{3,4}-)?(/d{7,8})$','020-82228888')>>> m.group(0)'020-82228888'>>> m.group(1)'020-'>>> m.group(2)'82228888'
這里,默認(rèn)分組(0)是完整的匹配,之后的分組則按出現(xiàn)順序排列。
接下來,我們想在一整段文本中,找出所有的座機(jī)號(hào)碼,這里需要用到re.findall
:
>>> re.findall(r'(/d{3,4}-)?(/d{7,8})','020-82228888/n0357-4227865') [('020-', '82228888'), ('0357-', '4227865')]
findall有一個(gè)特性,就是如果結(jié)果中有捕獲的分組,則將捕獲的分組組成tuple返回。利用這個(gè)特點(diǎn),和上面提到的分組,但是不捕獲的語法,可以得到我們想要的結(jié)果:
>>> re.findall(r'(?:/d{3,4}-)?/d{7,8}','020-82228888/n0357-4227865') ['020-82228888', '0357-4227865']>>> re.findall(r'(?:/d{3,4}-)?/d{7,8}','020-82228888/n4227865') ['020-82228888', '4227865']
在正則表達(dá)式中,也可以通過/1,/2等來指代之前捕獲的字符串組合。這個(gè)經(jīng)常用于單雙引號(hào)的正確匹配:
>>> sentence = """You said "why?" and I say "I don't know".""">>> re.findall(r'["/'](.*?)["/']', sentence)['why?', 'I don']>>> re.findall(r'(["/'])(.*?)/1', sentence)[('"', 'why?'), ('"', "I don't know")]
此外,如果覺得/1,/2這種表示可讀性不好的話,還可以給捕獲起一個(gè)英文名字。如下例子中,實(shí)現(xiàn)了兩種不同的日期格式之間的轉(zhuǎn)換:
>>> sentence = "from 12/22/1629 to 11/14/1643">>> re.sub(r'(?P<month>/d{2})/(?P<day>/d{2})/(?P<year>/d{4})', r'/g<year>-/g<month>-/g<day>', sentence) 'from 1629-12-22 to 1643-11-14'
但是,這種命名引用捕獲的方式,在findall、search中卻是無效的:
>>> sentence = """You said "why?" and I say "I don't know".""">>> re.findall(r'(?P<quote>["/'])(.*?)/g<quote>', sentence) []>>> re.search(r'(?P<quote>["/'])(.*?)/g<quote>', sentence) >>> re.search(r'(?P<quote>["/'])(.*?)/1', sentence) <_sre.SRE_Match object; span=(9, 15), match='"why?"'>>>> re.search(r'(?P<quote>["/'])(.*?)/1', sentence).groupdict(){'quote': '"'}
新聞熱點(diǎn)
疑難解答
圖片精選