国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

Python匹配中文的正則表達式

2020-01-04 17:28:36
字體:
來源:轉載
供稿:網友
正則表達式是一個特殊的字符序列,它能幫助你方便的檢查一個字符串是否與某種模式匹配。接下來通過本文給大家介紹Python匹配中文的正則表達式,感興趣的朋友一起學習吧
 

正則表達式并不是Python的一部分。正則表達式是用于處理字符串的強大工具,擁有自己獨特的語法以及一個獨立的處理引擎,效率上可能不如str自帶的方法,但功能十分強大。得益于這一點,在提供了正則表達式的語言里,正則表達式的語法都是一樣的,區別只在于不同的編程語言實現支持的語法數量不同;但不用擔心,不被支持的語法通常是不常用的部分。

Python正則表達式簡介

正則表達式是一個特殊的字符序列,它能幫助你方便的檢查一個字符串是否與某種模式匹配。

Python 自1.5版本起增加了re 模塊,它提供 Perl 風格的正則表達式模式。

re 模塊使 Python 語言擁有全部的正則表達式功能。

compile 函數根據一個模式字符串和可選的標志參數生成一個正則表達式對象。該對象擁有一系列方法用于正則表達式匹配和替換。

re 模塊也提供了與這些方法功能完全一致的函數,這些函數使用一個模式字符串做為它們的第一個參數。

以上說的都是給正文做鋪墊的,下面看下python正則表達式如何匹配中文的。

# -*- coding: utf-8 -*-import redef findPart(regex, text, name):res=re.findall(regex, text)if res:print "There are %d %s parts:/n"% (len(res), name)for r in res:print "/t",r.encode("utf8")printtext ="#who#helloworld#a中文x#"usample=unicode(text,'utf8')findPart(u"#[/w/u2E80-/u9FFF]+#", usample, "unicode chinese")

注:

幾個主要非英文語系字符范圍

2E80~33FFh:中日韓符號區。收容康熙字典部首、中日韓輔助部首、注音符號、日本假名、韓文音符,中日韓的符號、標點、帶圈或帶括符文數字、月份,以及日本的假名組合、單位、年號、月份、日期、時間等。

3400~4DFFh:中日韓認同表意文字擴充A區,總計收容6,582個中日韓漢字。

4E00~9FFFh:中日韓認同表意文字區,總計收容20,902個中日韓漢字。

A000~A4FFh:彝族文字區,收容中國南方彝族文字和字根。

AC00~D7FFh:韓文拼音組合字區,收容以韓文音符拼成的文字。

F900~FAFFh:中日韓兼容表意文字區,總計收容302個中日韓漢字。

FB00~FFFDh:文字表現形式區,收容組合拉丁文字、希伯來文、阿拉伯文、中日韓直式標點、小符號、半角符號、全角

(#!/usr/bin/python3# -*- coding: UTF-8 -*-import remessage = u'天人合一'.encode('utf8')print(re.search(u'人'.encode('utf8'), message).group())交互模式下的例子>>> import re>>> s='Phone No. 010-87654321'>>> >>> r=re.compile(r'(/d+)-(/d+)')>>> m=r.search(s)>>> m<_sre.SRE_Match object at 0x010EE218>)

以上所述是小編給大家介紹的Python正則表達式匹配中文的方法,希望對大家有所幫助!


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 尉犁县| 皋兰县| 河南省| 和政县| 龙游县| 武清区| 陵水| 凤凰县| 花莲市| 正镶白旗| 襄汾县| 固安县| 涡阳县| 买车| 台中市| 左云县| 兰坪| 大埔区| 青浦区| 施甸县| 突泉县| 理塘县| 金华市| 桂林市| 永济市| 松滋市| 凤翔县| 利津县| 随州市| 咸丰县| 逊克县| 神池县| 湘阴县| 蕲春县| 化隆| 平泉县| 龙州县| 二连浩特市| 深圳市| 凤冈县| 镇安县|