python自然語言編碼轉換模塊codecs介紹

2020-02-23 00:36:43

字體：大中小

來源：轉載

供稿：網友

python對多國語言的處理是支持的很好的，它可以處理現在任意編碼的字符，這里深入的研究一下python對多種不同語言的處理。

有一點需要清楚的是，當python要做編碼轉換的時候，會借助于內部的編碼，轉換過程是這樣的：
代碼如下:
原有編碼 -> 內部編碼 -> 目的編碼

python的內部是使用unicode來處理的，但是unicode的使用需要考慮的是它的編碼格式有兩種，一是UCS-2，它一共有65536個碼位，另一種是UCS-4，它有2147483648g個碼位。對于這兩種格式，python都是支持的，這個是在編譯時通過--enable-unicode=ucs2或--enable-unicode=ucs4來指定的。那么我們自己默認安裝的python有的什么編碼怎么來確定呢？有一個辦法，就是通過sys.maxunicode的值來判斷：
代碼如下:
import sys
print sys.maxunicode

如果輸出的值為65535,那么就是UCS-2,如果輸出是1114111就是UCS-4編碼。
我們要認識到一點：當一個字符串轉換為內部編碼后，它就不是str類型了！它是unicode類型：
代碼如下:
a = "風卷殘云"
print type(a)
b = a.unicode(a, "gb2312")
print type(b)

輸出：
代碼如下:
<type 'str'>
<type 'unicode'>

這個時候b可以方便的任意轉換為其他編碼，比如轉換為utf-8:
代碼如下:
c = b.encode("utf-8")
print c

c輸出的東西看起來是亂碼，那就對了，因為是utf-8的字符串。

好了，該說說codecs模塊了，它和我上面說的概念是密切相關的。codecs專門用作編碼轉換，當然，其實通過它的接口是可以擴展到其他關于代碼方面的轉換的，這個東西這里不涉及。
代碼如下:
#-*- encoding: gb2312 -*-
import codecs, sys

print '-'*60
# 創建gb2312編碼器
look = codecs.lookup("gb2312")
# 創建utf-8編碼器
look2 = codecs.lookup("utf-8")

a = "我愛北京天安門"

print len(a), a
# 把a編碼為內部的unicode, 但為什么方法名為decode呢，我的理解是把gb2312的字符串解碼為unicode
b = look.decode(a)
# 返回的b[0]是數據，b[1]是長度，這個時候的類型是unicode了
print b[1], b[0], type(b[0])
# 把內部編碼的unicode轉換為gb2312編碼的字符串，encode方法會返回一個字符串類型
b2 = look.encode(b[0])
# 發現不一樣的地方了吧？轉換回來之后，字符串長度由14變為了7! 現在的返回的長度才是真正的字數，原來的是字節數
print b2[1], b2[0], type(b2[0])
# 雖然上面返回了字數，但并不意味著用len求b2[0]的長度就是7了，仍然還是14，僅僅是codecs.encode會統計字數
print len(b2[0])

上面的代碼就是codecs的使用，是最常見的用法。另外還有一個問題就是，如果我們處理的文件里的字符編碼是其他類型的呢？這個讀取進行做處理也需要特殊的處理的。codecs也提供了方法.

上一篇：Python中關于字符串對象的一些基礎知識

下一篇：Python使用scrapy采集數據過程中放回下載過大頁面的方法