Python信息抽取之亂碼解決辦法
就事論事,直說自己遇到的情況,和我不一樣的路過吧,一樣的就看看吧
信息抓取,用python,beautifulSoup,lxml,re,urllib2,urllib2去獲取想要抽取的頁(yè)面內(nèi)容,然后使用lxml或者beautifulSoup進(jìn)行解析,插入mysql 具體的內(nèi)容,好了貌似很簡(jiǎn)單很easy的樣子,可是里面的惡心之處就來(lái)了,第一,國(guó)內(nèi)開發(fā)網(wǎng)站的人在指定網(wǎng)站編碼或者是保存網(wǎng)站源碼的時(shí)候并沒有考慮什么編碼,反正一句話,一個(gè)網(wǎng)站即使你用工具查看或者查看源碼頭信息查看到他們的源碼是utf-8,或者GBK之類的,也別信,哎,什么東西信了就遭殃了,即<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
以下給出一些流程:(具體各個(gè)庫(kù)不是我這里向說的哦)
 import urllib2   import chardet  html = urllib2.urlopen("某網(wǎng)站")  print chardet.detect(html) #這里會(huì)輸出一個(gè)字典{'a':0.99999,'encoding':'utf-8'}好,這整個(gè)html的編碼都知道,該插入以u(píng)tf-8建立的mysql數(shù)據(jù)庫(kù)了吧,但是我就在插入的時(shí)候發(fā)生錯(cuò)誤了,因?yàn)槲沂褂胠xml以后的字符串不是utf-8,而是Big5(繁體字編碼),還有各種未知編碼EUC-JP(日本語(yǔ)編碼),OK,我采取了unicode方法,先對(duì)這個(gè)字段進(jìn)行解碼,在進(jìn)行編碼
if chardet.detect(name)['encoding'] == 'GB2312':  name = unicode(name,'GB2312','ignore').encode('utf-8','ignore')elif chardet.detect(name)['encoding'] == 'Big5': name = unicode(name,'Big5','ignore').encode('utf-8','ignore')elif chardet.detect(name)['encoding'] == 'ascii': name = unicode(name,'ascii','ignore').encode('utf-8','ignore')elif chardet.detect(name)['encoding'] == 'GBK': name = unicode(name,'GBK','ignore').encode('utf-8','ignore')elif chardet.detect(name)['encoding'] == 'EUC-JP': name = unicode(name,'EUC-JP','ignore').encode('utf-8','ignore')else:  name = '未知'感謝閱讀,希望能幫助到大家,謝謝大家對(duì)本站的支持!
新聞熱點(diǎn)
疑難解答
圖片精選