Python是個好工具,但是也有其固有的一些缺點。最近在學習網頁爬蟲時就遇到了這樣一種問題,中文網站爬取下來的內容往往中文顯示亂碼??催^我之前博客的同學可能知道,之前爬取的一個學校網頁就出現了這個問題,但是當時并沒有解決,這著實成了我一個心病。這不,剛剛一解決就將這個方法公布與眾,大家一同分享。
首先,我說一下Python中文亂碼的原因,Python中文亂碼是由于Python在解析網頁時默認用Unicode去解析,而大多數網站是utf-8格式的,并且解析出來之后,python竟然再以Unicode字符格式輸出,會與系統編碼格式不同,導致中文輸出亂碼,知道原因后我們就好解決了。下面上代碼,實驗對象仍是被人上了無數遍的百度主頁~
# -*- coding: utf-8 -*-import urllib2import reimport requestsimport sysimport urllib#設置編碼reload(sys)sys.setdefaultencoding('utf-8')#獲得系統編碼格式type = sys.getfilesystemencoding()r = urllib.urlopen("http://www.baidu.com")#將網頁以utf-8格式解析然后轉換為系統默認格式a = r.read().decode('utf-8').encode(type)print a最后輸出效果,中文完美輸出

以上這篇解決Python網頁爬蟲之中文亂碼問題就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持武林站長站。
新聞熱點
疑難解答