国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

解決Python網頁爬蟲之中文亂碼問題

2020-02-23 00:05:02
字體:
來源:轉載
供稿:網友

Python是個好工具,但是也有其固有的一些缺點。最近在學習網頁爬蟲時就遇到了這樣一種問題,中文網站爬取下來的內容往往中文顯示亂碼??催^我之前博客的同學可能知道,之前爬取的一個學校網頁就出現了這個問題,但是當時并沒有解決,這著實成了我一個心病。這不,剛剛一解決就將這個方法公布與眾,大家一同分享。

首先,我說一下Python中文亂碼的原因,Python中文亂碼是由于Python在解析網頁時默認用Unicode去解析,而大多數網站是utf-8格式的,并且解析出來之后,python竟然再以Unicode字符格式輸出,會與系統編碼格式不同,導致中文輸出亂碼,知道原因后我們就好解決了。下面上代碼,實驗對象仍是被人上了無數遍的百度主頁~

# -*- coding: utf-8 -*-import urllib2import reimport requestsimport sysimport urllib#設置編碼reload(sys)sys.setdefaultencoding('utf-8')#獲得系統編碼格式type = sys.getfilesystemencoding()r = urllib.urlopen("http://www.baidu.com")#將網頁以utf-8格式解析然后轉換為系統默認格式a = r.read().decode('utf-8').encode(type)print a

最后輸出效果,中文完美輸出

以上這篇解決Python網頁爬蟲之中文亂碼問題就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持武林站長站。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 安陆市| 庄河市| 独山县| 吉首市| 金坛市| 贵溪市| 淄博市| 青海省| 金溪县| 西乌珠穆沁旗| 沙洋县| 海淀区| 大悟县| 台东市| 永泰县| 夏河县| 甘泉县| 大化| 丰镇市| 安泽县| 巫山县| 平乡县| 旌德县| 荣成市| 民勤县| 拜城县| 浪卡子县| 景泰县| 益阳市| 德化县| 白银市| 松江区| 申扎县| 庆元县| 琼结县| 静海县| 昌宁县| 富平县| 鄄城县| 新乡市| 资溪县|