国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

python3訪問sina首頁中文的處理方法

2020-02-23 05:11:56
字體:
來源:轉載
供稿:網友

代碼如下:
"""
如果只用普通的
import urllib.request
html = urllib.request.urlopen("http://www.sina.com").read()
print(html.decode('gbk'))

出現下面的錯誤
builtins.UnicodeDecodeError: 'gbk' codec can't decode byte 0x8b in position 1: illegal multibyte sequence

怎么辦?原來是有的網站將網頁用gzip壓縮了 。
請看下面的代碼

建議大家用python2
import urllib2
from StringIO import StringIO
import gzip

request = urllib2.Request('http://www.sina.com')
request.add_header('Accept-encoding', 'gzip')
response = urllib2.urlopen(request)
if response.info().get('Content-Encoding') == 'gzip':
    buf = StringIO( response.read())
    f = gzip.GzipFile(fileobj=buf)
    data = f.read()
print data.decode("GBK").encode('utf-8')
"""

import io
import urllib.request as r
import gzip
req = r.Request("http://www.sina.com", headers={"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36", "Accept-Encoding": "gzip"})
bs = r.urlopen(req).read()
bi = io.BytesIO(bs)
gf = gzip.GzipFile(fileobj=bi, mode="rb")
print(gf.read().decode("gbk"))

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 霸州市| 安阳市| 克东县| 龙里县| 普兰县| 建水县| 上饶市| 安顺市| 崇礼县| 登封市| 土默特右旗| 永顺县| 新邵县| 皮山县| 阿图什市| 饶阳县| 武威市| 延庆县| 镇雄县| 钟山县| 花垣县| 靖宇县| 乐山市| 河曲县| 全椒县| 东安县| 巫山县| 广宗县| 宁安市| 调兵山市| 孟州市| 新田县| 海宁市| 平乡县| 灵宝市| 巧家县| 永吉县| 霍邱县| 阳城县| 高安市| 沽源县|