在國內利用Python從Internet上爬取數(shù)據時,有些網站或API接口被限速或屏蔽,這時使用代理可以加速爬取過程,減少請求失敗,Python程序使用代理的方法主要有以下幾種:
(1)如果是在代碼中使用一些網絡庫或爬蟲框架進行數(shù)據爬取,一般這種框架都會支持設置代理,例如:
<span style="font-size:14px;">import urllib.request as urlreq # 設置https代理 ph = urlreq.ProxyHandler({'https': 'https://127.0.0.1:1080'}) oper = urlreq.build_opener(ph) # 將代理安裝到全局環(huán)境,這樣所有請求都會自動使用代理 urlreq.install_opener(oper) res = oper.open("https://www.google.com") print(res.read())</span> <span style="font-size:14px;">import requests as req print(req.get("https://www.google.com", proxies={'https': 'https://127.0.0.1:1080'}).content)</span> (2)如果使用的庫沒有提供設置代理的接口,但是底層使用了urllib、requests等庫,可以嘗試設置HTTP_PROXY 和HTTPS_PROXY環(huán)境變量,常用的網絡庫會自動識別這些環(huán)境變量,使用變量設置的代理發(fā)起請求,設置如下:
import os os.environ['http_proxy'] = 'http://127.0.0.1:1080' os.environ['https_proxy'] = 'https://127.0.0.1:1080'
(3)如果上述兩種方法都沒有用,那么還可以使用一些可以監(jiān)聽、攔截和修改網絡包的工具和庫如(Fiddler、mitmproxy)來攔截http請求包并修改地址,達到使用代理的效果。
以上這篇對python使用http、https代理的實例講解就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持武林站長站。
新聞熱點
疑難解答