国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

<p id="tycx1"><ins id="tycx1"></ins></p>

<small id="tycx1"></small>

<source id="tycx1"><tr id="tycx1"></tr></source><small id="tycx1"><tbody id="tycx1"><noframes id="tycx1"></noframes></tbody></small>

<small id="tycx1"></small>

首頁 > 編程 > Python > 正文

Python爬蟲框架scrapy實現downloader_middleware設置proxy代理功能示例

2020-02-15 22:42:03

字體：大中小

來源：轉載

供稿：網友

本文實例講述了Python爬蟲框架scrapy實現downloader_middleware設置proxy代理功能。分享給大家供大家參考，具體如下：

一、背景：

小編在爬蟲的時候肯定會遇到被封殺的情況，昨天爬了一個網站，剛開始是可以了，在settings的設置DEFAULT_REQUEST_HEADERS偽裝自己是chrome瀏覽器，剛開始是可以的，緊接著就被對方服務器封殺了。

代理：

代理，代理，一直覺得爬去網頁把爬去速度放慢一點就能基本避免被封殺，雖然可以使用selenium，但是這個坎必須要過，scrapy的代理其實設置起來很簡單。

注意，request.meta['proxy']=代理ip的API

middlewares.py

class HttpbinProxyMiddleware(object):  def process_request(self, request, spider):    pro_addr = requests.get('http://127.0.0.1:5000/get').text    request.meta['proxy'] = 'http://' + pro_addr    #request.meta['proxy'] = 'http://' + proxy_ip

設置啟動上面我們寫的這個代理

settings.py

DOWNLOADER_MIDDLEWARES = {  'httpbin.middlewares.HttpbinProxyMiddleware': 543,}

spiders

httpbin_test.py

import scrapyclass HttpbinTestSpider(scrapy.Spider):  name = "httpbin_test"  allowed_domains = ["httpbin.ort/get"]  start_urls = ['http://httpbin.org/get']  def parse(self, response):    print(response.text)

origin的值其實就是本地的公網地址，但是因為我們用了代理，這里的ip是美國的一個ip

二、那么問題來了，現在有這么一個場景，如上所述的話，我每個請求都會使用代理池里面的代理IP地址，但是有些操作是不需要代理IP地址的，那么怎么才能讓它請求超時的時候，再使用代理池的IP地址進行重新請求呢？

spider：

1、我們都知道scrapy的基本請求步驟是，首先執行父類里面（scrapy.Spider）里面的start_requests方法，

2、然后start_requests方法也是取拿我們設置的start_urls變量里面的url地址

3、最后才執行make_requests_from_url方法，并只傳入一個url變量

那么，我們就可以重寫make_requests_from_url方法，從而直接調用scrapy.Request()方法，我們簡單的了解一下里面的幾個參數：

1、url=url,其實就是最后start_requests()方法里面拿到的url地址

2、meta這里我們只設置了一個參數，download_timeout:10，作用就是當第一次發起請求的時候，等待10秒鐘，如果沒有請求成功的話，就會直接執行download_middleware里面的方法，我們下面介紹。

3、callback回調函數，其實就是本次的本次所有操作完成后執行的操作，注意，這里可不是說執行完上面所有操作后，再執行這個操作，比如說請求了一個url，并且成功了，下面就會執行這個方法。

上一篇：Anaconda下配置python+opencv+contribx的實例講解

下一篇：python 地圖經緯度轉換、糾偏的實例代碼

學習交流

如何重啟打印機打印服務

如何重啟打印機打印服務...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關注

新聞熱點

明兮語文停止運營發展資金鏈斷裂

2020-02-16 09:52:44

2006年李俊編寫了“熊貓燒香”電腦病毒，現在過得怎么樣？

2020-02-15 15:53:44

谷歌合并Alphabet旗下子公司Jigsaw，未來會如何發展？

2020-02-11 22:02:38

NASA說今天地球引力最小能讓掃帚立起來？原因很簡單

2020-02-11 21:45:12

TCL集團宣布今日起正式更名為“TCL科技”

2020-02-07 10:36:18

黑莓曲終落，情懷價幾何？

2020-02-06 12:16:44

疑難解答

圖片精選

網友關注

主站蜘蛛池模板：威信县| 额济纳旗| 五台县| 虞城县| 博客| 怀来县| 会泽县| 三穗县| 高陵县| 格尔木市| 贵阳市| 大宁县| 清原| 乐清市| 印江| 清河县| 衡阳市| 沂水县| 富源县| 报价| 榆树市| 贺州市| 麟游县| 宁晋县| 保康县| 崇义县| 白山市| 北宁市| 镇沅| 黑水县| 来宾市| 白沙| 北安市| 安泽县| 扎鲁特旗| 巴林左旗| 永清县| 丰宁| 丹寨县| 巴彦县| 禹州市|

^{<small id="szcu8"></small>}

<p id="szcu8"></p>

<td id="szcu8"></td>

^{<noscript id="szcu8"></noscript>}

<td id="szcu8"></td>