Python中Scrapy爬蟲圖片處理詳解

2020-02-16 10:55:09

字體：大中小

來源：轉載

供稿：網友

下載圖片

下載圖片有兩種方式，一種是通過 Requests 模塊發送 get 請求下載，另一種是使用 Scrapy 的 ImagesPipeline 圖片管道類，這里主要講后者。

安裝 Scrapy 時并沒有安裝圖像處理依賴包 Pillow，需手動安裝否則運行爬蟲出錯。

首先在 settings.py 中設置圖片的存儲路徑：

IMAGES_STORE = 'D:/'

圖片處理相關的選項還有：

# 圖片最小高度和寬度設置，可以過濾太小的圖片IMAGES_MIN_HEIGHT = 110IMAGES_MIN_WIDTH = 110# 生成縮略圖選項IMAGES_THUMBS = { 'small': (50, 50), 'big': (270, 270),}

之前已經存在提取內容的 TuchongPipeline 類，如果使用 ImagePipeline 可以將提取內容的操作都合并過來，但是為了更好的說明圖片管道的作用，我們再單獨創建一個 ImagePipeline 類，加到 pipelines.py 文件中，同時重載函數 get_media_requests：

class PhotoGalleryPipeline(object): ...class PhotoPipeline(ImagesPipeline): def get_media_requests(self, item, info):  for (id, url) in item['images'].items():   yield scrapy.Request(url)

上篇文章中我們把圖片的URL保存在了 item['images'] 中，它是一個字典類型的數組，形如：[{img_id: img_url}, ...]，此函數中需要把 img_url 取出并構建為 scrapy.Request 請求對象并返回，每一個請求都將觸發一次下載圖片的操作。

到 settings.py 中注冊 PhotoPipeline，并把優先級設的比提取內容的管道要高一些，保證圖片下載優先于內容處理，目的是如果有圖片下載未成功，通過觸發 DropItem 異?？梢灾袛噙@一個 Item 的處理，防止不完整的數據進入下一管道：

ITEM_PIPELINES = { 'Toutiao.pipelines.PhotoGalleryPipeline': 300, 'Toutiao.pipelines.PhotoPipeline': 200,}

執行爬蟲 scrapy crawl photo ，如無錯誤，在設定的存儲目錄中會出現一個 full 目錄，里面是下載后的圖片。

文件名處理

下載的文件名是以圖片URL通過 sha1 編碼得到的字符，類似 0a79c461a4062ac383dc4fade7bc09f1384a3910.jpg 不是太友好，可以通過重載 file_path 函數自定義文件名，比如可以這樣保留原文件名：

... def file_path(self, request, response=None, info=None):  file_name = request.url.split('/')[-1]  return 'full/%s' % (file_name)...

上面這樣處理難免會有重名的文件被覆蓋，但參數 request 中沒有過多的信息，不便于對圖片分類，因此可以改為重載 item_completed 函數，在下載完成后對圖片進行分類操作。

函數 item_completed 的定義：

def item_completed(self, results, item, info)

參數中包含 item ，有我們抓取的所有信息，參數 results 為下載圖片的結果數組，包含下載后的路徑以及是否成功下載，內容如下：

上一篇：python3利用smtplib通過qq郵箱發送郵件方法示例

下一篇：Django的分頁器實例(paginator)

學習交流

如何重啟打印機打印服務

如何重啟打印機打印服務...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關注

新聞熱點

明兮語文停止運營發展資金鏈斷裂

2020-02-16 09:52:44

2006年李俊編寫了“熊貓燒香”電腦病毒，現在過得怎么樣？

2020-02-15 15:53:44

谷歌合并Alphabet旗下子公司Jigsaw，未來會如何發展？

2020-02-11 22:02:38

NASA說今天地球引力最小能讓掃帚立起來？原因很簡單

2020-02-11 21:45:12

TCL集團宣布今日起正式更名為“TCL科技”

2020-02-07 10:36:18

黑莓曲終落，情懷價幾何？

2020-02-06 12:16:44

疑難解答

圖片精選

網友關注

国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

Python中Scrapy爬蟲圖片處理詳解