Python制作豆瓣圖片的爬蟲

2020-02-16 11:20:41

字體：大中小

供稿：網(wǎng)友

　　前段時(shí)間自學(xué)了一段時(shí)間的Python，想著濃一點(diǎn)項(xiàng)目來練練手。看著大佬們一說就是爬了100W+的數(shù)據(jù)就非常的羨慕，不過對于我這種初學(xué)者來說，也就爬一爬圖片。

　　我相信很多人的第一個爬蟲程序都是爬去貼吧的圖片，嗯，我平時(shí)不玩貼吧，加上我覺得豆瓣挺良心的，我就爬了豆瓣首頁上面的圖片。其實(shí)最剛開始是想爬全站，后來一想我這簡直是腦子犯抽，全站的圖片爬下來得有多少，再說這個只是練一下手，所以就只爬取了首頁上的圖片。廢話不多說開始代碼。

　　首先是主文件的代碼：

import refrom html_downloder import HtmlDownloaderfrom html_downloder import Image"'起始URL'"url = "https://www.douban.com""'保存目錄'"image_path = "F:/source/Python/爬蟲/ImageGet/Image%s.jpg""'定義實(shí)體類'"downloader = HtmlDownloader()html = downloader.download(url)"'SaveFile(html, html_path)'"html = html.decode('utf-8')"'正則表達(dá)式'"reg1 = r'="(https://img[/S]*?[jpg|png])"'"'提取圖片的URL'"dbdata = re.findall(reg1, html)imgsave = Image()"'下載保存圖片'"imgsave.ImageGet(dbdata, image_path)

我們打開豆瓣首頁然后看一下里面圖片的url會發(fā)現(xiàn)

都是以“=”等號開頭，后面接雙引號，中間都是https://img，末尾以雙引號結(jié)束。

因此我們的正則表達(dá)式可以寫成 reg1 = r'="(https://img[/S]*?[jpg|png])"'

在這個表達(dá)式中"[]"中括號里面的東西會作為一個整體，其中[/S]表示大小寫字母和數(shù)字，[jpg|png]表示以png結(jié)尾或者jpg結(jié)尾（在這次爬蟲中并沒有包括gif，因?yàn)榇蜷_gif的url發(fā)現(xiàn)是空白）。

然后是html_downloder.py的代碼：

 # file: html_downloader.py  import urllib.request import urllib.error import time class HtmlDownloader(object):  def download(self, url):   if url is None:    return None   try:    header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64)'}    "'發(fā)出請求'"    request = urllib.request.Request(url=url, headers=header)    "'獲取結(jié)果'"    response = urllib.request.urlopen(url)   except urllib.error.URLError as e:    if hasattr(e, "code"):     print(e.code)    if hasattr(e, "reason"):     print(e.reason)   if response.getcode() != 200:    return None   html = response.read()   response.close()   return html class Image (object):  def ImageGet(self, imageurl, image_path):   x = 0   for li in imageurl:    urllib.request.urlretrieve(li, image_path % x)    x = x + 1    "'休眠5s以免給服務(wù)器造成嚴(yán)重負(fù)擔(dān)'"    time.sleep(5)

這個文件的代碼主要是負(fù)責(zé)下載html網(wǎng)頁和下載具體的圖片。

接下來就可以在保存路徑對應(yīng)的文件夾中中看到下載的圖片了

上一篇：python爬蟲使用cookie登錄詳解

下一篇：Python實(shí)現(xiàn)螺旋矩陣的填充算法示例