前段時(shí)間自學(xué)了一段時(shí)間的Python,想著濃一點(diǎn)項(xiàng)目來練練手。看著大佬們一說就是爬了100W+的數(shù)據(jù)就非常的羨慕,不過對于我這種初學(xué)者來說,也就爬一爬圖片。
我相信很多人的第一個爬蟲程序都是爬去貼吧的圖片,嗯,我平時(shí)不玩貼吧,加上我覺得豆瓣挺良心的,我就爬了豆瓣首頁上面的圖片。其實(shí)最剛開始是想爬全站,后來一想我這簡直是腦子犯抽,全站的圖片爬下來得有多少,再說這個只是練一下手,所以就只爬取了首頁上的圖片。廢話不多說 開始代碼。
首先是主文件的代碼:
import refrom html_downloder import HtmlDownloaderfrom html_downloder import Image"'起始URL'"url = "https://www.douban.com""'保存目錄'"image_path = "F:/source/Python/爬蟲/ImageGet/Image%s.jpg""'定義實(shí)體類'"downloader = HtmlDownloader()html = downloader.download(url)"'SaveFile(html, html_path)'"html = html.decode('utf-8')"'正則表達(dá)式'"reg1 = r'="(https://img[/S]*?[jpg|png])"'"'提取圖片的URL'"dbdata = re.findall(reg1, html)imgsave = Image()"'下載保存圖片'"imgsave.ImageGet(dbdata, image_path)我們打開豆瓣首頁然后看一下里面圖片的url會發(fā)現(xiàn)


都是以“=”等號開頭,后面接雙引號,中間都是https://img,末尾以雙引號結(jié)束。
因此我們的正則表達(dá)式可以寫成 reg1 = r'="(https://img[/S]*?[jpg|png])"'
在這個表達(dá)式中"[]"中括號里面的東西會作為一個整體,其中[/S]表示大小寫字母和數(shù)字,[jpg|png]表示以png結(jié)尾或者jpg結(jié)尾(在這次爬蟲中并沒有包括gif,因?yàn)榇蜷_gif的url發(fā)現(xiàn)是空白)。
然后是html_downloder.py的代碼:
# file: html_downloader.py import urllib.request import urllib.error import time class HtmlDownloader(object): def download(self, url): if url is None: return None try: header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64)'} "'發(fā)出請求'" request = urllib.request.Request(url=url, headers=header) "'獲取結(jié)果'" response = urllib.request.urlopen(url) except urllib.error.URLError as e: if hasattr(e, "code"): print(e.code) if hasattr(e, "reason"): print(e.reason) if response.getcode() != 200: return None html = response.read() response.close() return html class Image (object): def ImageGet(self, imageurl, image_path): x = 0 for li in imageurl: urllib.request.urlretrieve(li, image_path % x) x = x + 1 "'休眠5s以免給服務(wù)器造成嚴(yán)重負(fù)擔(dān)'" time.sleep(5)這個文件的代碼主要是負(fù)責(zé)下載html網(wǎng)頁和下載具體的圖片。接下來就可以在保存路徑對應(yīng)的文件夾中中看到下載的圖片了
新聞熱點(diǎn)
疑難解答
圖片精選