国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

Python制作豆瓣圖片的爬蟲

2020-02-16 11:20:41
字體:
供稿:網(wǎng)友

  前段時(shí)間自學(xué)了一段時(shí)間的Python,想著濃一點(diǎn)項(xiàng)目來練練手。看著大佬們一說就是爬了100W+的數(shù)據(jù)就非常的羨慕,不過對于我這種初學(xué)者來說,也就爬一爬圖片。

  我相信很多人的第一個爬蟲程序都是爬去貼吧的圖片,嗯,我平時(shí)不玩貼吧,加上我覺得豆瓣挺良心的,我就爬了豆瓣首頁上面的圖片。其實(shí)最剛開始是想爬全站,后來一想我這簡直是腦子犯抽,全站的圖片爬下來得有多少,再說這個只是練一下手,所以就只爬取了首頁上的圖片。廢話不多說 開始代碼。

  首先是主文件的代碼:

import refrom html_downloder import HtmlDownloaderfrom html_downloder import Image"'起始URL'"url = "https://www.douban.com""'保存目錄'"image_path = "F:/source/Python/爬蟲/ImageGet/Image%s.jpg""'定義實(shí)體類'"downloader = HtmlDownloader()html = downloader.download(url)"'SaveFile(html, html_path)'"html = html.decode('utf-8')"'正則表達(dá)式'"reg1 = r'="(https://img[/S]*?[jpg|png])"'"'提取圖片的URL'"dbdata = re.findall(reg1, html)imgsave = Image()"'下載保存圖片'"imgsave.ImageGet(dbdata, image_path)

我們打開豆瓣首頁然后看一下里面圖片的url會發(fā)現(xiàn)

都是以“=”等號開頭,后面接雙引號,中間都是https://img,末尾以雙引號結(jié)束。

因此我們的正則表達(dá)式可以寫成 reg1 = r'="(https://img[/S]*?[jpg|png])"'

在這個表達(dá)式中"[]"中括號里面的東西會作為一個整體,其中[/S]表示大小寫字母和數(shù)字,[jpg|png]表示以png結(jié)尾或者jpg結(jié)尾(在這次爬蟲中并沒有包括gif,因?yàn)榇蜷_gif的url發(fā)現(xiàn)是空白)。

然后是html_downloder.py的代碼:

 # file: html_downloader.py  import urllib.request import urllib.error import time class HtmlDownloader(object):  def download(self, url):   if url is None:    return None   try:    header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64)'}    "'發(fā)出請求'"    request = urllib.request.Request(url=url, headers=header)    "'獲取結(jié)果'"    response = urllib.request.urlopen(url)   except urllib.error.URLError as e:    if hasattr(e, "code"):     print(e.code)    if hasattr(e, "reason"):     print(e.reason)   if response.getcode() != 200:    return None   html = response.read()   response.close()   return html class Image (object):  def ImageGet(self, imageurl, image_path):   x = 0   for li in imageurl:    urllib.request.urlretrieve(li, image_path % x)    x = x + 1    "'休眠5s以免給服務(wù)器造成嚴(yán)重負(fù)擔(dān)'"    time.sleep(5)
這個文件的代碼主要是負(fù)責(zé)下載html網(wǎng)頁和下載具體的圖片。

接下來就可以在保存路徑對應(yīng)的文件夾中中看到下載的圖片了

發(fā)表評論 共有條評論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 三明市| 营口市| 庆安县| 南宁市| 响水县| 司法| 青铜峡市| 崇礼县| 湟源县| 定南县| 本溪市| 津市市| 阿克苏市| 瑞安市| 辽阳市| 吉水县| 东安县| 璧山县| 桃园县| 巍山| 柳河县| 丰县| 孙吴县| 本溪市| 图木舒克市| 色达县| 东乡县| 太保市| 尤溪县| 瓮安县| 枣庄市| 孟村| 玉田县| 延津县| 达孜县| 永吉县| 河曲县| 盐亭县| 龙州县| 蚌埠市| 宁陕县|