python爬蟲系列三：爬取糗百成人的妹子圖片(scrapy框架+正則)

2019-11-06 08:18:04

字體：大中小

供稿：網(wǎng)友

windows下scrapy的安裝

具體的安裝使用，詳見scrapy官網(wǎng)：http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html 1.pip install scrapy 2.安裝py32，我的CSDN資源路勁http://download.csdn.net/detail/u010445540/9769285 3，pip install pillow

安裝scrapy之后，執(zhí)行命令 scrapy startPRoject qiubai，自動生成scrapy基礎(chǔ)框架

main.py #這個文件是自己編寫的，用來代替命令行啟動 qiubaiscrapy.csv #這個是啟動之后生成的數(shù)據(jù) scrapy.cfg─qiubai │ items.py │ items.pyc │ middlewares.py │ pipelines.py #管道文件 │ pipelines.pyc │ settings.py │ settings.pyc │ __init__.py │ __init__.pyc │ └─spiders qiubaiscrapy.py #定義的spider qiubaiscrapy.pyc __init__.py __init__.pyc

爬取糗百成人的妹子圖片，要定義的文件

具體的實(shí)現(xiàn)的實(shí)現(xiàn)結(jié)果和思路，請看python爬蟲系列二

items.py（帶爬資源的模型文件）

from scrapy import Item, Field class QiubaiItem(Item): image_urls = Field() images = Field()

qiubaiscrapy.py（定義爬蟲程序）

# -*- coding: utf-8 -*- import scrapy from qiubai.items import QiubaiItem import re import os import requests class QiubaiscrapySpider(scrapy.Spider): name = "qiubaiscrapy" allowed_domains = ["qiubaichengren.com"] start_urls = ['http://www.qiubaichengren.com/%s.html' % i for i in range(1, 3)] def parse(self, response): if not os.path.exists('/meizi/'): os.makedirs('/meizi/') print 'xxxxx' reg = r'<img alt="(.*)" src="(.*)" style=".*?" />' html = response.body results = re.findall(reg, html, re.M) for result in results: qb = QiubaiItem() # qb['alt'] = result[0].decode("gbk").encode('utf-8') qb['image_urls'] = result[1] # 從url_str = 'http://wx4.sinaimg.cn/mw600/661eb95cgy1fd49qw0f97j20s00utn68.gif'中找出 661eb95cgy1fd49qw0f97j20s00utn68.gif name_reg = r'[^//]+$' qb['images'] = re.findall(name_reg, result[1])[0] r = requests.get(qb['image_urls']) if r.status_code == 200: open(os.path.join('/meizi/', qb['images']), 'wb').write(r.content) yield qb

啟動scrapy（main.py）

#!/usr/bin/env python # -*- coding: utf-8 -*- from scrapy import cmdline cmdline.execute('scrapy crawl qiubaiscrapy -o qiubaiscrapy.csv -t csv '.split())

ps：這個scrapy框架，實(shí)現(xiàn)的很簡單，只是像我爬蟲系列中的前2章一樣，并沒有太多復(fù)雜的邏輯，但是他的優(yōu)點(diǎn)是可以不再spider，直接推到管道中處理，實(shí)現(xiàn)更加復(fù)雜的邏輯

上一篇：<練手1>（python+selenium）隨機(jī)生成搜索碼，搜索，并在搜索欄匹配結(jié)果進(jìn)行輸出

下一篇：【書山有路】Python基礎(chǔ)教程第6章