国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

python爬蟲系列三:爬取糗百成人的妹子圖片(scrapy框架+正則)

2019-11-06 08:18:04
字體:
供稿:網(wǎng)友

windows下scrapy的安裝

具體的安裝使用,詳見scrapy官網(wǎng):http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html 1.pip install scrapy 2.安裝py32,我的CSDN資源路勁http://download.csdn.net/detail/u010445540/9769285 3,pip install pillow

安裝scrapy之后,執(zhí)行命令 scrapy startPRoject qiubai,自動生成scrapy基礎(chǔ)框架

main.py #這個文件是自己編寫的,用來代替命令行啟動 qiubaiscrapy.csv #這個是啟動之后生成的數(shù)據(jù) scrapy.cfg─qiubai │ items.py │ items.pyc │ middlewares.py │ pipelines.py #管道文件 │ pipelines.pyc │ settings.py │ settings.pyc │ __init__.py │ __init__.pyc │ └─spiders qiubaiscrapy.py #定義的spider qiubaiscrapy.pyc __init__.py __init__.pyc

爬取糗百成人的妹子圖片,要定義的文件

具體的實(shí)現(xiàn)的實(shí)現(xiàn)結(jié)果和思路,請看python爬蟲系列二

items.py(帶爬資源的模型文件)

from scrapy import Item, Field class QiubaiItem(Item): image_urls = Field() images = Field()

qiubaiscrapy.py(定義爬蟲程序)

# -*- coding: utf-8 -*- import scrapy from qiubai.items import QiubaiItem import re import os import requests class QiubaiscrapySpider(scrapy.Spider): name = "qiubaiscrapy" allowed_domains = ["qiubaichengren.com"] start_urls = ['http://www.qiubaichengren.com/%s.html' % i for i in range(1, 3)] def parse(self, response): if not os.path.exists('/meizi/'): os.makedirs('/meizi/') print 'xxxxx' reg = r'<img alt="(.*)" src="(.*)" style=".*?" />' html = response.body results = re.findall(reg, html, re.M) for result in results: qb = QiubaiItem() # qb['alt'] = result[0].decode("gbk").encode('utf-8') qb['image_urls'] = result[1] # 從url_str = 'http://wx4.sinaimg.cn/mw600/661eb95cgy1fd49qw0f97j20s00utn68.gif'中找出 661eb95cgy1fd49qw0f97j20s00utn68.gif name_reg = r'[^//]+$' qb['images'] = re.findall(name_reg, result[1])[0] r = requests.get(qb['image_urls']) if r.status_code == 200: open(os.path.join('/meizi/', qb['images']), 'wb').write(r.content) yield qb

啟動scrapy(main.py)

#!/usr/bin/env python # -*- coding: utf-8 -*- from scrapy import cmdline cmdline.execute('scrapy crawl qiubaiscrapy -o qiubaiscrapy.csv -t csv '.split())

ps:這個scrapy框架,實(shí)現(xiàn)的很簡單,只是像我爬蟲系列中的前2章一樣,并沒有太多復(fù)雜的邏輯,但是他的優(yōu)點(diǎn)是可以不再spider,直接推到管道中處理,實(shí)現(xiàn)更加復(fù)雜的邏輯


發(fā)表評論 共有條評論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 建阳市| 静海县| 铅山县| 黑水县| 隆回县| 巨鹿县| 大石桥市| 荥经县| 兴海县| 德兴市| 鄱阳县| 金山区| 盐城市| 巢湖市| 商都县| 格尔木市| 永仁县| 永丰县| 遵化市| 寻乌县| 叶城县| 铁力市| 阿拉尔市| 当阳市| 洛川县| 和田市| 鄂托克旗| 永善县| 恩平市| 县级市| 巨鹿县| 河源市| 武宁县| 元氏县| 剑川县| 铜山县| 太仆寺旗| 胶南市| 铜山县| 疏附县| 财经|