在定向爬蟲的制作過(guò)程中,使用分布式爬取技術(shù)可以顯著提高爬取效率。而 Redis 配合 Scrapy 是實(shí)現(xiàn)分布式爬取的基礎(chǔ)。
Redis 是一個(gè)高性能的 Key-Value 數(shù)據(jù)庫(kù),它把數(shù)據(jù)保存在內(nèi)存里。因此可以有非??斓臄?shù)據(jù)讀寫速度。
scrapy-redis 的安裝
pip install scrapy-rediseasy_install scrapy-redis
下載
http://redis.io/download
版本推薦
stable 3.0.2
運(yùn)行redis
redis-server redis.conf
清空緩存
redis-cli flushdb
scrapy配置redis
settings.py配置redis
SCHEDULER = "scrapy_redis.scheduler.Scheduler"SCHEDULER_PERSIST = TrueSCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue'REDIS_URL = None # 一般情況可以省去REDIS_HOST = '127.0.0.1' # 也可以根據(jù)情況改成 localhostREDIS_PORT = 6379
在scrapy中使用scrapy-redis
spider 繼承RedisSpider
class tempSpider(RedisSpider) name = "temp"redis_key = ''temp:start_url"
以上這篇基于scrapy的redis安裝和配置方法就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持武林站長(zhǎng)站。
新聞熱點(diǎn)
疑難解答
圖片精選