1.scrapy基本了解
Scrapy是一個為了爬取網站數據,提取結構性數據而編寫的應用框架??梢詰迷诎〝祿诰?, 信息處理或存儲歷史數據等一系列的程序中。其最初是為了頁面抓取(更確切來說,網絡抓取)所設計的,也可以應用在獲取API所返回的數據(比如Web Services)或者通用的網絡爬蟲。
Scrapy也能幫你實現高階的爬蟲框架,比如爬取時的網站認證、內容的分析處理、重復抓取、分布式爬取等等很復雜的事。
Scrapy主要包括了以下組件:
Scrapy運行流程大概如下:
1.首先,引擎從調度器中取出一個鏈接(URL)用于接下來的抓取
2.引擎把URL封裝成一個請求(Request)傳給下載器,下載器把資源下載下來,并封裝成應答包(Response)
3.然后,爬蟲解析Response
4.若是解析出實體(Item),則交給實體管道進行進一步的處理。
5.若是解析出的是鏈接(URL),則把URL交給Scheduler等待抓取
2.安裝scrapy
虛擬環境安裝:
sudo pip install virtualenv #安裝虛擬環境工具
virtualenv ENV #創建一個虛擬環境目錄
source ./ENV/bin/active #激活虛擬環境
pip install Scrapy #驗證是否安裝成功
pip list #驗證安裝
可以如下測試:
scrapy bench
新聞熱點
疑難解答