国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

Scrapy的簡單使用教程

2020-02-16 10:28:57
字體:
來源:轉載
供稿:網友

在這篇入門教程中,我們假定你已經安裝了python。如果你還沒有安裝,那么請參考安裝指南。

首先第一步:進入開發(fā)環(huán)境,workon article_spider

進入這個環(huán)境:

安裝Scrapy,在安裝的過程中出現了一些錯誤:通常這些錯誤都是部分文件沒有安裝導致的,因為大學時經常出現,所以對解決這種問題,很實在,直接到http://www.lfd.uci.edu/~gohlke/pythonlibs/這個網站下載對應的文件,下載后用pip安裝,具體過程不在贅述。

然后進入工程目錄,并打開我們的新創(chuàng)建的虛擬環(huán)境:

新建scrapy工程:ArticleSpider

創(chuàng)建好工程框架:在pycharm中導入

 

scrapy.cfg: 項目的配置文件。
ArticleSpeder/: 該項目的python模塊。之后您將在此加入代碼。
ArticleSpeder/items.py: 項目中的item文件。
ArticleSpeder/pipelines.py: 項目中的pipelines文件。
ArticleSpeder/settings.py: 項目的設置文件。
ArticleSpeder/spiders/: 放置spider代碼的目錄。

回到dos窗口用basic創(chuàng)建模板

上面pycharm的截圖中已經創(chuàng)建好了:

為了今后更好的開發(fā),創(chuàng)建一個用于debug的類main.py

from scrapy.cmdline import executeimport sysimport osprint(os.path.dirname(os.path.abspath(__file__)))sys.path.append(os.path.dirname(os.path.abspath(__file__)))execute(["scrapy","crawl","jobbole"])

 這是代碼內容

import sys 為了設置工程目錄,調用命令才會生效

里面的路徑最好不要寫死:可以通過os獲取路徑,更加靈活

execute用來執(zhí)行目標程序的

jobbole.py的內容

class JobboleSpider(scrapy.Spider):name = 'jobbole'allowed_domains = ['blog.jobbole.com']start_urls = ['http://blog.jobbole.com/110287']def parse(self, response):re_selector = response.xpath("/html/body/div[1]/div[3]/div[1]/div[1]/h1")re2_selector = response.xpath('//*[@id="post-110287"]/div[1]/h1')title = response.xpath('//div[@class="entry-header"]/h1/text()')create_date = response.xpath("")#//*[@id="112706votetotal"]dian_zan = int(response.xpath("http://span[contains(@class,'vote-post-up ')]/h10/text()").extract()[0])pass

 通過xpath技術獲取對應文章的一些字段信息,包括標題,時間,評論數,點贊數等,因為比較簡單所以不在贅述

寫到這兒,大家也知道每次在pycharm里面debug和麻煩,因為scrapy比較大,所以這時候我們可以使用Scrapy shell來調試

發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 得荣县| 通榆县| 肥城市| 垣曲县| 定结县| 横峰县| 浦东新区| 新余市| 巴中市| 华阴市| 盐城市| 西宁市| 怀仁县| 牡丹江市| 禄丰县| 银川市| 疏勒县| 鲜城| 扎鲁特旗| 汾西县| 辰溪县| 化州市| 嵊州市| 武义县| 蓝山县| 时尚| 北票市| 桑植县| 兰溪市| 会理县| 阿克| 迁安市| 贞丰县| 乌鲁木齐县| 和硕县| 双鸭山市| 巴彦县| 自贡市| 噶尔县| 黔江区| 民县|