国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 開發 > CSS > 正文

CSS選擇器實現字段解析

2024-07-11 08:58:59
字體:
來源:轉載
供稿:網友

根據上面所學的CSS基礎語法知識,現在來實現字段的解析。首先還是解析標題。打開網頁開發者工具,找到標題所對應的源代碼。

發現是在div class="entry-header"下面的h1節點中,于是打開scrapy shell 進行調試

但是我不想要<h1>這種標簽該咋辦,這時候就要使用CSS選擇器中的偽類方法。如下所示。

注意的是兩個冒號。使用CSS選擇器真的很方便。同理我用CSS實現字段解析。代碼如下

# -*- coding: utf-8 -*-  import scrapy  import re  class JobboleSpider(scrapy.Spider):      name = 'jobbole'      allowed_domains = ['blog.jobbole.com']      start_urls = ['http://blog.jobbole.com/113549/']      def parse(self, response):          # title = response.xpath('//div[@class = "entry-header"]/h1/text()').extract()[0]          # create_date = response.xpath("//p[@class = 'entry-meta-hide-on-mobile']/text()").extract()[0].strip().replace("·","").strip()          # praise_numbers = response.xpath("//span[contains(@class,'vote-post-up')]/h10/text()").extract()[0]          # fav_nums = response.xpath("//span[contains(@class,'bookmark-btn')]/text()").extract()[0]          # match_re = re.match(".*?(/d+).*",fav_nums)          # if match_re:          #     fav_nums = match_re.group(1)          # comment_nums = response.xpath("//a[@href='#article-comment']/span").extract()[0]          # match_re = re.match(".*?(/d+).*", comment_nums)          # if match_re:          #     comment_nums = match_re.group(1)          # content = response.xpath("//div[@class='entry']").extract()[0]  #通過CSS選擇器提取字段          title = response.css(".entry-header h1::text").extract()[0]          create_date = response.css(".entry-meta-hide-on-mobile::text").extract()[0].strip().replace("·","").strip()          praise_numbers = response.css(".vote-post-up h10::text").extract()[0]          fav_nums = response.css("span.bookmark-btn::text").extract()[0]          match_re = re.match(".*?(/d+).*", fav_nums)          if match_re:              fav_nums = match_re.group(1)          comment_nums = response.css("a[href='#article-comment'] span::text").extract()[0]          match_re = re.match(".*?(/d+).*", comment_nums)          if match_re:              comment_nums = match_re.group(1)          content = response.css("div.entry").extract()[0]          tags = response.css("p.entry-meta-hide-on-mobile a::text").extract()[0]          pass  

總結

以上所述是小編給大家介紹的CSS選擇器實現字段解析,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回復大家的。在此也非常感謝大家對武林網網站的支持!

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 河间市| 广安市| 江陵县| 平顺县| 巴马| 额敏县| 翁牛特旗| 云安县| 胶南市| 正蓝旗| 武城县| 孝义市| 衢州市| 寿阳县| 镶黄旗| 成武县| 称多县| 晋中市| 邢台市| 舒兰市| 长丰县| 民权县| 深圳市| 来凤县| 四会市| 宜城市| 龙井市| 新民市| 神池县| 双流县| 扎赉特旗| 清涧县| 永安市| 泽库县| 莱西市| 定南县| 芜湖县| 阳曲县| 调兵山市| 镇安县| 恩施市|