国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

Python使用scrapy抓取網(wǎng)站sitemap信息的方法

2020-02-23 00:36:57
字體:
供稿:網(wǎng)友

本文實例講述了Python使用scrapy抓取網(wǎng)站sitemap信息的方法。分享給大家供大家參考。具體如下:

import refrom scrapy.spider import BaseSpiderfrom scrapy import logfrom scrapy.utils.response import body_or_strfrom scrapy.http import Requestfrom scrapy.selector import HtmlXPathSelectorclass SitemapSpider(BaseSpider): name = "SitemapSpider" start_urls = ["http://www.domain.com/sitemap.xml"] def parse(self, response):  nodename = 'loc'  text = body_or_str(response)  r = re.compile(r"(<%s[/s>])(.*?)(</%s>)"%(nodename,nodename),re.DOTALL)  for match in r.finditer(text):   url = match.group(2)   yield Request(url, callback=self.parse_page) def parse_page(self, response):    hxs = HtmlXPathSelector(response)    #Mock Item  blah = Item()  #Do all your page parsing and selecting the elemtents you want    blash.divText = hxs.select('//div/text()').extract()[0]  yield blah

希望本文所述對大家的Python程序設(shè)計有所幫助。

發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 山东省| 邵武市| 凤山市| 四平市| 博白县| 进贤县| 娱乐| 普兰店市| 元朗区| 平湖市| 丹阳市| 江油市| 拉孜县| 玉林市| 巴南区| 云霄县| 雷波县| 永丰县| 定州市| 临澧县| 巴彦淖尔市| 澳门| 洛南县| 满城县| 奉新县| 石门县| 阳高县| 汶上县| 太白县| 蕲春县| 翁源县| 湘西| 关岭| 枣阳市| 迁西县| 湘乡市| 紫金县| 秭归县| 富川| 皋兰县| 三台县|