国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > JavaScript > 正文

node.js爬取中關村的在線電瓶車信息

2019-11-19 12:31:52
字體:
來源:轉載
供稿:網友

背景

學習nodejs已經有段時間,網上很多nodejs爬蟲的文章,所以著手練習寫一段,最近打算買一輛電瓶車來上下班,但又不知道哪個好,網上是各說紛紜啊,于是就想著,干脆用node.js自己寫一個小爬蟲,來爬一下中關村在線里面電瓶車的信息吧。

簡介

該demo采用node.js作為爬蟲,為方便,有些地方使用es6語法,如有不懂,歡迎咨詢😊

步驟

第一步,引入需要的庫

var cheerio = require('cheerio');var fetch = require('node-fetch');// cheerio 是一個類似瀏覽器端的jQuery,用來解析HTML的// fetch 用來發送請求

第二步,設置初始的爬取的入口(我身處杭州,所以地區選了杭州的🤣)

// 初始urlvar url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"http:// 由于每個a標簽下是相對路徑,故需要一個根地址來拼接,如下var urlRoot = "http://detail.zol.com.cn" // 存放所有url,之所以用set,是為了防止有相同的而重復爬去var urls = new Set()// 存儲所有數據var data = [] 

至此,我們的準備部分結束了😅,接下來,開始表演了

分析網頁,思考爬取的方式


每行4款,每頁是48款,一共16頁

思路:

  • 每次獲取當前頁48個鏈接,并點進去之后,拿到該電瓶車的名稱和價格(其他信息獲取方式一樣,自行改就好😂)
  • 第一頁的全部完成之后,翻到下一頁,繼續爬,直到最后一頁結束

首先我們定義一個函數如下

// 這是得到每個頁面的48個鏈接,并開始發送請求function ad(arg){// 參數 arg 先不管// 本地化一下需要爬取的鏈接let url2 = arg || url;// 請求第一頁該網頁,拿到數據之后,復制給 appvar app = await fetch(url2).then(res=>res.text())// 然后假裝用jQuery解析了var $ = cheerio.load(app)// 獲取當前頁所有電瓶車的a標簽var ele = $("#J_PicMode a.pic")// 存放已經爬取過的url,防止重復爬取var old_urls = []var urlapp = []//拿到所有a標簽地址之后,存在數組里面,等會兒要開始爬的for (let i = 0; i < ele.length; i++) {old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))}// 用把URL一塊丟給promise處理urlapp = await Promise.all(old_urls)// 處理完成之后,循環加入jQuery😂for (let i = 0; i < urlapp.length; i++) {let $2 = cheerio.load(urlapp[i],{decodeEntities: false})data.push({name:$2(".product-model__name").text(),price:$2(".price-type").text()})}// 至此,一頁的數據就爬完了// console.log(data);// 然后開始爬取下一頁var nextURL = $(".next").attr('href')// 判斷當前頁是不是最后一頁if (nextURL){let next = await fetch(urlRoot+nextURL).then(res=>res.text())// 獲取下一頁的標簽,拿到地址,走你ad(urlRoot+nextURL)}return data}ad()

完整代碼如下

var cheerio = require('cheerio');var fetch = require('node-fetch');var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"var urlRoot = "http://detail.zol.com.cn"http:// var url = "http://localhost:3222/app1"var urls = new Set()var data = [] async function ad(arg){let url2 = arg || url;var app = await fetch(url2).then(res=>res.text())var $ = cheerio.load(app)var ele = $("#J_PicMode a.pic")var old_urls = []var urlapp = []for (let i = 0; i < ele.length; i++) {old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))}urlapp = await Promise.all(old_urls)for (let i = 0; i < urlapp.length; i++) {let $2 = cheerio.load(urlapp[i],{decodeEntities: false})data.push({name:$2(".product-model__name").text(),price:$2(".price-type").text()})}var nextURL = $(".next").attr('href')if (nextURL){let next = await fetch(urlRoot+nextURL).then(res=>res.text())ad(urlRoot+nextURL)}return data}ad()

總結

以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作具有一定的參考學習價值,如果有疑問大家可以留言交流,謝謝大家對武林網的支持。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 蒙城县| 新竹市| 鞍山市| 郎溪县| 湖州市| 如东县| 都江堰市| 阳西县| 孟津县| 五峰| 兰考县| 鄄城县| 陇南市| 华坪县| 深州市| 临汾市| 天镇县| 紫金县| 安化县| 邹城市| 济阳县| 遂昌县| 靖远县| 张家港市| 清远市| 璧山县| 中卫市| 嘉善县| 建宁县| 崇州市| 富民县| 留坝县| 斗六市| 白银市| 田林县| 吉林市| 宜城市| 石泉县| 旺苍县| 佛坪县| 静乐县|