国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > JavaScript > 正文

利用node.js寫一個爬取知乎妹紙圖的小爬蟲

2019-11-19 16:40:21
字體:
供稿:網(wǎng)友

前言

說起寫node爬蟲的原因,真是羞羞呀。一天,和往常一樣,晚上吃過飯便刷起知乎來,首頁便是推薦的你見過最漂亮的女生長什么樣?,點進(jìn)去各種漂亮的妹紙爆照啊!!!,看的我好想把這些好看的妹紙照片都存下來啊!一張張點擊保存,就在第18張得時候,突然想起。我特么不是程序員么,這種手動草做的事,怎么能做,不行我不能丟程序員的臉了,于是便開始這次爬蟲之旅。

原理

初入爬蟲的坑,沒有太多深奧的理論知識,要獲取知乎上帖子中的一張圖片,我把它歸結(jié)為以下幾步。

  • 準(zhǔn)備一個url(當(dāng)然是諸如你見過最漂亮的女生長什么樣?😄)
  • 獲取這個url的html內(nèi)容,并分析其中的dom結(jié)構(gòu),遍歷找到這些漂亮的妹紙圖片url
  • 獲取圖片內(nèi)容
  • 將圖片內(nèi)容寫入本地文件

開始動手

大概知道原理之后我們就可以開干了

準(zhǔn)備一個url

這個最簡單了,去知乎隨便一搜就是一大把,我們以

發(fā)一張你認(rèn)為很漂亮的美女照片?

為例子,先來分析一下這個頁面的dom結(jié)構(gòu),其實很簡單,知乎的一個頁面中會包含很多種類型的圖片,有頭像,用戶評價上傳的圖片啥的。基本上在noscript種都可以找到對應(yīng)的圖片地址。

獲取這個url的html內(nèi)容,并且拿到當(dāng)前頁面noscript中的img鏈接

這一步我們需要會點簡單的nodejs的知識,以及用到一個庫叫cheerio,這個庫具體是用來做什么的,詳細(xì)請移步cheerio

簡單來說就是可以在命令行中使用jQuery來搜索遍歷獲取相應(yīng)的元素。

那么怎樣才能獲取這個帖子的html呢

使用nodejs的https模塊

var https = require('https')getAllHtml (url, callback) { let sHtml = '', _this = this; https.get(url, (res) => { res.on('data', (data) => { sHtml += data; }); res.on('end', () => { callback.bind(_this, sHtml)(); }) }).on('error', (err) => { console.log(err); });}

通過以上操作拿到網(wǎng)站的html之后,便是遍歷出我們需要的圖片地址來了

filterHtml (sHtml, filePath) { let $ = cheerio.load(sHtml), // 將上一步拿到的網(wǎng)站html傳入cheerio.load,便得到類似于包裝過的jQuery對象,可以像jQuey的選擇器一樣來選擇元素 $Imgs = $('noscript img'), imgData = [], _this = this; $Imgs.each((i, e) => { let imgUrl = $(e).attr('src'); //取出對應(yīng)的url imgData.push(imgUrl); // 將url傳入開始下載 _this.downloadImg(imgUrl, _this.filePath,  function (err) { console.log(imgUrl + 'has be down'); }); }); console.log(imgData);}

有了圖片的url,如何下載到本地呢?

我們需要使用request這個庫,簡單的調(diào)用一下api再結(jié)合node原生寫文件的api。

downloadImg (imgUrl, filePath, callback) { let fileName = this.parseFileName(imgUrl); request(imgUrl).pipe(fs.createWriteStream('./' + filePath + '/'+fileName)).on('close', callback && callback); }

到這里就大功告成了,是不是很簡單!!!已經(jīng)將源碼上傳,歡迎大家下載查看。

gitHub地址:https://github.com/qianlongo/node-small-crawler

本地下載地址:http://xiazai.VeVB.COm/201705/yuanma/node-small-crawler(VeVB.COm).rar

總結(jié)

以上就是這篇文章的全部內(nèi)容了,希望本文的內(nèi)容對大家學(xué)習(xí)或者使用node.js能帶來一定的幫助,如果有疑問大家可以留言交流,謝謝大家對武林網(wǎng)的支持。

發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 灵璧县| 綦江县| 奈曼旗| 广安市| 庐江县| 商洛市| 偏关县| 冕宁县| 河间市| 茶陵县| 涪陵区| 拜城县| 泰来县| 兖州市| 永平县| 雅安市| 广丰县| 榆社县| 咸阳市| 来安县| 城固县| 静海县| 丹巴县| 玉门市| 阳谷县| 永修县| 炎陵县| 汕尾市| 芷江| 融水| 仁布县| 师宗县| 嘉义市| 五峰| 濮阳县| 石河子市| 安泽县| 成武县| 阜宁县| 山东省| 隆回县|