利用node.js寫一個爬取知乎妹紙圖的小爬蟲

2019-11-19 16:40:21

字體：大中小

供稿：網(wǎng)友

前言

說起寫node爬蟲的原因，真是羞羞呀。一天，和往常一樣，晚上吃過飯便刷起知乎來，首頁便是推薦的你見過最漂亮的女生長什么樣？,點進(jìn)去各種漂亮的妹紙爆照啊！！!,看的我好想把這些好看的妹紙照片都存下來啊！一張張點擊保存，就在第18張得時候，突然想起。我特么不是程序員么，這種手動草做的事，怎么能做，不行我不能丟程序員的臉了，于是便開始這次爬蟲之旅。

原理

初入爬蟲的坑，沒有太多深奧的理論知識，要獲取知乎上帖子中的一張圖片，我把它歸結(jié)為以下幾步。

準(zhǔn)備一個url(當(dāng)然是諸如你見過最漂亮的女生長什么樣？😄)
獲取這個url的html內(nèi)容，并分析其中的dom結(jié)構(gòu)，遍歷找到這些漂亮的妹紙圖片url
獲取圖片內(nèi)容
將圖片內(nèi)容寫入本地文件

開始動手

大概知道原理之后我們就可以開干了

準(zhǔn)備一個url

這個最簡單了，去知乎隨便一搜就是一大把，我們以

發(fā)一張你認(rèn)為很漂亮的美女照片？

為例子，先來分析一下這個頁面的dom結(jié)構(gòu),其實很簡單，知乎的一個頁面中會包含很多種類型的圖片，有頭像，用戶評價上傳的圖片啥的。基本上在noscript種都可以找到對應(yīng)的圖片地址。

獲取這個url的html內(nèi)容,并且拿到當(dāng)前頁面noscript中的img鏈接

這一步我們需要會點簡單的nodejs的知識，以及用到一個庫叫cheerio,這個庫具體是用來做什么的，詳細(xì)請移步cheerio。

簡單來說就是可以在命令行中使用jQuery來搜索遍歷獲取相應(yīng)的元素。

那么怎樣才能獲取這個帖子的html呢

使用nodejs的https模塊

var https = require('https')getAllHtml (url, callback) { let sHtml = '', _this = this; https.get(url, (res) => { res.on('data', (data) => { sHtml += data; }); res.on('end', () => { callback.bind(_this, sHtml)(); }) }).on('error', (err) => { console.log(err); });}

通過以上操作拿到網(wǎng)站的html之后，便是遍歷出我們需要的圖片地址來了

filterHtml (sHtml, filePath) { let $ = cheerio.load(sHtml), // 將上一步拿到的網(wǎng)站html傳入cheerio.load，便得到類似于包裝過的jQuery對象，可以像jQuey的選擇器一樣來選擇元素 $Imgs = $('noscript img'), imgData = [], _this = this; $Imgs.each((i, e) => { let imgUrl = $(e).attr('src'); //取出對應(yīng)的url imgData.push(imgUrl); // 將url傳入開始下載 _this.downloadImg(imgUrl, _this.filePath,  function (err) { console.log(imgUrl + 'has be down'); }); }); console.log(imgData);}

有了圖片的url，如何下載到本地呢？

我們需要使用request這個庫，簡單的調(diào)用一下api再結(jié)合node原生寫文件的api。

downloadImg (imgUrl, filePath, callback) { let fileName = this.parseFileName(imgUrl); request(imgUrl).pipe(fs.createWriteStream('./' + filePath + '/'+fileName)).on('close', callback && callback); }

到這里就大功告成了，是不是很簡單!!!已經(jīng)將源碼上傳，歡迎大家下載查看。

gitHub地址：https://github.com/qianlongo/node-small-crawler

本地下載地址：http://xiazai.VeVB.COm/201705/yuanma/node-small-crawler(VeVB.COm).rar

總結(jié)

以上就是這篇文章的全部內(nèi)容了，希望本文的內(nèi)容對大家學(xué)習(xí)或者使用node.js能帶來一定的幫助，如果有疑問大家可以留言交流，謝謝大家對武林網(wǎng)的支持。

上一篇：Vue原理剖析實現(xiàn)雙向綁定MVVM

下一篇：Vue實現(xiàn)雙向數(shù)據(jù)綁定