国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > JavaScript > 正文

Node.js 實現(xiàn)簡單小說爬蟲實例

2019-11-19 18:55:49
字體:
供稿:網(wǎng)友

最近因為劇荒,老大追了愛奇藝的一部網(wǎng)劇,由丁墨的同名小說《美人為餡》改編,目前已經(jīng)放出兩季,雖然整部劇槽點滿滿,但是老大看得不亦樂乎,并且在看完第二季之后跟我要小說資源,直接要奔原著去看結(jié)局……

隨手搜了下,都是在線資源,下載的話需要登錄,注冊登錄好麻煩,寫個爬蟲玩玩也好,于是動手用 node 寫了一個,這里做下筆記

工作流程

  • 獲取 URLs 列表(請求資源 request模塊)
  • 根據(jù) URLs 列表獲取相關(guān)頁面源碼(可能遇到頁面編碼問題,iconv-lite模塊)
  • 源碼解析,獲取小說信息( cheerio模塊)
  • 保存小說信息到 Markdown 文件,并且加適當(dāng)修飾以及章節(jié)信息(寫文件 fs、同步請求資源 sync-request 模塊)
  • Markdown 轉(zhuǎn) PDF (使用 Pandoc 或者 Chrome 的打印功能)

獲取 URLs

根據(jù)小說的導(dǎo)航頁,獲取小說所有章節(jié)的 URL,并且以 JSON 數(shù)組的方式存儲。

  • 首選通過 http.get() 方法獲取頁面源碼
  • 獲取到源碼,打印發(fā)現(xiàn)中文亂碼,查看發(fā)現(xiàn) charset = 'gbk',需要進行轉(zhuǎn)碼
  • 使用 iconv-lite 模塊進行轉(zhuǎn)碼,中文顯示正常后開始解析源碼,獲取需要的 URL,為了更方便地解析,需要引進 cheerio 模塊,cheerio 可以理解為運行在后臺的 jQuery,用法與 jQuery 也十分相似,熟悉 jQuery 的同學(xué)可以很快的上手
  • 將源碼加載進 cheerio,分析了源碼后得知所有章節(jié)信息都存于被 div 包裹的 a 標(biāo)簽中,通過 cheerio 取出符合條件的 a 標(biāo)簽組,進行遍歷,獲取章節(jié)的 title 和 URL,保存為對象,存進數(shù)組,(因為鏈接中存儲的 URL 不完整,所以存儲時需要補齊)
  • 將對象數(shù)組序列化,寫進 list.json 文件
var http = require("http")var fs = require("fs")var cheerio = require("cheerio")var iconv = require("iconv-lite")var url = 'http://www.17fa.com/files/article/html/90/90747/index.html'http.get(url, function(res) { //資源請求  var chunks = []  res.on('data', function(chunk) {    chunks.push(chunk)  })  res.on('end', function() {    var html = iconv.decode(Buffer.concat(chunks), 'gb2312') //轉(zhuǎn)碼操作    var $ = cheerio.load(html, {      decodeEntities: false    })    var content = $("tbody")    var links = []    $('div').children('a').each(function(i, elem) {      var link = new Object()      link.title = $(this).text()      link.link = 'http://www.17fa.com/files/article/html/90/90747/' + $(this).attr('href') //補齊 URL 信息      if (i > 5) {        links.push(link)      }    })    fs.writeFile("list.json", JSON.stringify(links), function(err) {      if (!err) {        console.log("寫文件成功")      }    })  }).on('error', function() {    console.log("網(wǎng)頁訪問出錯")  })})

獲取的列表示例

[{  "title": "3 法醫(yī)司白",  "link": "http://www.17fa.com/files/article/html/90/90747/16548771.html"}, {  "title": "4 第1個夢 ",  "link": "http://www.17fa.com/files/article/html/90/90747/16548772.html"}, {  "title": "5 刑警韓沉 ",  "link": "http://www.17fa.com/files/article/html/90/90747/16548773.html"}, {  "title": "6 最初之戰(zhàn)",  "link": "http://www.17fa.com/files/article/html/90/90747/16548774.html "}]

獲取數(shù)據(jù)

有了 URLs 列表,接下來的工作就很機械了,遍歷 URLs 列表請求資源,獲取源碼,解析源碼,獲取小說,寫文件,但是,因為最終將所有的章節(jié)保存入一個文件,要保證章節(jié)的順序,因此寫文件需要 同步操作,實際上,我在編碼的時候所有的操作都改成了同步方式

獲取源碼

通過解析讀取的 list.json 文件,獲取到 URLs 列表,遍歷列表獲取資源,因為需要確保章節(jié)的順序,所以這里引進 sync-request 模塊進行同步 request 請求資源,請求資源后照例轉(zhuǎn)碼

var http = require("http")var fs = require("fs")var cheerio = require("cheerio")var iconv = require("iconv-lite")var request = require('sync-request')var urlList = JSON.parse(fs.readFileSync('list.json', 'utf8'))function getContent(chapter) {  var res = request('GET',chapter.link)  var html = iconv.decode(res.body, 'gb2312') //獲取源碼}for (let i = 0; i < urlList.length; i++) {  getContent(urlList[i])}

解析源碼,獲取小說

還是通過 cheerio 模塊獲取小說內(nèi)容,避免影響觀感,寫操作之前去除內(nèi)容中的的 html 標(biāo)簽

function getContent(chapter) {  var res = request('GET',chapter.link)  var html = iconv.decode(res.body, 'gb2312')  var $ = cheerio.load(html, {    decodeEntities: false  })  var content = ($("div#r1c").text()).replace(// /g, '')}

保存小說

寫操作也需要同步操作,因此使用了同步寫函數(shù) fs.writeFileSync() 和 同步添加函數(shù) fs.appendFileSync(),第一次寫使用寫函數(shù),之后的內(nèi)容都是進行 append 操作,為了改善閱讀體驗,每個章節(jié)前添加標(biāo)題

也可以在內(nèi)容前添加 拍 [TOC],作為導(dǎo)航鏈接

var http = require("http")var fs = require("fs")var cheerio = require("cheerio")var iconv = require("iconv-lite")var path = require('path')var urlList = JSON.parse(fs.readFileSync('list.json', 'utf8'))function getContent(chapter) {  console.log(chapter.link)  http.get(chapter.link, function(res) {    var chunks = []    res.on('data', function(chunk) {      chunks.push(chunk)    })    res.on('end', function() {      var html = iconv.decode(Buffer.concat(chunks), 'gb2312')      var $ = cheerio.load(html, {        decodeEntities: false      })      var content = ($("div#r1c").text()).replace(// /g, '')      if (fs.existsSync('美人為餡.md')) {        fs.appendFileSync('美人為餡.md', '### ' + chapter.title)        fs.appendFileSync('美人為餡.md', content)      } else {        fs.writeFileSync('美人為餡.md', '### ' + chapter.title)        fs.appendFileSync('美人為餡.md', content)      }    })  }).on('error', function() {    console.log("爬取" + chapter.link + "鏈接出錯!")  })}for (let i = 0; i < urlList.length; i++) {  console.log(urlList[i])  getContent(urlList[i])}

Markdown 轉(zhuǎn) PDF

我將小說保存在 Markdown 文件中,為了提升閱讀體驗,可以將 Markdown 文件轉(zhuǎn)換成 PDF 文件,目前我較為喜歡的兩種方式,通過 Chrome 的打印功能 以及 pandoc 轉(zhuǎn)換

Chrome 打印

SublimeText 有個插件 markdown preview ,可通過 Alt + m 快捷鍵在 Chrome 中預(yù)覽 Markdown,在 Chrome 頁面中右鍵,選擇打印,調(diào)整好參數(shù)后,選擇另存為 PDF,簡單,粗暴,深得我心

打印效果:

pandoc 轉(zhuǎn)換
pandoc 是十分強大的文件格式轉(zhuǎn)換工具,可以將 Markdown 文件轉(zhuǎn)換成多種格式,今晚在 windows10 下折騰了半天,始終檢索不到 pdflatex,關(guān)于 pandoc,后面會專門寫一篇總結(jié)。

PDF 已經(jīng)發(fā)給老大了,現(xiàn)在正在看

關(guān)于python、node、爬蟲

在之前很長的一段時間里,很想用 Python,很想寫爬蟲,更想用 Python 寫爬蟲,甚至成為了心里的一塊執(zhí)念,隨著接觸的知識更全面,執(zhí)念也逐漸淡去,少了很多“想”,遇事想著多去動手,實踐出真知。

以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持武林網(wǎng)。

發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 南平市| 柳河县| 准格尔旗| 元朗区| 越西县| 无棣县| 松滋市| 芦溪县| 南木林县| 遂昌县| 浦城县| 分宜县| 和龙市| 洛宁县| 海林市| 布尔津县| 法库县| 乌恰县| 福安市| 温泉县| 辉县市| 祁连县| 梨树县| 宜城市| 上思县| 南投市| 苏尼特右旗| 米泉市| 华宁县| 石嘴山市| 佳木斯市| 静安区| 岑巩县| 泸溪县| 雅安市| 和政县| 弥渡县| 吉隆县| 广元市| 琼海市| 伊川县|