国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > JavaScript > 正文

Node.js抓取中文網頁亂碼問題和解決方法

2019-11-20 13:11:13
字體:
來源:轉載
供稿:網友

Node.js 抓取非 utf-8 的中文網頁時會出現亂碼問題,比如網易的首頁編碼是 gb2312,抓取時會出現亂碼

復制代碼 代碼如下:

var request = require('request') 
var url = 'http://www.163.com'

request(url, function (err, res, body) { 
    console.log(body)
})


可以使用 iconv-lite 來解決

安裝

復制代碼 代碼如下:

npm install iconv-lite 

同時我們順帶把 user-agent 修改一下,以防網站屏蔽:
復制代碼 代碼如下:

var originRequest = require('request') 
var iconv = require('iconv-lite') 
var headers = { 
  'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.65 Safari/537.36'
}

function request (url, callback) { 
  var options = {
    url: url,
    encoding: null,
    headers: headers
  }
  originRequest(options, callback)
}

request(url, function (err, res, body) { 
    var html = iconv.decode(body, 'gb2312')
    console.log(html)
})

亂碼問題解決

使用 cheerio 解析 HTML

cheerio 可以簡單粗暴的理解為服務器端 jQuery 選擇器,有了它,比正則要更加直觀許多

安裝

復制代碼 代碼如下:

npm install cheerio 
request(url, function (err, res, body) { 
    var html = iconv.decode(body, 'gb2312')
    var $ = cheerio.load(html)
    console.log($('h1').text())
    console.log($('h1').html())
})

輸出如下
復制代碼 代碼如下:

網易
网易

那么問題來了,$('h1').html() 輸出的代碼是經過 Unicode 編碼的,網易變成了网易,給我們的字符處理帶來了一些麻煩

解決 cheerio .html() 「亂碼」問題
查閱文檔可知,可以關閉這個轉換實體編碼的功能

復制代碼 代碼如下:

var $ = cheerio.load(html) 

改成
復制代碼 代碼如下:

var $ = cheerio.load(html, {decodeEntities: false})

即可,完整代碼如下:
復制代碼 代碼如下:

var originRequest = require('request') 
var cheerio = require('cheerio') 
var iconv = require('iconv-lite') 
var headers = { 
  'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.65 Safari/537.36'
}

function request (url, callback) { 
  var options = {
    url: url,
    encoding: null,
    headers: headers
  }
  originRequest(options, callback)
}

var url = 'http://www.163.com'

request(url, function (err, res, body) { 
    var html = iconv.decode(body, 'gb2312')
    var $ = cheerio.load(html, {decodeEntities: false})
    console.log($('h1').text())
    console.log($('h1').html())
})

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 文山县| 苍南县| 蒙山县| 奉节县| 日喀则市| 乌海市| 宣武区| 石渠县| 普宁市| 淳安县| 桓仁| 常宁市| 搜索| 金阳县| 凤凰县| 永丰县| 鹤山市| 石渠县| 黑山县| 修文县| 郎溪县| 沙田区| 沧源| 肇州县| 老河口市| 安顺市| 泾川县| 玉屏| 中阳县| 林西县| 崇明县| 樟树市| 泰来县| 庆元县| 德令哈市| 专栏| 驻马店市| 平果县| 沙雅县| 永靖县| 安西县|