国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁(yè) > 編程 > Java > 正文

crawler4j抓取頁(yè)面使用jsoup解析html時(shí)的解決方法

2019-11-26 15:33:47
字體:
供稿:網(wǎng)友

crawler4j對(duì)已有編碼的頁(yè)面抓取效果不錯(cuò),用jsoup解析,很多會(huì)jquery的程序員都可以操作。但是,crawler4j對(duì)response沒有指定編碼的頁(yè)面,解析成亂碼,很讓人煩惱。在找了苦悶之中,無意間發(fā)現(xiàn)一年代已久的博文,可以解決問題,修改 Page.load() 中的 contentData 編碼即可,這讓我心中頓時(shí)舒坦了很多,接下來的問題都引刃而解了。

復(fù)制代碼 代碼如下:

public void load(HttpEntity entity) throws Exception {
 contentType = null; 
    Header type = entity.getContentType(); 
    if (type != null) { 
        contentType = type.getValue(); 
    } 

    contentEncoding = null; 
    Header encoding = entity.getContentEncoding(); 
    if (encoding != null) { 
        contentEncoding = encoding.getValue(); 
    } 

    Charset charset = ContentType.getOrDefault(entity).getCharset(); 
    if (charset != null) { 
        contentCharset = charset.displayName();  
    }else{
     contentCharset = "utf-8";
    }

   //源碼
   //contentData = EntityUtils.toByteArray(entity); 
    //修改后的代碼
    contentData = EntityUtils.toString(entity, Charset.forName("gbk")).getBytes();

}

發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 读书| 裕民县| 临洮县| 射阳县| 开封县| 左权县| 固始县| 东乡县| 鹰潭市| 定远县| 遵义市| 商水县| 顺义区| 定襄县| 泰来县| 昌都县| 青阳县| 常山县| 武冈市| 辰溪县| 临泽县| 固阳县| 冕宁县| 苍溪县| 二连浩特市| 汝州市| 友谊县| 托克逊县| 榆林市| 金华市| 黎城县| 台州市| 闻喜县| 邵东县| 吐鲁番市| 当雄县| 海宁市| 灵川县| 康乐县| 西安市| 抚顺县|