国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Java > 正文

零基礎寫Java知乎爬蟲之準備工作

2019-11-26 15:21:55
字體:
來源:轉載
供稿:網(wǎng)友

開篇我們還是和原來一樣,講一講做爬蟲的思路以及需要準備的知識吧,高手們請直接忽略。

首先我們來縷一縷思緒,想想到底要做什么,列個簡單的需求。

需求如下:

1.模擬訪問知乎官網(wǎng)(http://www.zhihu.com/

2.下載指定的頁面內容,包括:今日最熱,本月最熱,編輯推薦

3.下載指定分類中的所有問答,比如:投資,編程,掛科

4.下載指定回答者的所有回答

5.最好有個一鍵點贊的變態(tài)功能(這樣我就可以一下子給雷倫的所有回答都點贊了我真是太機智了!)

那么需要解決的技術問題簡單羅列如下:

1.模擬瀏覽器訪問網(wǎng)頁

2.抓取關鍵數(shù)據(jù)并保存到本地

3.解決網(wǎng)頁瀏覽中的動態(tài)加載問題

4.使用樹狀結構海量抓取知乎的所有內容

好的,目前就想了這些。

接下來就是準備工作了。

1.確定爬蟲語言:由于以前寫過一系列爬蟲教程(點擊這里),百度貼吧,糗事百科,山東大學的績點查詢等都是用python寫的,所以這次決定使用Java來寫(喂完全沒有半毛錢聯(lián)系好嗎)。

2.科普爬蟲知識:網(wǎng)絡爬蟲,即Web Spider,是一個很形象的名字。把互聯(lián)網(wǎng)比喻成一個蜘蛛網(wǎng),那么Spider就是在網(wǎng)上爬來爬去的蜘蛛。網(wǎng)絡蜘蛛通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁。具體的入門介紹請(點擊這里)。

3.準備爬蟲環(huán)境:Jdk和Eclipse的安裝和配置就不多說啦。這里

主站蜘蛛池模板: 乐清市| 舒城县| 兖州市| 兴义市| 肥东县| 伊川县| 河曲县| 赣榆县| 海伦市| 华容县| 廉江市| 满洲里市| 新营市| 涞水县| 淳安县| 依安县| 崇州市| 济阳县| 娄烦县| 台北县| 兴山县| 西华县| 鄂温| 临泉县| 宁陕县| 苏尼特右旗| 淮滨县| 万荣县| 永兴县| 团风县| 嘉荫县| 华亭县| 黎平县| 佛学| 茶陵县| 泾源县| 五台县| 霍邱县| 内乡县| 郴州市| 昌吉市|