国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

Python爬蟲實現(xiàn)百度圖片自動下載

2020-02-22 23:07:51
字體:
來源:轉載
供稿:網友

制作爬蟲的步驟

制作一個爬蟲一般分以下幾個步驟:

分析需求分析網頁源代碼,配合開發(fā)者工具編寫正則表達式或者XPath表達式正式編寫 python 爬蟲代碼 效果預覽

運行效果如下:

存放圖片的文件夾:

需求分析

我們的爬蟲至少要實現(xiàn)兩個功能:一是搜索圖片,二是自動下載。

搜索圖片:最容易想到的是爬百度圖片的結果,我們就上百度圖片看看:

隨便搜索幾個關鍵字,可以看到已經搜索出來很多張圖片:

分析網頁

我們點擊右鍵,查看源代碼:

打開源代碼之后,發(fā)現(xiàn)一堆源代碼比較難找出我們想要的資源。

這個時候,就要用開發(fā)者工具!我們回到上一頁面,調出開發(fā)者工具,我們需要用的是左上角那個東西:(鼠標跟隨)。

然后選擇你想看源代碼的地方,就可以發(fā)現(xiàn),下面的代碼區(qū)自動定位到了相應的位置。如下圖:

我們復制這個地址,然后到剛才的一堆源代碼里搜索一下,發(fā)現(xiàn)了它的位置,但是這里我們又疑惑了,這個圖片有這么多地址,到底用哪個呢?我們可以看到有thumbURL,middleURL,hoverURL,objURL

通過分析可以知道,前面兩個是縮小的版本,hoverURL 是鼠標移動過后顯示的版本,objURL 應該是我們需要的,可以分別打開這幾個網址看看,發(fā)現(xiàn) objURL 的那個最大最清晰。

找到了圖片地址,接下來我們分析源代碼。看看是不是所有的 objURL 都是圖片。

發(fā)現(xiàn)都是以.jpg格式結尾的圖片。

編寫正則表達式

pic_url = re.findall('"objURL":"(.*?)",',html,re.S)

編寫爬蟲代碼

這里我們用了2個包,一個是正則,一個是 requests 包

#-*- coding:utf-8 -*-import reimport requests

復制百度圖片搜索的鏈接,傳入 requests ,然后把正則表達式寫好

發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 合山市| 洛隆县| 宁明县| 宁津县| 方城县| 临湘市| 嵊泗县| 乐东| 顺平县| 宁国市| 蓬安县| 长兴县| 宁津县| 东光县| 隆昌县| 临泉县| 临夏县| 茌平县| 花莲市| 长垣县| 聊城市| 定西市| 奉贤区| 临武县| 望都县| 安泽县| 江口县| 寻甸| 平凉市| 肃南| 六盘水市| 双峰县| 宜城市| 长海县| 长治市| 遂宁市| 顺义区| 富裕县| 会昌县| 望城县| 罗平县|