国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

Python應(yīng)用庫大全總結(jié)

2020-02-15 21:33:46
字體:
供稿:網(wǎng)友

學(xué)Python,想必大家都是從爬蟲開始的吧。畢竟網(wǎng)上類似的資源很豐富,開源項目也非常多。

Python學(xué)習(xí)網(wǎng)絡(luò)爬蟲主要分3個大的版塊:抓取,分析,存儲

當(dāng)我們在瀏覽器中輸入一個url后回車,后臺會發(fā)生什么?

簡單來說這段過程發(fā)生了以下四個步驟:

    查找域名對應(yīng)的IP地址。 向IP對應(yīng)的服務(wù)器發(fā)送請求。 服務(wù)器響應(yīng)請求,發(fā)回網(wǎng)頁內(nèi)容。 瀏覽器解析網(wǎng)頁內(nèi)容。

網(wǎng)絡(luò)爬蟲要做的,簡單來說,就是實(shí)現(xiàn)瀏覽器的功能。通過指定url,直接返回給用戶所需要的數(shù)據(jù),而不需要一步步人工去操縱瀏覽器獲取。

抓取這一步,你要明確要得到的內(nèi)容是什么?是HTML源碼,還是Json格式的字符串等。將得到內(nèi)容逐一解析就好。具體的如何解析,以及如何處理數(shù)據(jù),文章后面提供了非常詳細(xì)的且功能強(qiáng)大的開源庫列表。

當(dāng)然了,爬去別人家的數(shù)據(jù),很有可能會遭遇反爬蟲機(jī)制的,怎么辦?使用代理。

適用情況:限制IP地址情況,也可解決由于“頻繁點(diǎn)擊”而需要輸入驗證碼登陸的情況。

這種情況最好的辦法就是維護(hù)一個代理IP池,網(wǎng)上有很多免費(fèi)的代理IP,良莠不齊,可以通過篩選找到能用的。

對于“頻繁點(diǎn)擊”的情況,我們還可以通過限制爬蟲訪問網(wǎng)站的頻率來避免被網(wǎng)站禁掉。

有些網(wǎng)站會檢查你是不是真的瀏覽器訪問,還是機(jī)器自動訪問的。這種情況,加上User-Agent,表明你是瀏覽器訪問即可。有時還會檢查是否帶Referer信息還會檢查你的Referer是否合法,一般再加上Referer。也就是偽裝成瀏覽器,或者反“反盜鏈”。

對于網(wǎng)站有驗證碼的情況,我們有三種辦法:

使用代理,更新IP。

使用cookie登陸。

驗證碼識別。

接下來我們重點(diǎn)聊聊驗證碼識別。這個python q-u-n 227--435---450就是小編期待大家一起交流討論,各種入門資料啊,進(jìn)階資料啊,框架資料啊 免費(fèi)領(lǐng)取

可以利用開源的Tesseract-OCR系統(tǒng)進(jìn)行驗證碼圖片的下載及識別,將識別的字符傳到爬蟲系統(tǒng)進(jìn)行模擬登陸。當(dāng)然也可以將驗證碼圖片上傳到打碼平臺上進(jìn)行識別。如果不成功,可以再次更新驗證碼識別,直到成功為止。

好了,爬蟲就簡單聊到這兒,有興趣的朋友可以去網(wǎng)上搜索更詳細(xì)的內(nèi)容。

文末附上本文重點(diǎn):實(shí)用Python庫大全。

網(wǎng)絡(luò)

urllib -網(wǎng)絡(luò)庫(stdlib)。

requests -網(wǎng)絡(luò)庫。

grab – 網(wǎng)絡(luò)庫(基于pycurl)。

pycurl – 網(wǎng)絡(luò)庫(綁定libcurl)。

urllib3 – Python HTTP庫,安全連接池、支持文件post、可用性高。

httplib2 – 網(wǎng)絡(luò)庫。

RoboBrowser – 一個簡單的、極具Python風(fēng)格的Python庫,無需獨(dú)立的瀏覽器即可瀏覽網(wǎng)頁。

發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 彭山县| 淅川县| 龙门县| 南澳县| 遵义县| 泸溪县| 砚山县| 汉阴县| 康马县| 乐东| 蓝山县| 永宁县| 镇赉县| 项城市| 南涧| 娱乐| 湖州市| 宁阳县| 林周县| 红安县| 苍溪县| 象州县| 峨眉山市| 曲阜市| 保山市| 建德市| 弥勒县| 延庆县| 荥经县| 进贤县| 西林县| 杨浦区| 桂阳县| 郧西县| 天等县| 南平市| 洞口县| 望奎县| 应用必备| 马公市| 应城市|