国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

<td id="npltz"><optgroup id="npltz"></optgroup></td>

<td id="npltz"><tr id="npltz"><th id="npltz"></th></tr></td>

首頁 > 編程 > Python > 正文

Python應(yīng)用庫大全總結(jié)

2020-02-15 21:33:46

字體：大中小

來源：轉(zhuǎn)載

供稿：網(wǎng)友

學(xué)Python，想必大家都是從爬蟲開始的吧。畢竟網(wǎng)上類似的資源很豐富，開源項目也非常多。

Python學(xué)習(xí)網(wǎng)絡(luò)爬蟲主要分3個大的版塊：抓取，分析，存儲

當(dāng)我們在瀏覽器中輸入一個url后回車，后臺會發(fā)生什么？

簡單來說這段過程發(fā)生了以下四個步驟：

網(wǎng)絡(luò)爬蟲要做的，簡單來說，就是實(shí)現(xiàn)瀏覽器的功能。通過指定url，直接返回給用戶所需要的數(shù)據(jù)，而不需要一步步人工去操縱瀏覽器獲取。

抓取這一步，你要明確要得到的內(nèi)容是什么？是HTML源碼，還是Json格式的字符串等。將得到內(nèi)容逐一解析就好。具體的如何解析，以及如何處理數(shù)據(jù)，文章后面提供了非常詳細(xì)的且功能強(qiáng)大的開源庫列表。

當(dāng)然了，爬去別人家的數(shù)據(jù)，很有可能會遭遇反爬蟲機(jī)制的，怎么辦？使用代理。

適用情況：限制IP地址情況，也可解決由于“頻繁點(diǎn)擊”而需要輸入驗證碼登陸的情況。

這種情況最好的辦法就是維護(hù)一個代理IP池，網(wǎng)上有很多免費(fèi)的代理IP，良莠不齊，可以通過篩選找到能用的。

對于“頻繁點(diǎn)擊”的情況，我們還可以通過限制爬蟲訪問網(wǎng)站的頻率來避免被網(wǎng)站禁掉。

有些網(wǎng)站會檢查你是不是真的瀏覽器訪問，還是機(jī)器自動訪問的。這種情況，加上User-Agent，表明你是瀏覽器訪問即可。有時還會檢查是否帶Referer信息還會檢查你的Referer是否合法，一般再加上Referer。也就是偽裝成瀏覽器，或者反“反盜鏈”。

對于網(wǎng)站有驗證碼的情況，我們有三種辦法：

使用代理，更新IP。

使用cookie登陸。

驗證碼識別。

接下來我們重點(diǎn)聊聊驗證碼識別。這個python q-u-n 227--435---450就是小編期待大家一起交流討論，各種入門資料啊，進(jìn)階資料啊，框架資料啊免費(fèi)領(lǐng)取

可以利用開源的Tesseract-OCR系統(tǒng)進(jìn)行驗證碼圖片的下載及識別，將識別的字符傳到爬蟲系統(tǒng)進(jìn)行模擬登陸。當(dāng)然也可以將驗證碼圖片上傳到打碼平臺上進(jìn)行識別。如果不成功，可以再次更新驗證碼識別，直到成功為止。

好了，爬蟲就簡單聊到這兒，有興趣的朋友可以去網(wǎng)上搜索更詳細(xì)的內(nèi)容。

文末附上本文重點(diǎn)：實(shí)用Python庫大全。

網(wǎng)絡(luò)

urllib -網(wǎng)絡(luò)庫(stdlib)。

requests -網(wǎng)絡(luò)庫。

grab – 網(wǎng)絡(luò)庫（基于pycurl）。

pycurl – 網(wǎng)絡(luò)庫（綁定libcurl）。

urllib3 – Python HTTP庫，安全連接池、支持文件post、可用性高。

httplib2 – 網(wǎng)絡(luò)庫。

RoboBrowser – 一個簡單的、極具Python風(fēng)格的Python庫，無需獨(dú)立的瀏覽器即可瀏覽網(wǎng)頁。

上一篇：Python實(shí)現(xiàn)的多進(jìn)程和多線程功能示例

下一篇：Django項目中model的數(shù)據(jù)處理以及頁面交互方法

學(xué)習(xí)交流

如何重啟打印機(jī)打印服務(wù)

如何重啟打印機(jī)打印服務(wù)...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關(guān)注

新聞熱點(diǎn)

明兮語文停止運(yùn)營發(fā)展資金鏈斷裂

2020-02-16 09:52:44

2006年李俊編寫了“熊貓燒香”電腦病毒，現(xiàn)在過得怎么樣？

2020-02-15 15:53:44

谷歌合并Alphabet旗下子公司Jigsaw，未來會如何發(fā)展？

2020-02-11 22:02:38

NASA說今天地球引力最小能讓掃帚立起來？原因很簡單

2020-02-11 21:45:12

TCL集團(tuán)宣布今日起正式更名為“TCL科技”

2020-02-07 10:36:18

黑莓曲終落，情懷價幾何？

2020-02-06 12:16:44

疑難解答

圖片精選

網(wǎng)友關(guān)注

主站蜘蛛池模板：彭山县| 淅川县| 龙门县| 南澳县| 遵义县| 泸溪县| 砚山县| 汉阴县| 康马县| 乐东| 蓝山县| 永宁县| 镇赉县| 项城市| 南涧| 娱乐| 湖州市| 宁阳县| 林周县| 红安县| 苍溪县| 象州县| 峨眉山市| 曲阜市| 保山市| 建德市| 弥勒县| 延庆县| 荥经县| 进贤县| 西林县| 杨浦区| 桂阳县| 郧西县| 天等县| 南平市| 洞口县| 望奎县| 应用必备| 马公市| 应城市|