国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

2017.3.5阿凡python簡單爬蟲嘗試,奉獻源碼

2019-11-06 07:11:17
字體:
來源:轉載
供稿:網友

慕課網Python開發簡單爬蟲源碼有注釋

今天2017年3月5日,杭城天氣不是很好,但對我來說今天依然是一個好日子。今天發生了一些故事,最主要的我倒騰了幾天的python爬蟲總算是完成了。將源碼奉獻出來,拍磚請輕點。

參考教程 慕課網的python開發簡單爬蟲 http://www.imooc.com/learn/563 注:本人代碼基本參考(應該是完全)該教程的內容,開發工具用的是pycharm,教程的用的eclips做python開發還得搞七搞八實在是太麻煩了。其實我是搞失敗了,請無視這句。

個人背景說明: 本人是業余玩家,學校學的是搬磚。看了一部分傳智播客java基礎的視頻,按他們的流程算應該是十五天吧。看了一些python基礎的電子書和一些教程。

開發過程中碰到的一些問題:

主要是一開始的那些配置,比如導入bs4模塊,那個setup調用我是沒成功過,只有在運行那個程序后有加載進去,但是退出后重新建個python就找不到bs模塊了。最后我用的是pip的方法。 期間跟著視頻敲代碼肯定不會有問題的。最后測試運行GG了, 因為對這個開發工具不了解,不知道怎么調試,只會使用運行功能,所以用了個很low的方法,按照程序的運行流程插入PRint“hello1”之類的方式來判斷程序運行到哪里掛了,報錯是什么鬼也看不懂,所以看我的源碼亂的一筆。還有print soup 等直接打印各種亂七八糟的東西來判斷是否正確運行,反正能解決問題就好。就通過這樣的方式我知道這個程序問題出現在網頁解析器上,于是我建了個text_parser做解析方面的測試。我復制網頁解析器的代碼這個模塊進行改造,讓它直接順序執行,參數直接定義,不考慮函數調用,不考慮循環。后來發現這個解析的關鍵字跟視頻教程的是不一樣的,可能是百度更新了吧。主要是我看的時候有看到很視頻教程一樣關鍵字,就沒仔細去找直接參考視頻教程里的了。然后鏈接解析這塊搞定了。第二部分就是標題和內容主要是我一些名字寫錯了,我把【class_】寫成【Class】因為編程器自動提示有Class還是有色的我以為就是他了。最后這個網頁解析器弄完,我又直接對主程序進行運行,這次完美運行。

雖然速度比較慢,生出來的網頁排版很詭異,抓到內容更詭異。但畢竟是第一次,趕緊發個帖子留戀一下

下一步目標: 1.生成Excel表格,生成網頁有屁用,還這么難看 2.用多線程,再高級就是用分布式了,畢竟電腦這么多等我去搞

配圖:

詭異的抓取內容

軟件運行,居然全抓到,沒有一條失敗


杭州python學習交流群 616744861


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 东源县| 天柱县| 龙里县| 商都县| 漠河县| 志丹县| 永昌县| 东乌珠穆沁旗| 晴隆县| 廊坊市| 余江县| 平潭县| 南宁市| 吴忠市| 新乡市| 左权县| 上林县| 明水县| 鸡泽县| 华安县| 百色市| 大兴区| 石楼县| 琼结县| 象州县| 苍山县| 治县。| 鹤壁市| 阿荣旗| 怀柔区| 上林县| 泾川县| 萝北县| 焉耆| 克拉玛依市| 伽师县| 观塘区| 和田市| 芦山县| 绥化市| 临城县|