国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學院 > 開發設計 > 正文

快速搭建基于《搜狗微信》的公眾號爬蟲---搜狗微信公眾號爬蟲教程

2019-11-08 18:41:54
字體:
來源:轉載
供稿:網友

這個教程是基于我開源的一份python源碼,各位看官請先下載源碼。

源碼下載地址:https://github.com/jaryee/wechat_sogou_crawl

環境配置咱這里就不講了,網上一大堆教程,請先配置好python2.7+MySQL

注意,python版本為2.7,需要安裝如下模塊:

requests 、pymysql、lxml、Pillow、werkzeug

安裝就是在CMD控制臺里直接:pip install pymysql  回車

安裝時如果某個模塊安裝失敗,可以去下面這個網址里下載別人編譯好的whl模塊文件,下載自己對應的版本

http://www.lfd.uci.edu/~gohlke/pythonlibs

下載好后直接在CMD控制臺里:pip install xxx.whl 回車就可以了

好,現在來創建對應的數據庫,先創建一個數據庫,名字隨意,比如:jubang,格式為 utf8mb4,創建好后在該數據庫導入剛才下載的源碼包里的:jubang.sql文件,

這樣,數據庫表就創建完成了,一共有4個表,分別是:

mp_info:所有咱們需要抓取的公眾號信息都保存在這里

wenzhang_info:公眾號發布的文章信息都保存在這里

wenzhang_statistics:每次抓取文章閱讀及點攢時,都在會這個表里保存一份增量數據,可以使用該表中的數據生成一篇文章的閱讀變化趨勢圖

add_mp_list:這個表是用來增加指定的公眾號的,咱想要抓哪個公眾號,就打開這個表,把公眾號名稱或者公眾號的微信號加入這個表,然后執行一下源碼中的auto_add_mp.py就可以啦

下面打開源碼包中的config.py文件,將其中數據庫的設置,修改為你的數據庫信息,用戶名密碼,ip之類的,到這里我們就成功部署好了搜狗微信爬蟲啦,現在來看看他的能力吧!

如何使用爬蟲呢?

一、更新數據庫最新文章

執行updatemp.py,就會去查看咱指定的公眾號是否有新文章發布了,如果有,就把新發布的文章入庫,這里咱做了 排重,不會重復抓相同文章

二、更新文章閱讀數據

執行updatewenzhang.py,就會去更新文章表中的最近24小時之內的文章閱讀數據,如果修改為指定時間,比如12小時或36小時,可以修改updatewenzhang.py文件,大家自己看一下文件中有注釋解釋了如何修改

三、添加指定的公眾號

打開數據庫表add_mp_list,把想要抓取的公眾號名稱或者公眾號的微信號加入這個表,可以一次增加多條,然后執行一下源碼中的auto_add_mp.py就可以啦

注意:搜狗微信網站如果訪問頻繁了會出現驗證碼,導致我們不能正常爬取,不要怕,咱的代碼里已經加了驗證碼自動識別模塊:若快識別,請在下面的鏈接中注冊若快用戶,然后把注冊的用戶和密碼填寫到源碼中的config.py文件中就可以啦,若快識別大約是兩個驗證碼1分錢,大家根據自己的需要充值就可以了

http://www.ruokuai.com

好啦,到這里基于搜狗微信的公眾號爬蟲就全部搞定啦,是不是非常簡單,讓我們快樂的爬起來吧,哈哈~~

后面還會有基于微信接口的教程,搜狗微信無法抓取公眾號全部歷史文章及閱讀數據,而基于微信接口就可以實現這個偉大的目標了,大家一起期待吧!

您的支持,就是我開源的動力!!!


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 临沂市| 亚东县| 西吉县| 沙洋县| 济南市| 富阳市| 图片| 五河县| 鸡泽县| 泗洪县| 玉门市| 大名县| 普兰县| 南雄市| 广水市| 佛山市| 冷水江市| 保亭| 凌云县| 新民市| 大邑县| 凉山| 安溪县| 桓台县| 英德市| 沾益县| 达拉特旗| 宜川县| 石柱| 萨迦县| 习水县| 修文县| 古田县| 安达市| 霍城县| 名山县| 锡林浩特市| 沂南县| 梧州市| 龙井市| 宁海县|