Python編寫百度貼吧的簡單爬蟲

2020-02-23 00:29:39

字體：大中小

來源：轉載

供稿：網友

操作：輸入帶分頁的地址，去掉最后面的數字，設置一下起始頁數和終點頁數

功能：下載對應頁碼的所有頁面并儲存為HTML文件，以當前時間命名

代碼：

# -*- coding: utf-8 -*- #----------------------------#  程序：百度貼吧的小爬蟲#  日期：2015/03/28#  語言：Python 2.7#  操作：輸入帶分頁的地址，去掉最后面的數字，設置一下起始頁數和終點頁數#  功能：下載對應頁碼的所有頁面并儲存為HTML文件，以當前時間命名#---------------------------- import urllib2import time def baidu_tieba(url, start, end):  for i in range(start, end):    sName = time.strftime('%Y%m%d%H%M%S') + str(i) + '.html'    print '正在下載第' + str(i) + '個網頁，并將其儲存為' + sName + '...'    f = open(sName, 'w+')    m = urllib2.urlopen(url+str(i))    n = m.read()    f.write(n)    f.close()  print '成功下載'     baiduurl = str(raw_input('請輸入貼子的地址,去掉pn后面的數字>>/n'))begin_page = int(raw_input('請輸入帖子的起始頁碼>>/n'))end_page = int(raw_input('請輸入帖子的終止頁碼>>/n'))         baidu_tieba(baiduurl, begin_page, end_page)

以上所述就是本文的全部內容了，希望能夠對大家學習Python制作爬蟲有所幫助。

上一篇：python查找目錄下指定擴展名的文件實例

下一篇：用Python的pandas框架操作Excel文件中的數據教程