国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

Python編寫百度貼吧的簡單爬蟲

2020-02-23 00:29:39
字體:
來源:轉載
供稿:網友

操作:輸入帶分頁的地址,去掉最后面的數字,設置一下起始頁數和終點頁數

功能:下載對應頁碼的所有頁面并儲存為HTML文件,以當前時間命名

代碼:

# -*- coding: utf-8 -*- #----------------------------#  程序:百度貼吧的小爬蟲#  日期:2015/03/28#  語言:Python 2.7#  操作:輸入帶分頁的地址,去掉最后面的數字,設置一下起始頁數和終點頁數#  功能:下載對應頁碼的所有頁面并儲存為HTML文件,以當前時間命名#---------------------------- import urllib2import time def baidu_tieba(url, start, end):  for i in range(start, end):    sName = time.strftime('%Y%m%d%H%M%S') + str(i) + '.html'    print '正在下載第' + str(i) + '個網頁,并將其儲存為' + sName + '...'    f = open(sName, 'w+')    m = urllib2.urlopen(url+str(i))    n = m.read()    f.write(n)    f.close()  print '成功下載'     baiduurl = str(raw_input('請輸入貼子的地址,去掉pn后面的數字>>/n'))begin_page = int(raw_input('請輸入帖子的起始頁碼>>/n'))end_page = int(raw_input('請輸入帖子的終止頁碼>>/n'))         baidu_tieba(baiduurl, begin_page, end_page)

以上所述就是本文的全部內容了,希望能夠對大家學習Python制作爬蟲有所幫助。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 韶山市| 黎川县| 大田县| 北辰区| 武功县| 阿荣旗| 栾城县| 深州市| 绥芬河市| 和静县| 文水县| 平昌县| 凤翔县| 图们市| 东平县| 青海省| 涟水县| 新丰县| 永丰县| 朔州市| 六安市| 渭源县| 东安县| 呼图壁县| 衢州市| 三穗县| 襄汾县| 东平县| 大埔县| 西华县| 双峰县| 五莲县| 繁峙县| 邹城市| 焉耆| 土默特左旗| 扶绥县| 北票市| 沧州市| 浦北县| 永登县|