国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

Python抓取Discuz!用戶名腳本代碼

2020-02-23 05:02:59
字體:
供稿:網(wǎng)友

最近學(xué)習(xí)Python,于是就用Python寫了一個(gè)抓取Discuz!用戶名的腳本,代碼很少但是很搓。思路很簡單,就是正則匹配title然后提取用戶名寫入文本文檔。程序以百度站長社區(qū)為例(一共有40多萬用戶),掛在VPS上就沒管了,雖然用了延時(shí)但是后來發(fā)現(xiàn)一共只抓取了50000多個(gè)用戶名就被封了。。。
代碼如下:
代碼如下:
# -*- coding: utf-8 -*-
# Author: 天一
# Blog: http://www.90blog.org
# Version: 1.0
# 功能: Python抓取百度站長平臺(tái)用戶名腳本

import urllib
import urllib2 
import re
import time

def BiduSpider():
     pattern = re.compile(r'<title>(.*)的個(gè)人資料  百度站長社區(qū) </title>')
     uid=1
     thedatas = []
     while uid <400000:
         theUrl = "http://bbs.zhanzhang.baidu.com/home.php?mod=space&uid="+str(uid)
         uid +=1
         theResponse  = urllib2.urlopen(theUrl)
         thePage = theResponse.read()
         #正則匹配用戶名
         theFindall = re.findall(pattern,thePage)
         #等待0.5秒,以防頻繁訪問被禁止
         time.sleep(0.5)
         if theFindall :
              #中文編碼防止亂碼輸出
              thedatas = theFindall[0].decode('utf-8').encode('gbk')
              #寫入txt文本文檔
              f = open('theUid.txt','a')
              f.writelines(thedatas+'/n')
              f.close()

if __name__ == '__main__':
     BiduSpider()

最終成果如下:

發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 重庆市| 郧西县| 大城县| 南木林县| 南江县| 宜宾县| 永靖县| 博爱县| 佛山市| 博罗县| 长垣县| 普宁市| 繁昌县| 合作市| 新巴尔虎右旗| 鄂尔多斯市| 苍南县| 隆子县| 全椒县| 绵阳市| 开封县| 平安县| 如皋市| 沈阳市| 依兰县| 武宁县| 崇阳县| 康平县| 扶风县| 焦作市| 青阳县| 贵阳市| 噶尔县| 丽水市| 台南市| 滦南县| 云南省| 胶南市| 聂荣县| 绥阳县| 道孚县|