国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

零基礎寫python爬蟲之抓取糗事百科代碼分享

2020-02-23 06:08:27
字體:
來源:轉載
供稿:網友

項目內容:

用Python寫的糗事百科的網絡爬蟲。

使用方法:

新建一個Bug.py文件,然后將代碼復制到里面后,雙擊運行。

程序功能:

在命令提示行中瀏覽糗事百科。

原理解釋:

首先,先瀏覽一下糗事百科的主頁:http://www.qiushibaike.com/hot/page/1
可以看出來,鏈接中page/后面的數字就是對應的頁碼,記住這一點為以后的編寫做準備。
然后,右擊查看頁面源碼:

觀察發現,每一個段子都用div標記,其中class必為content,title是發帖時間,我們只需要用正則表達式將其“扣”出來就可以了。
明白了原理之后,剩下的就是正則表達式的內容了,可以參照這篇文章:
//www.jb51.net/article/57150.htm

運行效果:


代碼如下:
# -*- coding: utf-8 -*-   
    
import urllib2   
import urllib   
import re   
import thread   
import time     
#----------- 加載處理糗事百科 -----------   
class Spider_Model:   
       
    def __init__(self):   
        self.page = 1   
        self.pages = []   
        self.enable = False   
   
    # 將所有的段子都扣出來,添加到列表中并且返回列表   
    def GetPage(self,page):   
        myUrl = "http://m.qiushibaike.com/hot/page/" + page   
        user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'  
        headers = { 'User-Agent' : user_agent }  
        req = urllib2.Request(myUrl, headers = headers)  
        myResponse = urllib2.urlopen(req) 
        myPage = myResponse.read()   
        #encode的作用是將unicode編碼轉換成其他編碼的字符串   
        #decode的作用是將其他編碼的字符串轉換成unicode編碼   
        unicodePage = myPage.decode("utf-8")   

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 长寿区| 米脂县| 鲁甸县| 静安区| 井研县| 西畴县| 雅江县| 房产| 藁城市| 衡东县| 兰西县| 麻城市| 海原县| 宜黄县| 博湖县| 房产| 陕西省| 平塘县| 望谟县| 阳江市| 神木县| 新丰县| 余姚市| 马山县| 庆云县| 财经| 南城县| 乌什县| 温州市| 上虞市| 石首市| 洛浦县| 秦安县| 调兵山市| 德化县| 新泰市| 包头市| 兰州市| 常宁市| 嫩江县| 龙里县|