国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

python網(wǎng)絡(luò)爬蟲學(xué)習(xí)筆記(1)

2020-02-22 23:38:28
字體:
供稿:網(wǎng)友

本文實例為大家分享了python網(wǎng)絡(luò)爬蟲的筆記,供大家參考,具體內(nèi)容如下

(一)   三種網(wǎng)頁抓取方法

1、 正則表達(dá)式:

模塊使用C語言編寫,速度快,但是很脆弱,可能網(wǎng)頁更新后就不能用了。

2、Beautiful Soup

模塊使用Python編寫,速度慢。

安裝:

pip install beautifulsoup4

3、 Lxml

模塊使用C語言編寫,即快速又健壯,通常應(yīng)該是最好的選擇。

(二) Lxml安裝

pip install lxml

如果使用lxml的css選擇器,還要安裝下面的模塊

pip install cssselect

(三)  使用lxml示例

import urllib.request as reimport lxml.html#下載網(wǎng)頁并返回HTMLdef download(url,user_agent='Socrates',num=2):  print('下載:'+url)  #設(shè)置用戶代理  headers = {'user_agent':user_agent}  request = re.Request(url,headers=headers)  try:    #下載網(wǎng)頁    html = re.urlopen(request).read()  except re.URLError as e:    print('下載失敗'+e.reason)    html=None    if num>0:      #遇到5XX錯誤時,遞歸調(diào)用自身重試下載,最多重復(fù)2次      if hasattr(e,'code') and 500<=e.code<600:        return download(url,num-1)  return htmlhtml = download('https://tieba.baidu.com/p/5475267611')#將HTML解析為統(tǒng)一的格式tree = lxml.html.fromstring(html)# img = tree.cssselect('img.BDE_Image')#通過lxml的xpath獲取src屬性的值,返回一個列表img = tree.xpath('//img[@class="BDE_Image"]/@src')x= 0#迭代列表img,將圖片保存在當(dāng)前目錄下for i in img:  re.urlretrieve(i,'%s.jpg'%x)  x += 1

以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持武林站長站。

發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 通化市| 秦皇岛市| 伊川县| 三明市| 泽库县| 黄梅县| 孟津县| 安庆市| 定边县| 富锦市| 博乐市| 吴堡县| 荣昌县| 玉溪市| 夏津县| 兰溪市| 潢川县| 连州市| 郑州市| 历史| 侯马市| 土默特右旗| 云霄县| 四子王旗| 水富县| 米易县| 富宁县| 汉阴县| 榆中县| 巴塘县| 潼关县| 石楼县| 江山市| 安远县| 九龙县| 南平市| 鄂州市| 施甸县| 景洪市| 开江县| 镇康县|