国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

python學習(6):python爬蟲之requests和BeautifulSoup的使用

2019-11-06 07:29:26
字體:
來源:轉載
供稿:網友

前言:

Requests庫跟urllib庫的作用相似,都是根據http協議操作各種消息和頁面。

都說Requests庫比urllib庫好用,我也沒有體會到好在哪兒。

但是,urllib庫有一點不爽的是:urllib.request.urlretrieve(url, localPath)函數在將某些圖片鏈接保存到本地時,會出現錯誤:httpError:304 Forbidden

為什么會出現這個錯誤?查詢網上的說法,大多認為是Header的問題,不過我試了將完整的Header添加進去仍然不行。

本案例用Requests庫替換urllib庫,并用open().write()方法替換掉urllib.request.urlretrieve(url, localPath)方法。

正文:

一,安裝Requests庫

pip3 install requests安裝后進入python導入模塊測試是否安裝成功

import requests沒有出錯即安裝成功

Requests庫的使用請參閱中文官方文檔:http://cn.python-requests.org/zh_CN/latest/

二,結合了Requests庫和BeautifulSoup庫的圖片爬蟲程序

'''    requests,bs4'''import osimport requestsfrom bs4 import BeautifulSoupdef getHtmlCode(url):  # 該方法傳入url,返回url的html的源碼    headers = {        'User-Agent': 'MMozilla/5.0 (Windows NT 6.1; WOW64; rv:31.0) Gecko/20100101 Firefox/31.0'    }    r= requests.get(url,headers=headers)    r.encoding='UTF-8'    page = r.text    return pagedef getImg(page,localPath):  # 該方法傳入html的源碼,經過截取其中的img標簽,將圖片保存到本機    if not os.path.exists(localPath): # 新建文件夾        os.mkdir(localPath)    soup = BeautifulSoup(page,'html.parser') # 按照html格式解析頁面    imgList = soup.find_all('img')  # 返回包含所有img標簽的列表    x = 0    for imgUrl in imgList:  # 列表循環        


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 巫溪县| 三亚市| 武乡县| 施甸县| 吕梁市| 常山县| 平武县| 修水县| 肇庆市| 三台县| 天柱县| 茶陵县| 牙克石市| 乐亭县| 洛隆县| 临朐县| 门头沟区| 麻栗坡县| 吉安县| 大埔县| 铜梁县| 东山县| 芒康县| 富民县| 昌黎县| 金塔县| 兴隆县| 松潘县| 万山特区| 电白县| 桦甸市| 江川县| 盘山县| 银川市| 济阳县| 观塘区| 开原市| 常宁市| 平果县| 旌德县| 皮山县|