国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

<p id="1dypf"><ins id="1dypf"></ins></p>

首頁 > 學院 > 開發設計 > 正文

python抓取網頁過程

2019-11-14 17:16:15

字體：大中小

來源：轉載

供稿：網友

準備過程

1.抓取網頁的過程

準備好http請求（http request）->提交對應的請求->獲得返回的響應（http response）->獲得網頁源碼

2.GET還是POST

3.Headers（可選）

在某些情況下，直接抓取是被禁止的，此時需要提供一個Headers來告訴對方我不是機器人

例如：

1 def getHtml(url):2     header={'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:14.0) Gecko/20100101 Firefox/14.0.1','Referer' : '******'}3     request=urllib2.Request(url,None,header)4     response=urllib2.urlopen(request)5     text=response.read()6     return text

4.Post Data（可選）

某些情況下是需要登錄某網站的，此時需要提交帳號密碼之類的，則需要使用Post Data

在IE中稱為request body，Chrome中成為Post Data

5.Cookie（可選）

一般來說，模擬登陸的時候往往會涉及到Cookie

6.其他（代理，最大超時時間timeout）

內容分析

1.對于html源碼，調用BeautifulSoup庫

2.正則表達式

本文參考了http://www.crifan.com/summary_about_flow_PRocess_of_fetch_webpage_simulate_login_website_and_some_notice/

可以說是一個簡化版，想看的可以去看原文

PS：博主提供了很多計算機方面的資料，讀后幫助很大，有興趣的可以過去看看

上一篇：Python實現__metaclass__實現方法運行時間統計

下一篇：cve-2015-1635poc

學習交流

索泰發布一款GTX 1070 Mini迷你版本:小機

索泰發布一款GTX 1070 Mini迷你版本:小機箱大愛...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關注

新聞熱點

榮耀總裁趙明烏鎮演講：榮耀首款5G手機V30下月發布

2019-10-23 09:17:05

搜狐張朝陽：回歸媒體是搜狐重新崛起的關鍵

2019-10-21 09:20:02

華為輪值董事長郭平：虛擬技術創造現實價值

2019-10-21 09:00:12

滴滴英文服務上線兩周年用戶已超200萬

2019-09-26 08:57:12

華為推出全球至快AI訓練集群Atlas900

2019-09-25 08:46:36

馬斯克：特斯拉正組建中國技術團隊

2019-09-25 08:15:43

疑難解答

圖片精選

網友關注

主站蜘蛛池模板：新竹县| 西畴县| 吉首市| 兴海县| 美姑县| 东海县| 丹寨县| 正宁县| 尼勒克县| 晴隆县| 新津县| 屏东县| 鄯善县| 读书| 改则县| 汉寿县| 罗源县| 邹平县| 平陆县| 康定县| 铜山县| 宣汉县| 临江市| 珠海市| 石林| 富阳市| 通江县| 洱源县| 明光市| 宁陵县| 安顺市| 苍溪县| 凭祥市| 吉隆县| 万山特区| 陕西省| 长岛县| 扶绥县| 勃利县| 东乌珠穆沁旗| 建瓯市|

<small id="yxgl3"><dl id="yxgl3"></dl></small>

<td id="yxgl3"></td>

<form id="yxgl3"><optgroup id="yxgl3"></optgroup></form>