国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

Python網絡爬蟲與信息提取(實例講解)

2020-02-16 02:10:12
字體:
來源:轉載
供稿:網友

課程體系結構:

1、Requests框架:自動爬取HTML頁面與自動網絡請求提交

2、robots.txt:網絡爬蟲排除標準

3、BeautifulSoup框架:解析HTML頁面

4、Re框架:正則框架,提取頁面關鍵信息

5、Scrapy框架:網絡爬蟲原理介紹,專業爬蟲框架介紹

理念:The Website is the API ...

Python語言常用的IDE工具

文本工具類IDE:

IDLE、Notepad++、Sublime Text、Vim & Emacs、Atom、Komodo Edit

集成工具IDE:

PyCharm、Wing、PyDev & Eclipse、Visual Studio、Anaconda & Spyder、Canopy

·IDLE是Python自帶的默認的常用的入門級編寫工具,它包含交互式文件式兩種方式。適用于較短的程序。

·Sublime Text是專為程序員開發的第三方專用編程工具,可以提高編程體驗,具有多種編程風格。

·Wing是Wingware公司提供的收費IDE,調試功能豐富,具有版本控制,版本同步功能,適合于多人共同開發。適用于編寫大型程序。

·Visual Studio是微軟公司維護的,可以通過配置PTVS編寫Python,主要以Windows環境為主,調試功能豐富。

·Eclipse是一款開源的IDE開發工具,可以通過配置PyDev來編寫Python,但是配置過程復雜,需要有一定的開發經驗。

·PyCharm分為社區版和專業版,社區版免費,具有簡單、集成度高的特點,適用于編寫較復雜的工程。

適用于科學計算、數據分析的IDE:

·Canopy是由Enthought公司維護的收費工具,支持近500個第三方庫,適合科學計算領域應用開發。

·Anaconda是開源免費的,支持近800個第三方庫。

Requests庫入門

Requests的安裝:

Requests庫是目前公認的爬取網頁最好的Python第三方庫,具有簡單、簡捷的特點。

官方網站:http://www.python-requests.org

在"C:/Windows/System32"中找到"cmd.exe",使用管理員身份運行,在命令行中輸入:“pip install requests”運行。

使用IDLE測試Requests庫:

>>> import requests>>> r = requests.get("http://www.baidu.com")#抓取百度頁面>>> r.status_code>>> r.encoding = 'utf-8'>>> r.text

Requests庫的7個主要方法

方法 說明
requests.request() 構造一個請求,支撐以下各方法的基礎方法
requests.get() 獲取HTML網頁的主要方法,對應于HTTP的GET
requests.head() 獲取HTML網頁頭信息的方法,對應于HTTP的HEAD
requests.post() 向HTML網頁提交POST請求的方法,對應于HTTP的POST
requests.put() 向HTML網頁提交PUT請求的方法,對應于HTTP的PUT
requests.patch() 向HTML網頁提交局部修改請求,對應于HTTP的PATCH
requests.delete() 向HTML頁面提交刪除請求,對應于HTTP的DELET
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 广东省| 印江| 遵化市| 承德县| 神农架林区| 邢台市| 方山县| 铜鼓县| 昌图县| 商都县| 广东省| 威远县| 广南县| 太谷县| 铁岭市| 阿图什市| 仙居县| 太仓市| 德安县| 黑水县| 宣威市| 桂平市| 清涧县| 定日县| 荃湾区| 长丰县| 莫力| 南和县| 凤庆县| 河源市| 六安市| 剑河县| 邹平县| 桐梓县| 马边| 石家庄市| 叶城县| 阜城县| 镇赉县| 迁西县| 澄迈县|