課程體系結構:
1、Requests框架:自動爬取HTML頁面與自動網絡請求提交
2、robots.txt:網絡爬蟲排除標準
3、BeautifulSoup框架:解析HTML頁面
4、Re框架:正則框架,提取頁面關鍵信息
5、Scrapy框架:網絡爬蟲原理介紹,專業爬蟲框架介紹
理念:The Website is the API ...
Python語言常用的IDE工具
文本工具類IDE:
IDLE、Notepad++、Sublime Text、Vim & Emacs、Atom、Komodo Edit
集成工具IDE:
PyCharm、Wing、PyDev & Eclipse、Visual Studio、Anaconda & Spyder、Canopy
·IDLE是Python自帶的默認的常用的入門級編寫工具,它包含交互式文件式兩種方式。適用于較短的程序。
·Sublime Text是專為程序員開發的第三方專用編程工具,可以提高編程體驗,具有多種編程風格。
·Wing是Wingware公司提供的收費IDE,調試功能豐富,具有版本控制,版本同步功能,適合于多人共同開發。適用于編寫大型程序。
·Visual Studio是微軟公司維護的,可以通過配置PTVS編寫Python,主要以Windows環境為主,調試功能豐富。
·Eclipse是一款開源的IDE開發工具,可以通過配置PyDev來編寫Python,但是配置過程復雜,需要有一定的開發經驗。
·PyCharm分為社區版和專業版,社區版免費,具有簡單、集成度高的特點,適用于編寫較復雜的工程。
適用于科學計算、數據分析的IDE:
·Canopy是由Enthought公司維護的收費工具,支持近500個第三方庫,適合科學計算領域應用開發。
·Anaconda是開源免費的,支持近800個第三方庫。
Requests庫入門
Requests的安裝:
Requests庫是目前公認的爬取網頁最好的Python第三方庫,具有簡單、簡捷的特點。
官方網站:http://www.python-requests.org
在"C:/Windows/System32"中找到"cmd.exe",使用管理員身份運行,在命令行中輸入:“pip install requests”運行。

使用IDLE測試Requests庫:
>>> import requests>>> r = requests.get("http://www.baidu.com")#抓取百度頁面>>> r.status_code>>> r.encoding = 'utf-8'>>> r.textRequests庫的7個主要方法
| 方法 | 說明 |
| requests.request() | 構造一個請求,支撐以下各方法的基礎方法 |
| requests.get() | 獲取HTML網頁的主要方法,對應于HTTP的GET |
| requests.head() | 獲取HTML網頁頭信息的方法,對應于HTTP的HEAD |
| requests.post() | 向HTML網頁提交POST請求的方法,對應于HTTP的POST |
| requests.put() | 向HTML網頁提交PUT請求的方法,對應于HTTP的PUT |
| requests.patch() | 向HTML網頁提交局部修改請求,對應于HTTP的PATCH |
| requests.delete() | 向HTML頁面提交刪除請求,對應于HTTP的DELET |
新聞熱點
疑難解答