国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

Python爬蟲包BeautifulSoup簡介與安裝(一)

2020-02-15 21:53:38
字體:
來源:轉載
供稿:網友

先發官方文檔的地址:官方文檔

學習使用的書籍是Python網絡數據采集(Ryan Mitchell著),大約是一些筆記的整理。

Beautiful Soup的簡介

簡單來說,Beautiful Soup是python的一個庫,最主要的功能是從網頁抓取數據。官方解釋如下:

Beautiful Soup提供一些簡單的、python式的函數用來處理導航、搜索、修改分析樹等功能。它是一個工具箱,通過解析文檔為用戶提供需要抓取的數據,因為簡單,所以不需要多少代碼就可以寫出一個完整的應用程序。

Beautiful Soup自動將輸入文檔轉換為Unicode編碼,輸出文檔轉換為utf-8編碼。你不需要考慮編碼方式,除非文檔沒有指定一個編碼方式,這時,Beautiful Soup就不能自動識別編碼方式了。然后,你僅僅需要說明一下原始編碼方式就可以了。
Beautiful Soup已成為和lxml、html6lib一樣出色的python解釋器,為用戶靈活地提供不同的解析策略或強勁的速度。

安裝

Beautiful Soup 3 目前已經停止開發,推薦在現在的項目中使用Beautiful Soup 4,不過它已經被移植到BS4了,也就是說導入時我們需要 import bs4 。所以這里我們用的版本是 Beautiful Soup 4.3.2 (簡稱BS4)。

書本中的源代碼用的是Python3,但是據說 BS4 對 Python3 的支持不夠好,所以我用的是 Python2.7。源碼中也會相應地調整一些包的引入。

因為之前寫過CNN等,需要在windows下配置環境,所以已經安裝了anaconda。如果安裝了anaconda的讀者,可以直接使用pip安裝,conda需要搜索一下,直接安裝時不行的。

anaconda search -t conda beautifulsoupconda install beautifulsoup4pip install beautifulsoup4

如果想安裝最新的版本,請直接下載安裝包來手動安裝,也是十分方便的方法。在這里我安裝的是 beautifulsoup4 (4.5.1)

BeautifulSoup 3.2.1

BeautifulSoup 4.5.1

下載完成之后解壓

運行下面的命令即可完成安裝

sudo python setup.py install

有時候的安裝方式會需手動安裝 lxml,如果用conda安裝會自動把依賴包給安裝上。

pip install lxml

創建 Beautiful Soup 對象

首先導入bs4庫

from bs4 import BeautifulSoup

用urlopen讀取一段HTML的內容

import sysif sys.version_info[0] == 2:  from urllib2 import urlopen # Python 2else:  from urllib.request import urlopen # Python3html = urlopen(http://www.pythonscraping.com/exercises/exercise1.html)

用讀取的內容創建beautifulsoup 對象

bsObj = BeautifulSoup(html.read())print(bsObj.h1)

此外我們也可以用本地的HTML文件來創建對象,例如

soup = BeautifulSoup(open('index.html'))            
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 交城县| 开远市| 香格里拉县| 禄丰县| 两当县| 昌吉市| 玉林市| 江北区| 济宁市| 普陀区| 莲花县| 阜平县| 离岛区| 佛坪县| 夏河县| 云龙县| 杂多县| 松溪县| 鹤峰县| 哈尔滨市| 安国市| 浙江省| 峨山| 西乌珠穆沁旗| 青阳县| 沂源县| 扶沟县| 石台县| 孝昌县| 揭西县| 盐源县| 章丘市| 扶余县| 甘德县| 成武县| 五家渠市| 巴彦淖尔市| 杭州市| 洪湖市| 五原县| 左权县|