国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

python3實現(xiàn)網(wǎng)絡(luò)爬蟲之BeautifulSoup使用詳解

2020-02-16 00:13:17
字體:
供稿:網(wǎng)友

這一次我們來了解一下美味的湯--BeautifulSoup,這將是我們以后經(jīng)常使用的一個庫,并且非常的好用。

BeautifuleSoup庫的名字取自劉易斯·卡羅爾在《愛麗絲夢游仙境》里的同名詩歌。在故事中,這首歌是素甲魚唱的。就像它在仙境中的說法一樣,BeautifulSoup嘗試化平淡為神奇。它通過定位HTML標(biāo)簽來格式化和組織復(fù)雜的網(wǎng)絡(luò)信息,用簡單易用的Python對象為我們展現(xiàn)XML結(jié)構(gòu)信息。

由于BeautifulSoup庫不是Python標(biāo)準(zhǔn)庫,因此我們需要單獨安裝這個庫,才能使用它。對于這個庫的安裝,我們這里秉著簡單的原則,就直接利用pycharm這個IDLE進行庫的自動下載和導(dǎo)入。

首先我們進入pycharm的主界面,單擊file-〉settings-〉Project:untitled-〉Project Interpreter,如下圖:



在上圖中我們會看到一個綠色的加號,這時我們單擊這個加號,會跳出如下的界面(pycharm在這個地方有時候很慢,會一直在這個界面刷新):


這時我們在搜索框中輸入“bs4”,然后選擇列表中的bs4,然后進行安裝,如下圖:


這樣我們就完成了BeautifulSoup這個庫的安裝,下面我們就可以來使用它了。

關(guān)于這個庫的官方文檔解釋的是很詳細的,一定要看一看:點擊打開鏈接

下面我就簡單說一下這個庫的一些方面。

首先呢,我們還是從一個例子開始我們的學(xué)習(xí):

#coding:utf - 8from urllib.request import urlopenfrom bs4 import BeautifulSoup html = urlopen("http://tieba.baidu.com/")bsObj=BeautifulSoup(html,"lxml")  #將html對象轉(zhuǎn)化為BeautifulSoup對象print(bsObj.title)  #輸出這個網(wǎng)頁中的標(biāo)題 執(zhí)

執(zhí)行上面的程序,我們會得到的結(jié)果為:<title>百度貼吧——全球最大的中文社區(qū)</title>
首先我們來分析下bsObj=BeautifulSoup(html,"lxml")這句話對我們的html做了什么,在這句代碼中,我們將html對象傳入到BeautifulSoup中將它轉(zhuǎn)化成BeautifulSoup對象,關(guān)于第二個參數(shù)lxml,可以到官方文檔中看,解釋得很詳細,這里大家只要知道帶上它就可以了,不需要管它。這樣,我們就成功將html對象轉(zhuǎn)化為了BeautifulSoup對象。
下面我們來了解下BeautifulSoup對象的結(jié)構(gòu),當(dāng)我們將html轉(zhuǎn)化后得到的結(jié)構(gòu)為:
html-><html><head>....</head><body>.....</body></html>
---head-><head><title>百度貼吧--全球最大的中文社區(qū)<title></head>

發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 卫辉市| 嵊泗县| 四平市| 永宁县| 乐都县| 凌源市| 隆安县| 墨江| 海南省| 江油市| 济阳县| 五大连池市| 临夏市| 东安县| 教育| 张家界市| 灌阳县| 水富县| 榆林市| 和政县| 恩平市| 开平市| 蒙城县| 泰顺县| 永修县| 锦州市| 龙胜| 钦州市| 盐山县| 隆昌县| 阜城县| 岑巩县| 绥滨县| 阳春市| 东城区| 达拉特旗| 固始县| 鸡泽县| 汾阳市| 昌平区| 乐昌市|