python解析網頁,無出BeautifulSoup左右,此是序言
安裝
BeautifulSoup4以后的安裝需要用eazy_install,如果不需要最新的功能,安裝版本3就夠了,千萬別以為老版本就怎么怎么不好,想當初也是千萬人在用的啊。安裝很簡單
代碼如下:
$ wget "http://www.crummy.com/software/BeautifulSoup/download/3.x/BeautifulSoup-3.2.1.tar.gz"
$ tar zxvf BeautifulSoup-3.2.1.tar.gz
然后把里面的BeautifulSoup.py這個文件放到你python安裝目錄下的site-packages目錄下
site-packages是存放Python第三方包的地方,至于這個目錄在什么地方呢,每個系統不一樣,可以用下面的方式找一下,基本上都能找到
代碼如下:
$ sudo find / -name "site-packages" -maxdepth 5 -type d
$ find ~ -name "site-packages" -maxdepth 5
當然如果沒有root權限就查找當前用戶的根目錄
代碼如下:
$ find ~ -name "site-packages" -maxdepth 5 -type d
如果你用的是Mac,哈哈,你有福了,我可以直接告訴你,Mac的這個目錄在/Library/Python/下,這個下面可能會有多個版本的目錄,沒關系,放在最新的一個版本下的site-packages就行了。使用之前先import一下
代碼如下:
from BeautifulSoup import BeautifulSoup
使用
在使用之前我們先來看一個實例
現在給你這樣一個頁面
代碼如下:
http://movie.douban.com/tag/%E5%96%9C%E5%89%A7
它是豆瓣電影分類下的喜劇電影,如果讓你找出里面評分最高的100部,該怎么做呢
好了,我先曬一下我做的,鑒于本人在CSS方面處于小白階段以及天生沒有美術細菌,界面做的也就將就能看下,別吐

接下來我們開始學習BeautifulSoup的一些基本方法,做出上面那個頁面就易如反掌了
鑒于豆瓣那個頁面比較復雜,我們先以一個簡單樣例來舉例,假設我們處理如下的網頁代碼
代碼如下:
<html>
<head><title>Page title</title></head>
<body>
<p id="firstpara" align="center">
This is paragraph
<b>
one
</b>
.
</p>
<p id="secondpara" align="blah">
This is paragraph
<b>
two
</b>
新聞熱點
疑難解答