国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

Python中使用HTMLParser解析html實(shí)例

2020-02-23 06:24:45
字體:
供稿:網(wǎng)友

前幾天遇到一個(gè)問題,需要把網(wǎng)頁中的一部分內(nèi)容挑出來,于是找到了urllib和HTMLParser兩個(gè)庫.urllib可以將網(wǎng)頁爬下來,然后交由HTMLParser解析,初次使用這個(gè)庫,在查官方文檔時(shí)也遇到了一些問題,在這里寫下來與大家分享.

一個(gè)例子
代碼如下:
from HTMLParser import HTMLParser
class MyHTMLParser(HTMLParser):
  def handle_starttag(self, tag, attrs):
    print "a start tag:",tag,self.getpos()
parser=MyHTMLParser()
parser.feed('<div><p>"hello"</p></div>')

這個(gè)例子里HTMLParser是基類,重載了他的handle_starttag方法,輸出了一些信息.parser是MyHTMLParser的實(shí)例,調(diào)用feed方法開始解析函數(shù).值得注意的是,不需要顯示調(diào)用handle_starttag方法就會(huì)執(zhí)行.

HTMLParser方法的調(diào)用方式困惑了我很長時(shí)間,看了很多博文才恍然大悟,HTMLParser含有的方法分為兩類,一類是需要顯式調(diào)用的,而另一類不需顯示調(diào)用.

不需顯式調(diào)用的方法

下面的這些函數(shù)在解析的過程中會(huì)觸發(fā),但是默認(rèn)情況下不會(huì)產(chǎn)生任何副作用,因而我們要根據(jù)自己的需求重載.

1.HTMLParser.handle_starttag(tag,attrs): 解析時(shí)遇到開始標(biāo)簽調(diào)用,如<p class='para'>,參數(shù)tag是標(biāo)簽名,這里是'p',attrs為標(biāo)簽所有屬性(name,value)列表,這里是[('class','para')]

2.HTMLParser.handle_endtag(tag): 遇到結(jié)束標(biāo)簽時(shí)調(diào)用,tag是標(biāo)簽名

3.HTMLPars.handle_data(data): 遇到標(biāo)簽中間的內(nèi)容時(shí)調(diào)用,如<style> p {color: blue; }</style>,參數(shù)data為開閉標(biāo)簽間的內(nèi)容.值得注意的是在形如<div><p>...</p></div>的位置,并不會(huì)在div處調(diào)用,而是只在p處調(diào)用

當(dāng)然還有其他函數(shù),這里不做介紹

顯式調(diào)用的方法

1.HTMLParser.feed(data): 參數(shù)為需要解析的html字符串,調(diào)用后字符串開始被解析

2.HTMLParser.getpos(): 返回當(dāng)前的行號(hào)和偏移位置,如(23,5)

3.HTMLParser.get_starttag_text(): 返回當(dāng)前位置最近的開始標(biāo)簽的內(nèi)容

所有的內(nèi)容寫完了,最后還有一點(diǎn)注意事項(xiàng),HTMLParser只是一個(gè)簡單的模塊,解析html的功能并不完善,例如不能準(zhǔn)確的分別開標(biāo)簽和"自閉標(biāo)簽",看下面代碼:
代碼如下:
from HTMLParser import HTMLParser
class MyHTMLParser(HTMLParser):
  def handle_starttag(self,tag,attrs):
    print 'begin tag',tag
  def handle_startendtag(self,tag,attrs):
    print 'begin end tag',tag

str1='<br>'
str2='<br/>'
parser=MyHTMLParser()

parser.feed(str1)    # 輸出 "begin tag br"
parser.feed(str2)    # 輸出 "begin end br"

發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 绩溪县| 江川县| 苏尼特左旗| 科技| 涿州市| 苏州市| 嘉义市| 修文县| 阿坝| 伊金霍洛旗| 云林县| 城市| 泰安市| 东安县| 息烽县| 沙坪坝区| 漳浦县| 新密市| 醴陵市| 绥江县| 汤阴县| 凤阳县| 土默特左旗| 岳西县| 抚宁县| 大竹县| 兰溪市| 松原市| 南阳市| 南宁市| 沽源县| 曲沃县| 磐安县| 城口县| 江北区| 雅安市| 伊春市| 吉水县| 汉寿县| 雅安市| 启东市|