本文實例主要實現的是使用urllib和BeautifulSoup爬取維基百科的詞條,具體如下。
簡潔代碼:
#引入開發包from urllib.request import urlopenfrom bs4 import BeautifulSoupimport re#請求URL并把結果用UTF-8編碼resp=urlopen("https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5").read().decode("utf-8")#使用BeautifulSoup去解析soup=BeautifulSoup(resp,"html.parser")#print(soup)#獲取所有以/wiki/開頭的a標簽的href屬性listUrl=soup.findAll("a",href=re.compile("^/wiki/"))#輸出所有詞條對應的名稱和URLfor link in listUrl: if not re.search("/.(jpg|JPG)$",link["href"]): print(link.get_text(),"<----->","https://zh.wikipedia.org"+link["href"])運行結果:

總結
總的來說,Python是簡潔而又強大的,調用幾個庫,就能實現其他語言一大堆代碼才能實現的功能。
以上就是本文關于urllib和BeautifulSoup爬取維基百科的詞條簡單實例的全部內容,希望對大家有所幫助。感興趣的朋友可以繼續參閱本站其他相關專題,如有不足之處,歡迎留言指出。感謝朋友們對本站的支持!
|
新聞熱點
疑難解答