国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

Python使用requests及BeautifulSoup構建爬蟲實例代碼

2020-02-22 22:58:43
字體:
來源:轉載
供稿:網友

本文研究的主要是Python使用requests及BeautifulSoup構建一個網絡爬蟲,具體步驟如下。

功能說明

在Python下面可使用requests模塊請求某個url獲取響應的html文件,接著使用BeautifulSoup解析某個html。

案例

假設我要http://maoyan.com/board/4貓眼電影的top100電影的相關信息,如下截圖:

獲取電影的標題及url。

安裝requests和BeautifulSoup

使用pip工具安裝這兩個工具。

pip install requests

pip install beautifulsoup4

程序

__author__ = 'Qian Yang'# -*- coding:utf-8 -*-import requestsfrom bs4 import BeautifulSoupdef get_one_page(url):  response= requests.get(url)  if response.status_code == 200:    return response.content.decode("utf8","ignore").encode("gbk","ignore")#采用BeautifulSoup解析def bs4_paraser(html):  all_value = []  value = {}  soup = BeautifulSoup(html,'html.parser')  # 獲取每一個電影  all_div_item = soup.find_all('div', attrs={'class': 'movie-item-info'})  for r in all_div_item:    # 獲取電影的名稱和url    title = r.find_all(name="p",attrs={"class":"name"})[0].string    movie_url = r.find_all('p', attrs={'class': 'name'})[0].a['href']    value['title'] = title    value['movie_url'] = movie_url    all_value.append(value)    value = {}  return all_valuedef main():  url = 'http://maoyan.com/board/4'  html = get_one_page(url)  all_value = bs4_paraser(html)  print(all_value)if __name__ == '__main__':  main()

代碼測試可用,實現效果:

總結

以上就是本文關于Python使用requests及BeautifulSoup構建爬蟲實例代碼的全部內容,希望對大家有所幫助。感興趣的朋友可以繼續參閱本站其他相關專題,如有不足之處,歡迎留言指出。感謝朋友們對本站的支持!

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 会理县| 兴仁县| 凤凰县| 丁青县| 象州县| 襄樊市| 扶风县| 都安| 龙南县| 福贡县| 探索| 黔西县| 红安县| 郴州市| 鄂州市| 河西区| 自贡市| 临邑县| 萨迦县| 定襄县| 龙陵县| 镇江市| 隆回县| 崇礼县| 分宜县| 蓬溪县| 开远市| 呼图壁县| 闵行区| 阳西县| 麻栗坡县| 库尔勒市| 庆阳市| 亚东县| 嘉善县| 威远县| 安龙县| 永川市| 右玉县| 三穗县| 广东省|