国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

python實(shí)現(xiàn)爬蟲下載美女圖片

2020-01-04 18:04:36
字體:
供稿:網(wǎng)友

本文給大家發(fā)發(fā)福利,給大家分享一個(gè)使用Python實(shí)現(xiàn)爬蟲下載百度貼吧美女圖片的代碼,十分不錯(cuò),有需要的小伙伴直接拿走吧。

本次爬取的貼吧是百度的美女吧,給廣大男同胞們一些激勵(lì)

在爬取之前需要在瀏覽器先登錄百度貼吧的帳號(hào),各位也可以在代碼中使用post提交或者加入cookie

爬行地址:http://tieba.baidu.com/f?kw=%E7%BE%8E%E5%A5%B3&ie=utf-8&pn=0

 

 
  1. #-*- coding:utf-8 -*- 
  2. import urllib2 
  3. import re 
  4. import requests 
  5. from lxml import etree 
  6.  
  7. 這些是要導(dǎo)入的庫,代碼并沒有使用正則,使用的是xpath,正則困難的童鞋可以嘗試使用下 
  8.  
  9. 推薦各位先使用基本庫來寫,這樣可以學(xué)習(xí)到更多 
  10.  
  11. links=[]    #遍歷url的地址 
  12. k=1     
  13. print u'請(qǐng)輸入最后的頁數(shù):' 
  14. endPage=int(raw_input())    #最終的頁數(shù)  (r'/d+(?=/s*頁) 這是一個(gè)比較通用的正則抓取總頁數(shù)的代碼,當(dāng)然最后要group 
  15.  
  16. #這里是手動(dòng)輸入頁數(shù),避免內(nèi)容太多 
  17.  
  18. for j in range(0,endPage): 
  19. url='http://tieba.baidu.com/f?kw=%E7%BE%8E%E5%A5%B3&ie=utf-8&pn='+str(j)      #頁數(shù)的url地址 
  20. html=urllib2.urlopen(url).read()                #讀取首頁的內(nèi)容 
  21. selector=etree.HTML(html)              #轉(zhuǎn)換為xml,用于在接下來識(shí)別 
  22. links=selector.xpath('//div/a[@class="j_th_tit"]/@href')        #抓取當(dāng)前頁面的所有帖子的url 
  23.  
  24. #大家可以使用瀏覽器自帶的源碼查看工具,在指定目標(biāo)處查看元素,這樣更快捷 
  25.  
  26. for i in links: 
  27. url1="http://tieba.baidu.com"+i      #因?yàn)榕廊〉降牡刂肥窍鄬?duì)地址,所以要加上百度的domain 
  28. html2=urllib2.urlopen(url1).read()      #讀取當(dāng)前頁面的內(nèi)容 
  29. selector=etree.HTML(html2)          #轉(zhuǎn)換為xml用于識(shí)別 
  30. link=selector.xpath('//img[@class="BDE_Image"]/@src')    #抓取圖片,各位也可以更換為正則,或者其他你想要的內(nèi)容 
  31.  
  32. #此處就是遍歷下載 
  33. for each in link: 
  34. #print each 
  35. print u'正在下載%d'%k 
  36. fp=open('image/'+str(k)+'.bmp','wb')      #下載在當(dāng)前目錄下 image文件夾內(nèi),圖片格式為bmp 
  37. image1=urllib2.urlopen(each).read()        #讀取圖片的內(nèi)容 
  38. fp.write(image1)                  #寫入圖片 
  39. fp.close() 
  40. k+=1    #k就是文件的名字,每下載一個(gè)文件就加1 
  41.  
  42. print u'下載完成!' 

如果想要爬取其他站點(diǎn)的內(nèi)容,大家可以參考一下

發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 衡东县| 克什克腾旗| 定南县| 中山市| 巴青县| 辽中县| 柘城县| 冷水江市| 陈巴尔虎旗| 凤台县| 重庆市| 石家庄市| 丹寨县| 普兰县| 图片| 仁布县| 曲松县| 宁明县| 松江区| 西乌| 茌平县| 乌鲁木齐县| 丰台区| 中阳县| 巴塘县| 澳门| 小金县| 方城县| 米易县| 吉木乃县| 石柱| 吴旗县| 彭山县| 东安县| 临安市| 府谷县| 定州市| 兴安县| 达日县| 皮山县| 额尔古纳市|