国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

python提取頁面內(nèi)url列表的方法

2020-02-23 01:24:54
字體:
供稿:網(wǎng)友

本文實例講述了python提取頁面內(nèi)url列表的方法。分享給大家供大家參考。具體實現(xiàn)方法如下:

from bs4 import BeautifulSoupimport time,re,urllib2t=time.time()websiteurls={}def scanpage(url):  websiteurl=url  t=time.time()  n=0  html=urllib2.urlopen(websiteurl).read()  soup=BeautifulSoup(html)  pageurls=[]  Upageurls={}  pageurls=soup.find_all("a",href=True)  for links in pageurls:    if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls:      Upageurls[links.get("href")]=0  for links in Upageurls.keys():    try:      urllib2.urlopen(links).getcode()    except:      print "connect failed"    else:      t2=time.time()      Upageurls[links]=urllib2.urlopen(links).getcode()      print n,      print links,      print Upageurls[links]      t1=time.time()      print t1-t2    n+=1  print ("total is "+repr(n)+" links")  print time.time()-tscanpage("http://news.163.com/")

希望本文所述對大家的Python程序設(shè)計有所幫助。

發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 上虞市| 辽中县| 鸡东县| 望江县| 通城县| 乌拉特前旗| 荥阳市| 竹溪县| 故城县| 阿拉善右旗| 麻栗坡县| 平山县| 望都县| 弋阳县| 澄城县| 南溪县| 绿春县| 普洱| 沂源县| 内黄县| 宣城市| 将乐县| 峡江县| 武川县| 中阳县| 息烽县| 晋州市| 上林县| 二连浩特市| 涟源市| 宁强县| 阿拉尔市| 汝城县| 齐河县| 微山县| 白山市| 武穴市| 岳普湖县| 辽阳市| 安顺市| 绵竹市|