国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

python抓取某汽車網數據解析html存入excel示例

2020-02-23 05:01:40
字體:
來源:轉載
供稿:網友

1、某汽車網站地址

2、使用firefox查看后發現,此網站的信息未使用json數據,而是簡單那的html頁面而已

3、使用pyquery庫中的PyQuery進行html的解析

頁面樣式:

代碼如下:
def get_dealer_info(self):
        """獲取經銷商信息"""
        css_select = 'html body div.box div.news_wrapper div.main div.news_list div.service_main div table tr '
        #使用火狐瀏覽器中的自動復制css路徑得到需要位置數據
        page = urllib2.urlopen(self.entry_url).read()
        #讀取頁面
        page = page.replace('<br />','&')
        page = page.replace('<br/>','&')
        #由于頁面中的電話信息中使用了br換行,所以在抓取的時候會產生問題
        #問題是:如果取得一對標簽中的數據,中包含<br/>,會出現值得到br之前的數據,而后的數據將得不到,原因個人認為是解析html是會任務/>結尾標準       
        d = pq(page)
        #使用PyQuery解析頁面,此處pq=PyQuery,因為from pyquery import PyQuery as pq
        dealer_list = []
        #創建列表用于提交到存儲方法
        for dealer_div in d(css_select):
            #此處定位tr,具體數據在此標簽中的td標簽內
            p = dealer_div.findall('td')
            #此處p就是一個tr標簽內,全部td數據的集合
            dealer = {}
            #此處的字典用于存儲一個店鋪的信息用于提交到列表中
            if len(p)==1:
                #此處多哥if判斷是用于對數據進行處理,因為一些格式不符合最終數據的要求,需要剔除,這個快的代碼按需求而定
                print '@'
            elif len(p)==6 :
                strp = p[0].text.strip()

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 甘肃省| 溆浦县| 方城县| 阳朔县| 公主岭市| 井研县| 华容县| 乃东县| 宣城市| 濮阳县| 宽甸| 临高县| 台北县| 高雄市| 哈尔滨市| 隆化县| 买车| 加查县| 嘉兴市| 乌兰浩特市| 大姚县| 桓台县| 湾仔区| 什邡市| 泰安市| 资源县| 清镇市| 台南市| 宁晋县| 台南县| 广丰县| 郴州市| 奉新县| 绥滨县| 台安县| 万全县| 连州市| 阳城县| 准格尔旗| 通江县| 道孚县|