python抓取某汽車網數據解析html存入excel示例

2020-02-23 05:01:40

字體：大中小

來源：轉載

供稿：網友

1、某汽車網站地址

2、使用firefox查看后發現，此網站的信息未使用json數據，而是簡單那的html頁面而已

3、使用pyquery庫中的PyQuery進行html的解析

頁面樣式：

代碼如下:
def get_dealer_info(self):
        """獲取經銷商信息"""
        css_select = 'html body div.box div.news_wrapper div.main div.news_list div.service_main div table tr '
        #使用火狐瀏覽器中的自動復制css路徑得到需要位置數據
        page = urllib2.urlopen(self.entry_url).read()
        #讀取頁面
        page = page.replace('<br />','&')
        page = page.replace('<br/>','&')
        #由于頁面中的電話信息中使用了br換行，所以在抓取的時候會產生問題
        #問題是：如果取得一對標簽中的數據，中包含<br/>,會出現值得到br之前的數據，而后的數據將得不到，原因個人認為是解析html是會任務/>結尾標準
        d = pq(page)
        #使用PyQuery解析頁面，此處pq=PyQuery,因為from pyquery import PyQuery as pq
        dealer_list = []
        #創建列表用于提交到存儲方法
        for dealer_div in d(css_select):
            #此處定位tr，具體數據在此標簽中的td標簽內
            p = dealer_div.findall('td')
            #此處p就是一個tr標簽內，全部td數據的集合
            dealer = {}
            #此處的字典用于存儲一個店鋪的信息用于提交到列表中
            if len(p)==1:
                #此處多哥if判斷是用于對數據進行處理，因為一些格式不符合最終數據的要求，需要剔除，這個快的代碼按需求而定
                print '@'
            elif len(p)==6 :
                strp = p[0].text.strip()