首先確定你要爬取的目標(biāo)網(wǎng)站的表單提交方式,可以通過開發(fā)者工具看到。這里推薦使用chrome。
這里我用163郵箱為例
打開工具后再Network中,在Name選中想要了解的網(wǎng)站,右側(cè)headers里的request method就是提交方式。status如果是200表示成功訪問下面的有頭信息,cookie是你登錄之后產(chǎn)生的存儲會話(session)信息的。第一次訪問該網(wǎng)頁需要提供用戶名和密碼,之后只需要在headers里提供cookie就可以登陸進(jìn)去。
引入requests庫,會提供get和post的方法。
代碼示例:
import requestsimport ssluser_agent="Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0"accept='text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'accept_language='zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3'upgrade='1'headers={ 'User-Agent':user_agent, 'Accept':accept, 'Accept-Language':accept_language,'Cookie':'....'#這里填入你登陸后產(chǎn)生的cookie}r = requests.get("http://mail.163.com/js6/main.jsp?sid=OAwUtGgglzEJoANLHPggrsKKAhsyheAT&df=mail163_letter#module=welcome.WelcomeModule%7C%7B%7D",headers=headers,verify=False)fp = open("/temp/csdn.txt","w",encoding='utf-8')fp.write(str(r.content,'utf-8'))fp.close()這里我引入了ssl庫,因為我第一次訪問的網(wǎng)頁證書過期。如果我們使用爬蟲進(jìn)入這樣的網(wǎng)站時,會報錯:SSLError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:581)
在requests的get和post方法中,有一個參數(shù)為verify,把他設(shè)為False后會禁掉證書的要求
|
新聞熱點
疑難解答
圖片精選