1.cookie的作用
cookie 是指某些網(wǎng)站為了辨別用戶身份、進(jìn)行session跟蹤而儲(chǔ)存在用戶本地終端上的數(shù)據(jù),就像有些網(wǎng)站上的一些數(shù)據(jù)是需要登錄后才能看得到,那么想抓取某個(gè)頁面內(nèi)容,就需要用到cookie來模擬登陸了。
在用cookie模擬登陸的時(shí)候,需要用到python中的CookieJar
,CookieJar中有一些子類,例如:
MozillaCookieJar
和LWPCookieJar
類都是FileCookieJar
的子類。實(shí)現(xiàn)了具體的把cookie內(nèi)容保存為文件的方法。只是這兩個(gè)類對(duì)應(yīng)的標(biāo)準(zhǔn)不同而已。
2 獲取cookie
from http.cookiejar import CookieJar,LWPCookieJarfrom urllib.request import Request,urlopen,HTTPCookieProcessor,build_openerfrom urllib.parse import urlencodeimport ssl# ----------------------------------------獲取cookie---------------------------# 生成一個(gè)管理cookie的對(duì)象cookie_obj = CookieJar()# 創(chuàng)建一個(gè)支持cookie的對(duì)象,對(duì)象屬于HTTPCookieProcessorcookie_handler = HTTPCookieProcessor(cookie_obj) #創(chuàng)建一個(gè)openeropener = build_opener(cookie_handler) response = opener.open('http://www.baidu.com')print(response)#打印cookiefor cookie in cookie_obj: print('key:',cookie.name) print('value:',cookie.value)
3 保存cookie的文件
from http.cookiejar import CookieJar,LWPCookieJarfrom urllib.request import Request,urlopen,HTTPCookieProcessor,build_openerfilename = 'neihan.txt'# 設(shè)置cookie保存的文件cookie_obj = LWPCookieJar(filename=filename)# 創(chuàng)建一個(gè)支持cookie的對(duì)象,對(duì)象屬于HTTPCookieProcessorcookie_handler = HTTPCookieProcessor(cookie_obj)#創(chuàng)建一個(gè)openeropener = build_opener(cookie_handler)#請(qǐng)求網(wǎng)頁response = opener.open('http://www.neihanshequ.com')# 保存cookie到指定的文件當(dāng)中去# ignore_expires=True 即便目標(biāo)cookie已經(jīng)在文件中存在,仍然對(duì)其寫入# ignore_discard=True 即便cookie將要/已經(jīng)過期,仍然寫入cookie_obj.save(ignore_expires=True,ignore_discard=True)
4 使用本地的cookie進(jìn)行請(qǐng)求
from http.cookiejar import CookieJar,LWPCookieJarfrom urllib.request import Request,urlopen,HTTPCookieProcessor,build_openercookie = LWPCookieJar()#從文件中讀取cookie到變量cookie.load('neihan.txt')request = Request('http://www.neihanshequ.com')# 創(chuàng)建一個(gè)支持cookie的對(duì)象,對(duì)象屬于HTTPCookieProcessorcookie_handler = HTTPCookieProcessor(cookie)#創(chuàng)建一個(gè)openeropener = build_opener(cookie_handler)#請(qǐng)求網(wǎng)頁response = opener.open(request)# print(response.read().decode())
5 使用cookie進(jìn)行模擬登陸
from http.cookiejar import CookieJar,LWPCookieJarfrom urllib.request import Request,urlopen,HTTPCookieProcessor,build_openerfrom urllib.parse import urlencodeimport sslcookie = LWPCookieJar(filename='meishi.txt')cookie_handler = HTTPCookieProcessor(cookie)opener = build_opener(cookie_handler)headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0'}post_url = 'https://i.meishi.cc/login.php?redirect=https%3A%2F%2Fi.meishi.cc%2Flogin.php%3Fac%3Dzhuce'# urlencode對(duì)url當(dāng)中的參數(shù)進(jìn)行編碼# urlencode()編碼的對(duì)象為字典類型post_data = urlencode({ 'username':'***********', #自己的登陸賬號(hào) 'password':'************' #自己的登陸密碼})# 請(qǐng)求url 并傳參,設(shè)置編碼方式request = Request(post_url,bytes(post_data,encoding='utf-8'))# 解決證書問題ssl._create_default_https_context = ssl._create_unverified_contextresponse = opener.open(request)print(response.read().decode())cookie.save(ignore_discard=True,ignore_expires=True)
新聞熱點(diǎn)
疑難解答
圖片精選