進一步探究Python的裝飾器的運用

2020-02-23 01:05:29

字體：大中小

來源：轉載

供稿：網友

裝飾器在 python 中用的相當廣泛，如果你用過 python 的一些 web 框架，那么一定對其中的 “ route() 裝飾器” 不陌生，今天咱們再看一個具體的案例。

咱們來模擬一個場景，需要你去抓去一個頁面，然后這個頁面有好多url也要分別去抓取，而進入這些子url后，還有數據要抓取。簡單點，我們就按照三層來看，那我們的代碼就是如下：

def func_top(url):  data_dict= {}   #在頁面上獲取到子url  sub_urls = xxxx   data_list = []  for it in sub_urls:    data_list.append(func_sub(it))   data_dict['data'] = data_list   return data_dict def func_sub(url):  data_dict= {}   #在頁面上獲取到子url  bottom_urls = xxxx   data_list = []  for it in bottom_urls:    data_list.append(func_bottom(it))   data_dict['data'] = data_list   return data_dict def func_bottom(url):  #獲取數據  data = xxxx  return data

func_top是上層頁面的處理函數，func_sub是子頁面的處理函數，func_bottom是最深層頁面的處理函數，func_top會在取到子頁面url后遍歷調用func_sub,func_sub也是同樣。
如果正常情況下，這樣確實已經滿足需求了，但是偏偏這個你要抓取的網站可能極不穩定，經常鏈接不上，導致數據拿不到。
于是這個時候你有兩個選擇:
1.遇到錯誤就停止，之后重新從斷掉的位置開始重新跑
2.遇到錯誤繼續，但是要在之后重新跑一遍，這個時候已經有的數據不希望再去網站拉一次，而只去拉沒有取到的數據
對第一種方案基本無法實現，因為如果別人網站的url調整順序，那么你記錄的位置就無效了。那么只有第二種方案，說白了，就是要把已經拿到的數據cache下來，等需要的時候，直接從cache里面取。
OK，目標已經有了，怎么實現呢？
如果是在C++中的，這是個很麻煩的事情，而且寫出來的代碼必定丑陋無比，然而慶幸的是，我們用的是python，而python對函數有裝飾器。
所以實現方案也就有了:
定義一個裝飾器，如果之前取到數據，就直接取cache的數據；如果之前沒有取到，那么就從網站拉取，并且存入cache中.
代碼如下:

import osimport hashlib def deco_args_recent_cache(category='dumps'):  '''  裝飾器，返回最新cache的數據  '''  def deco_recent_cache(func):    def func_wrapper(*args, **kargs):      sig = _mk_cache_sig(*args, **kargs)      data = _get_recent_cache(category, func.__name__, sig)      if data is not None:        return data       data = func(*args, **kargs)      if data is not None:        _set_recent_cache(category, func.__name__, sig, data)      return data     return func_wrapper   return deco_recent_cache def _mk_cache_sig(*args, **kargs):  '''  通過傳入參數，生成唯一標識  '''  src_data = repr(args) + repr(kargs)  m = hashlib.md5(src_data)  sig = m.hexdigest()  return sig def _get_recent_cache(category, func_name, sig):  full_file_path = '%s/%s/%s' % (category, func_name, sig)  if os.path.isfile(full_file_path):    return eval(file(full_file_path,'r').read())  else:    return None def _set_recent_cache(category, func_name, sig, data):  full_dir_path = '%s/%s' % (category, func_name)  if not os.path.isdir(full_dir_path):    os.makedirs(full_dir_path)   full_file_path = '%s/%s/%s' % (category, func_name, sig)  f = file(full_file_path, 'w+')  f.write(repr(data))  f.close()

上一篇：python去除所有html標簽的方法

下一篇：用Python實現一個簡單的能夠上傳下載的HTTP服務器