背景:9月份有部分數據缺失,這部分數據在郵箱里,需要重新拉取,但是每天幾百封郵件,總共有6、7萬封郵件,使用stat()和retr(which)結合遍歷很
耗時
基于如上背景,初始大致思路為:
使用二分法獲取到需要恢復數據時間范圍內的中間一個值,也就是第幾封郵件,然后分兩頭遍歷,
讀取到所有需要的郵件
算法函數:
1、獲取到郵件的時間,由于可能收到格林威治時間郵件,所以這里做了相應的處理
def getTimeStamp(cn):  messages=mailServer.retr(cn)[1]  mail = email.message_from_bytes('/n'.encode('utf-8').join(messages))  date=email.header.decode_header(mail.get('date'))  utcstr = date[0][0].replace('+00:00','')  global utcdatetime  try:    utcdatetime = datetime.datetime.strptime(utcstr, '%a, %d %b %Y %H:%M:%S +0000 (GMT)')    localdatetime = utcdatetime + datetime.timedelta(hours=+8)    localtimestamp = localdatetime.timestamp()  except:    utcdatetime = datetime.datetime.strptime(utcstr, '%a, %d %b %Y %H:%M:%S +0800')    localtimestamp = utcdatetime.timestamp()  return localtimestamp2、二分法
bu_daytimestamp yesterdaytimestamp兩個是需要補數據的時間戳
key_nums=0mid2=mailCountwhile 1==1: mid=getTimeStamp(round(mailCount)) mid2=round(mid2/2) if mid >bu_daytimestamp: mailCount=mailCount-mid2 elif mid<yesterdaytimestamp: mailCount=mailCount+mid2 elif mid <=bu_daytimestamp and mid >=yesterdaytimestamp: key_nums=mailCount break print(mailCount)print(key_nums)
這里只記錄算法,后續遍歷比較簡單,就不展示了
解釋下部分參數:
mailServer:登錄后的郵箱
mailCount:總的郵件數量,來源于mailServer.stat()第二個參數
以上這篇Python讀取指定日期郵件的實例就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持武林站長站。
新聞熱點
疑難解答