使用Python讀取大文件的方法

2020-02-22 23:14:30

字體：大中小

來源：轉載

供稿：網友

背景

最近處理文本文檔時（文件約2GB大小），出現memoryError錯誤和文件讀取太慢的問題，后來找到了兩種比較快Large File Reading 的方法，本文將介紹這兩種讀取方法。

準備工作

　　我們談到“文本處理”時，我們通常是指處理的內容。Python 將文本文件的內容讀入可以操作的字符串變量非常容易。文件對象提供了三個“讀”方法： .read()、.readline() 和 .readlines()。每種方法可以接受一個變量以限制每次讀取的數據量，但它們通常不使用變量。 .read() 每次讀取整個文件，它通常用于將文件內容放到一個字符串變量中。然而.read() 生成文件內容最直接的字符串表示，但對于連續的面向行的處理，它卻是不必要的，并且如果文件大于可用內存，則不可能實現這種處理。下面是read()方法示例：

try:f = open('/path/to/file', 'r')print f.read()finally:if f:f.close()

　　調用read()會一次性讀取文件的全部內容，如果文件有10G，內存就爆了，所以，要保險起見，可以反復調用read(size)方法，每次最多讀取size個字節的內容。另外，調用readline()可以每次讀取一行內容，調用readlines()一次讀取所有內容并按行返回list。因此，要根據需要決定怎么調用。

　　如果文件很小，read()一次性讀取最方便；如果不能確定文件大小，反復調用read(size)比較保險；如果是配置文件，調用readlines()最方便：

for line in f.readlines():process(line) #

分塊讀取

處理大文件是很容易想到的就是將大文件分割成若干小文件處理，處理完每個小文件后釋放該部分內存。這里用了iter 和 yield：

def read_in_chunks(filePath, chunk_size=1024*1024):"""Lazy function (generator) to read a file piece by piece.Default chunk size: 1MYou can set your own chunk size"""file_object = open(filePath)while True:chunk_data = file_object.read(chunk_size)if not chunk_data:breakyield chunk_dataif __name__ == "__main__":filePath = './path/filename'for chunk in read_in_chunks(filePath):process(chunk) # <do something with chunk>

使用With open()

with語句打開和關閉文件，包括拋出一個內部塊異常。for line in f文件對象f視為一個迭代器，會自動的采用緩沖IO和內存管理，所以你不必擔心大文件。

代碼如下：

#If the file is line basedwith open(...) as f:　　for line in f:　　　　process(line) # <do something with line>

優化

面對百萬行的大型數據使用with open 是沒有問題的，但是這里面參數的不同也會導致不同的效率。經過測試發先參數為"rb"時的效率是"r"的6倍。由此可知二進制讀取依然是最快的模式。

with open(filename,"rb") as f:   for fLine in f:   　　pass

上一篇：Python實現Kmeans聚類算法

下一篇：詳解Python核心對象類型字符串

學習交流

筆記本開機提示error loading os錯誤的問

筆記本開機提示error loading os錯誤的問題怎么解決...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關注

新聞熱點

雷軍：小米成立10年收入突破2000億

2020-02-23 14:27:16

特斯拉：無鈷，不代表一定是磷酸鐵鋰電池

2020-02-22 09:45:28

豌豆莢宣布業務調整將于2月28日關閉PC版在線服務

2020-02-22 09:42:20

小米集團宣布人事任命：聯合創始人王川擔任小米集團首席戰略官

2020-02-22 09:39:07

外媒：高通康寧合作開發毫米波5G室內解決方案

2020-02-21 16:46:56

華為終端產品與戰略線上發布會：5G全場景，共聯未來

2020-02-20 10:01:00

疑難解答

圖片精選

網友關注

国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

使用Python讀取大文件的方法