国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

使用Python讀取大文件的方法

2020-02-22 23:14:30
字體:
來源:轉載
供稿:網友

背景

最近處理文本文檔時(文件約2GB大小),出現memoryError錯誤和文件讀取太慢的問題,后來找到了兩種比較快Large File Reading 的方法,本文將介紹這兩種讀取方法。

準備工作

  我們談到“文本處理”時,我們通常是指處理的內容。Python 將文本文件的內容讀入可以操作的字符串變量非常容易。文件對象提供了三個“讀”方法: .read()、.readline() 和 .readlines()。每種方法可以接受一個變量以限制每次讀取的數據量,但它們通常不使用變量。 .read() 每次讀取整個文件,它通常用于將文件內容放到一個字符串變量中。然而.read() 生成文件內容最直接的字符串表示,但對于連續的面向行的處理,它卻是不必要的,并且如果文件大于可用內存,則不可能實現這種處理。下面是read()方法示例:

try:f = open('/path/to/file', 'r')print f.read()finally:if f:f.close() 

  調用read()會一次性讀取文件的全部內容,如果文件有10G,內存就爆了,所以,要保險起見,可以反復調用read(size)方法,每次最多讀取size個字節的內容。另外,調用readline()可以每次讀取一行內容,調用readlines()一次讀取所有內容并按行返回list。因此,要根據需要決定怎么調用。

  如果文件很小,read()一次性讀取最方便;如果不能確定文件大小,反復調用read(size)比較保險;如果是配置文件,調用readlines()最方便:

for line in f.readlines():process(line) #
  

分塊讀取

處理大文件是很容易想到的就是將大文件分割成若干小文件處理,處理完每個小文件后釋放該部分內存。這里用了iter 和 yield:

def read_in_chunks(filePath, chunk_size=1024*1024):"""Lazy function (generator) to read a file piece by piece.Default chunk size: 1MYou can set your own chunk size"""file_object = open(filePath)while True:chunk_data = file_object.read(chunk_size)if not chunk_data:breakyield chunk_dataif __name__ == "__main__":filePath = './path/filename'for chunk in read_in_chunks(filePath):process(chunk) # <do something with chunk>

使用With open()

with語句打開和關閉文件,包括拋出一個內部塊異常。for line in f文件對象f視為一個迭代器,會自動的采用緩沖IO和內存管理,所以你不必擔心大文件。

代碼如下:

#If the file is line basedwith open(...) as f:  for line in f:    process(line) # <do something with line>

優化

面對百萬行的大型數據使用with open 是沒有問題的,但是這里面參數的不同也會導致不同的效率。經過測試發先參數為"rb"時的效率是"r"的6倍。由此可知二進制讀取依然是最快的模式。

with open(filename,"rb") as f:   for fLine in f:     pass             
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 达州市| 万全县| 张家界市| 大埔区| 富阳市| 蓬莱市| 丽江市| 会理县| 隆林| 永康市| 泸溪县| 镇巴县| 胶南市| 长海县| 大连市| 太白县| 江达县| 田阳县| 济宁市| 白山市| 铜梁县| 胶南市| 临桂县| 禄丰县| 柳江县| 陈巴尔虎旗| 靖西县| 云浮市| 芮城县| 农安县| 闸北区| 镇安县| 新兴县| 衡山县| 抚顺县| 东乌| 北票市| 株洲县| 驻马店市| 安徽省| 临江市|