国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

對python數(shù)據(jù)切割歸并算法的實例講解

2020-02-16 00:05:43
字體:
供稿:網(wǎng)友

當一個 .txt 文件的數(shù)據(jù)過于龐大,此時想要對數(shù)據(jù)進行排序就需要先將數(shù)據(jù)進行切割,然后通過歸并排序,最終實現(xiàn)對整體數(shù)據(jù)的排序。要實現(xiàn)這個過程我們需要進行以下幾步:獲取總數(shù)據(jù)行數(shù);根據(jù)行數(shù)按照自己的需要對數(shù)據(jù)進行切割;對每組數(shù)據(jù)進行排序 最后對所有數(shù)據(jù)進行歸并排序。

下面我們就來實現(xiàn)這整個過程:

一:獲取總數(shù)據(jù)的行

def get_file_lines(file_path): # 目標文件的路徑 file_path = str(file_path) with open(file_path, 'rb') as file:  # 定義行數(shù)  i = 0  while True:   # 一次讀取一行數(shù)據(jù)   line = file.readline()   if not line :    break   else:    # 每讀一行,行數(shù)加一    i += 1   #設(shè)置進度條,每當i讀取1000000行時打印一次i   # 每當讀取1000000的整數(shù)倍行時,打印行數(shù)(進度條)   if i % 1000000 == 0:    print(i)  # 打印總行數(shù)  print(i)  return i

二:對數(shù)據(jù)進行切割

# 定義均等切割函數(shù),num是待切割的文件的行數(shù)的值,n為切割份數(shù),file_path是待切割的文件,file_dir是切割好的文件寫入的目錄def evg_split(num, n, file_path, file_dir): last_list = [] # 如果樣本剛好可以整除為n份 if num % n == 0:  for i in range(n):   # 則直接將樣本分為n分沒份對應num/n個   last_list.append(num / n) # 如果不能整除 if num % n != 0:  # 如果不能整除,則先將num整除n-1并取n-1份,余下的單獨做一份  evg = (num - num % n) // (n - 1)  for i in range(n):   last_list.append(evg)  last_list.append(num % (n - 1)) print(last_list) # return last_list # 對應于切割后的每一份數(shù)據(jù) with open(file_path, 'rb') as path:  for i in range(n):   # 創(chuàng)建臨時文件   tmp_file = file_dir + str(i) + '.txt'   # 打開臨時文件,將內(nèi)容一條一條的寫入   file = open(tmp_file, 'wb')   for j in range(int(last_list[i])):    line = path.readline()    file.write(line)    print(line)   print('------------')   file.close()

三:對每組數(shù)據(jù)進行排序的內(nèi)容由讀者根據(jù)自身數(shù)據(jù)需要進行排序,下面直接介紹歸并排序

四:歸并排序

def merge( mylist1, mylist2, file1): while len(mylist1) > 0 and len(mylist2) > 0:  if mylist1[0]<mylist2[0]:   with open(file1,'a') as file:    file.write(str(mylist1[0]))    del mylist1[0]  elif mylist1[0] > mylist2[0]:   with open(file1,'a') as file:    file.write(str(mylist2[0]))    del mylist2[0]  else:   with open(file1,'a') as file:    file.write(str(mylist1[0]))    file.write(str(mylist2[0]))    del mylist1[0]    del mylist2[0] with open(file1, 'a') as file:  for i in mylist1:   file.write(str(i))  for i in mylist2:   file.write(str(i))

總結(jié):對于一個大型數(shù)據(jù)文件,我們可以將其切割成若干個小型的數(shù)據(jù)文件,然后分別的這些小型的數(shù)據(jù)文件進行排序,最后使用歸并排序?qū)⑦@些數(shù)據(jù)文件寫入到一個總體文件中,從而實現(xiàn)了對這個大型數(shù)據(jù)文件的排序。

發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 子洲县| 滦平县| 宁南县| 顺平县| 龙陵县| 赫章县| 东平县| 鸡西市| 青铜峡市| 衡阳市| 广西| 高雄市| 昌黎县| 阿拉善左旗| 大洼县| 乳源| 丹凤县| 江津市| 盐亭县| 龙川县| 黄山市| 资源县| 静安区| 绥中县| 襄樊市| 乃东县| 霍林郭勒市| 永康市| 五台县| 永嘉县| 改则县| 万源市| 苏尼特右旗| 璧山县| 神农架林区| 扶沟县| 清徐县| 阳春市| 扶风县| 吉木萨尔县| 吴旗县|