国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

利用pandas進行大文件計數處理的方法

2020-02-15 22:31:15
字體:
來源:轉載
供稿:網友

Pandas讀取大文件

要處理的是由探測器讀出的脈沖信號,一組數據為兩列,一列為時間,一列為脈沖能量,數據量在千萬級,為了有一個直接的認識,先使用Pandas讀取一些

import pandas as pddata = pd.read_table('filename.txt', iterator=True)chunk = data.get_chunk(5) 

而輸出是這樣的:

Out[4]: 332.977889999979 -0.0164794921875 0 332.97790 -0.022278 1 332.97791 -0.026855 2 332.97792 -0.030518 3 332.97793 -0.045776 4 332.97794 -0.032654

DataFram基本用法

這里,data只是個容器,pandas.io.parsers.TextFileReader。

使用astype可以實現dataframe字段類型轉換

輸出數據中,每組數據會多處一行,因為get_chunk返回的是pandas.core.frame.DataFrame格式, 而data在讀取過程中并沒有指定DataFrame的columns,因此在get_chunk過程中,默認將第一組數據作為columns。因此需要在讀取過程中指定names即DataFrame的columns。

import pandas as pddata = pd.read_table('filename.txt', iterator=True, names=['time', 'energe'])chunk = data.get_chunk(5) data['energe'] = df['energe'].astype('int')

輸出為

Out[6]:

index time energe
0 332.97789 -0.016479
1 332.97790 -0.022278
2 332.97791 -0.026855
3 332.97792 -0.030518
4 332.97793 -0.045776

DataFram存儲和索引

這里講一下DataFrame這個格式,與一般二維數據不同(二維列表等),DataFrame既有行索引又有列索引,因此在建立一個DataFrame數據是

DataFrame(data, columns=[‘year', ‘month', ‘day'], index=[‘one', ‘two', ‘three'])

year month day
0 2010 4 1
1 2011 5 2
2 2012 6 3
3 2013 7 5
4 2014 8 9

而pd.read_table中的names就是指定DataFrame的columns,而index自動設置。 而DataFrame的索引格式有很多

類型 說明 例子
obj[val] 選取單列或者一組列
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 壤塘县| 和龙市| 容城县| 伽师县| 华亭县| 江油市| 东阿县| 天台县| 汶川县| 玛纳斯县| 锦州市| 拜城县| 铜梁县| 巴林左旗| 姚安县| 陇南市| 庄浪县| 从化市| 四子王旗| 承德县| 泾川县| 烟台市| 徐水县| 蒲江县| 海兴县| 通河县| 河南省| 沧源| 珲春市| 中卫市| 方城县| 图木舒克市| 萨嘎县| 榆中县| 巴塘县| 乳山市| 监利县| 庆城县| 密云县| 农安县| 临颍县|
  1. <small id="puqof"></small>
    <noscript id="puqof"></noscript>