国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學(xué)院 > 開發(fā)設(shè)計(jì) > 正文

Pandas處理csv表格

2019-11-10 22:09:17
字體:
供稿:網(wǎng)友

1)讀取csv文件

data =pandas.read_csv(‘test.csv’) //返回的是DataFrame變量

first_rows = data.head(n) //返回前n條數(shù)據(jù),默認(rèn)返回5條

cols = data.columns //返回全部列名

dimensison = data.shape //返回?cái)?shù)據(jù)的格式,數(shù)組,(行數(shù),列數(shù))

data.values //返回底層的numpy數(shù)據(jù)

如下去所示的csv數(shù)據(jù):

解析1:

import pandas as pdtrain_data = pd.read_csv("train.csv")# 將標(biāo)簽轉(zhuǎn)為0,1,2,3,4,...# 去掉重復(fù)的species = train_data['species'].unique()PRint species# 轉(zhuǎn)為0,1,2,3,4,...species = pd.Series(range(0, len(species)), index=list(species))print species# 修改標(biāo)簽數(shù)據(jù)為:0,1,2,3,4,...def fix_spieces(line):    line['species'] = species.loc[line['species']]    return linetrain_data = train_data.apply(fix_spieces, axis=1)print train_data[0:4]# 返回numpy數(shù)據(jù)。# 下標(biāo)從0開始。# 取樣本數(shù)據(jù),所有行:第二列到最后一列。train_data.values[0::, 2::]# 取標(biāo)簽數(shù)據(jù),所有行:第一列。train_data.values[0::, 1]

解析2:

import pandas as pdimport numpy as npfrom sklearn.preprocessing import LabelEncoderfrom sklearn.preprocessing import StandardScalertrain_data = pd.read_csv("train.csv")# 將train_data中的‘id’列彈出。ID = train_data.pop('id')# print train_data[0:1]# 將train_data中的‘species’列彈出。y = train_data.pop('species')# 將species向量化。y = LabelEncoder().fit(y).transform(y)print y# standardize the data by setting the mean to 0 and std to 1standardize = TrueX = StandardScaler().fit(train_data).transform(train_data) if standardize else train_data.valuesprint X[0:1]

2)pandas的主要數(shù)據(jù)類型dtype:object, 字符串類型int, 整型float, 浮點(diǎn)型datetime, 時(shí)間類型bool, 布爾型print data.dtpyes輸出每一列的數(shù)據(jù)類型3)索引4)選擇數(shù)據(jù)data.loc[1] //返回單列數(shù)據(jù)data.loc[1:3] //返回切片列數(shù)據(jù),相當(dāng)于 data.loc[[1,2,3]]data.loc[:,['ID’]]data.loc[:4,['ID','YELP’]] //返回指定行的指定類,從0行到4行,包括第4行data.iloc[:,:] //返回所有數(shù)據(jù)data.iloc[:2,1:3] //返回特定行特定列的數(shù)據(jù)data[‘ID’] //返回列data[2:5] //返回行data[3:6][:2]data[‘ID’][3:6]data[3:6][‘ID’]data[data.YELP>0] //YELP這列的值不為空,即NaNdata[data['ID'].isin(['v4','v5'])] //返回有這個(gè)值的列5)缺失值處理去掉包含缺失值的行:df.dropna(how=‘a(chǎn)ny’)對缺失值進(jìn)行填充:df.fillna(values=‘NULL’)對數(shù)據(jù)進(jìn)行布爾補(bǔ)充:pandas.isnull(df)

6)數(shù)據(jù)處理

<class 'pandas.core.series.Series'>方法to_stringto_jsonjson.loads(df.loc[0:5,['ID','YELP']].to_json())輸出.csv文件。對應(yīng)解析1:
output = model.predict_proba(test_data.values[0::, 1::])        out = pd.DataFrame(output, index=test_data.values[0::, 0].astype(np.int), columns = species.index.values)out.index.name = "id"out.to_csv("output.csv")對應(yīng)解析2:
LABELS = sorted(pd.read_csv('train.csv').species.unique())ID, test_data = load_test_data()yPred_proba = model.predict(test_data)# Converting the test predictions in a dataframe as depicted by sample submissionyPred = pd.DataFrame(yPred_proba,index=ID,columns=LABELS)print('Creating and writing submission...')fp = open('submit.csv', 'w')fp.write(yPred.to_csv())print('Finished writing submission')# Display the submissionyPred.tail()


上一篇:poj1528

下一篇:POJ - 1862 貪心

發(fā)表評論 共有條評論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 剑河县| 巴楚县| 托克逊县| 绍兴县| 济阳县| 大邑县| 漳浦县| 黎城县| 余江县| 迁安市| 政和县| 攀枝花市| 闽侯县| 平乐县| 蓝田县| 克山县| 荆州市| 南昌县| 灵台县| 台东县| 都江堰市| 宁津县| 三门县| 新竹县| 壤塘县| 长沙县| 金华市| 郁南县| 青冈县| 哈巴河县| 兴文县| 格尔木市| 新丰县| 江华| 佛学| 七台河市| 忻州市| 托克逊县| 泸州市| 昔阳县| 汨罗市|