今天主要記錄一下pandas去重復行以及如何分類匯總。以下面的數據幀作為一個例子:
import pandas as pddata=pd.DataFrame({'產品':['A','A','A','A'],'數量':[50,50,30,30]})pandas判斷dataframe是否含有重復行數據用:df.duplicated()

第一次出現的數據為False.重復的數據行就被記錄為True。
去掉重復行數據使用data.drop_duplicates().

可以看到索引亂了,我們使用data.reset_index(),里面的參數drop=True,表明要舍掉原來的索引,不然的話原來的索引會保留下來。

分類匯總主要使用groupby(表明匯總的條件列)以及agg(要匯總的字段/列以及匯總的方式:求和還是最大最小值或者計數)。完整代碼如下圖
# -*- coding: utf-8 -*-"""Created on Fri Jul 20 09:08:10 2018@author: FanXiaoLei"""import pandas as pddata=pd.DataFrame({'產品':['A','A','A','A'],'數量':[50,50,30,30]})if data.duplicated: dataA=data.drop_duplicates().reset_index(drop=True)print(dataA)dataB=dataA.groupby(by='產品').agg({'數量':sum})print('數據匯總結果:')print(dataB)結果展示如下圖:

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持武林站長站。
新聞熱點
疑難解答