国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 開發 > Python > 正文

python常用數據重復項處理方法

2024-09-09 19:02:41
字體:
來源:轉載
供稿:網友

在數據的處理過程中,一般都需要進行數據清洗工作,如數據集是否存在重復,是否存在缺失,數據是否具有完整性和一致性,數據中是否存在異常值等.發現諸如此類的問題都需要針對性地處理,下面我們一起學習常用的數據清洗方法.

重復觀測處理

重復觀測:指觀測行存在重復的現象,重復觀測的存在會影響數據分析和挖掘結果的準確性,所以在數據分析和建模之前需要進行觀測的重復性檢驗,如果存在重復觀測,

還需要進行重復項的刪除

在數據的收集過程中,可能會存在重復觀測的出現,例如通過網絡爬蟲,就比較容易產生重復數據.如下表,是通過爬蟲獲得某APP市場中電商類APP的下載量數據(部分)

通過觀測可以看出唯品會和當當出現了三次.如果收集上來的不是10行,而是10萬行,甚至更多是,就無法通過肉眼的方式檢測數據是否存在重復項了.

下面我們看用python怎么來處理重復項的檢查,以及如何刪除數據項中的重復項

代碼:

import pandas as pddf = pd.read_excel(r'D:/data_test04.xlsx')print('數據集是否存在重復觀測: /n',any(df.duplicated()))

out:

數據集是否存在重復觀測:

True

代碼就是簡單的兩行就處理好了

可以看出檢測數據集的記錄是否存在重復,使用duplicated (英文單詞的意思就是重復,復制的意思)方法,但是該方法返回的是數據集每一行的檢驗結果,為了能夠得到最直接的結果,可以使用any函數,該函數表示的是在多個條件判斷中,只有一個條件為True,則any函數的結果就為True.正如結果所示,any函數的運用返回True值,說明

該數據集是存在重復觀測的.

刪除數據集中的重復觀測:

df.drop_duplicates(inplace = True)df

得出的結果如上圖所示,原先的10行在派出重復項后得到7行,被刪除的行號為:3,8和9.該方法中又有inplace參數,設置為True就表示直接在原始數據集上做操作

以上就是本次介紹的全部知識點,感謝大家對武林網之家的支持。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 莎车县| 横峰县| 年辖:市辖区| 乐安县| 文成县| 孟连| 莱西市| 青冈县| 桑日县| 湛江市| 礼泉县| 伊川县| 博白县| 康乐县| 斗六市| 新和县| 甘肃省| 哈巴河县| 南开区| 类乌齐县| 灵寿县| 沙雅县| 海宁市| 怀集县| 甘泉县| 高清| 浙江省| 武鸣县| 抚远县| 嘉荫县| 汤原县| 穆棱市| 卫辉市| 双城市| 阳高县| 太原市| 华容县| 台南县| 公主岭市| 两当县| 通榆县|