国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

在Python中利用Pandas庫處理大數據的簡單介紹

2020-02-23 00:34:18
字體:
來源:轉載
供稿:網友

在數據分析領域,最熱門的莫過于Python和R語言,此前有一篇文章《別老扯什么Hadoop了,你的數據根本不夠大》指出:只有在超過5TB數據量的規模下,Hadoop才是一個合理的技術選擇。這次拿到近億條日志數據,千萬級數據已經是關系型數據庫的查詢分析瓶頸,之前使用過Hadoop對大量文本進行分類,這次決定采用Python來處理數據:

    硬件環境
        CPU:3.5 GHz Intel Core i7
        內存:32 GB HDDR 3 1600 MHz
        硬盤:3 TB Fusion Drive
    數據分析工具
        Python:2.7.6
        Pandas:0.15.0
        IPython notebook:2.0.0

源數據如下表所示:

201547112037189.jpg (390×126)

數據讀取

啟動IPython notebook,加載pylab環境:

ipython notebook --pylab=inline

Pandas提供了IO工具可以將大文件分塊讀取,測試了一下性能,完整加載9800萬條數據也只需要263秒左右,還是相當不錯了。
 
import pandas as pd
reader = pd.read_csv('data/servicelogs', iterator=True)
try:
    df = reader.get_chunk(100000000)
except StopIteration:
    print "Iteration is stopped."

201547111747735.jpg (646×96)

使用不同分塊大小來讀取再調用 pandas.concat 連接DataFrame,chunkSize設置在1000萬條左右速度優化比較明顯。
 

loop = TruechunkSize = 100000chunks = []while loop:  try:    chunk = reader.get_chunk(chunkSize)    chunks.append(chunk)  except StopIteration:    loop = False    print "Iteration is stopped."df = pd.concat(chunks, ignore_index=True)

下面是統計數據,Read Time是數據讀取時間,Total Time是讀取和Pandas進行concat操作的時間,根據數據總量來看,對5~50個DataFrame對象進行合并,性能表現比較好。

201547112140168.jpg (379×277)

201547112209982.png (724×266)

如果使用Spark提供的Python Shell,同樣編寫Pandas加載數據,時間會短25秒左右,看來Spark對Python的內存使用都有優化。
數據清洗

Pandas提供了 DataFrame.describe 方法查看數據摘要,包括數據查看(默認共輸出首尾60行數據)和行列統計。由于源數據通常包含一些空值甚至空列,會影響數據分析的時間和效率,在預覽了數據摘要后,需要對這些無效數據進行處理。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 西林县| 文化| 石楼县| 库尔勒市| 即墨市| 商河县| 桂东县| 长治市| 察哈| 安平县| 会同县| 郁南县| 达尔| 宜宾县| 颍上县| 沐川县| 望江县| 宜阳县| 乐山市| 德清县| 九寨沟县| 苗栗市| 安达市| 陆良县| 德昌县| 汉源县| 丹江口市| 彝良县| 芦山县| 巨野县| 平度市| 满城县| 项城市| 汨罗市| 靖州| 吉安市| 湖北省| 蒙自县| 拉孜县| 铜川市| 东阿县|