為何要單獨一個博文來記錄讀取數據呢?我覺得讀數據很重要,涉及到不同格式的數據,各式各樣的情況,故而記之。
注意:以python語言為工具
讀csv格式的 本數據有3列# -*- coding:utf-8 -*- from pyspark import SparkContextsc = SparkContext("local[2]", "First Spark App")# we take the raw data in CSV format and convert it into a set of records of the form (user, PRoduct, price)data = sc.textFile("data/UserPurchaseHistory.csv").map(lambda line: line.split(",")).map(lambda record: (record[0], record[1], record[2]))上面代碼中核心代碼是:
sc.textFile("data/UserPurchaseHistory.csv").map(lambda line: line.split(",")).map(lambda record: (record[0], record[1], record[2]))第一個map是用于分割,第二個map用于讀取列 采用lambda函數
繼續更新中。。。
新聞熱點
疑難解答