国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學院 > 操作系統 > 正文

pandas

2024-06-28 16:01:22
字體:
來源:轉載
供稿:網友

高級數據操作工具,將數據存儲為dataframe的數據結構。

注:將brics.csv文件放到D:/Documents下。

 列的獲取

添加咧

 

行的獲取

元素的獲取

數據可視化

1.折線圖

2.散點圖

3.直方圖

4.軸的標簽

5.標題

6.刻度

7.加入歷史數據

Spark1.6.2.2.3

PCA

算法介紹:

        主成分分析是一種統計學方法,它使用正交轉換從一系列可能相關的變量中提取線性無關變量集,提取出的變量集中的元素稱為主成分。使用PCA方法可以對變量集合進行降維。下面的示例將會展示如何將5維特征向量轉換為3維主成分向量。

scala代碼

復制代碼
import org.apache.spark.ml.feature.PCA  import org.apache.spark.ml.linalg.Vectors    val data = Array(    Vectors.sparse(5, Seq((1, 1.0), (3, 7.0))),    Vectors.dense(2.0, 0.0, 3.0, 4.0, 5.0),    Vectors.dense(4.0, 0.0, 0.0, 6.0, 7.0)  )  val df = spark.createDataFrame(data.map(Tuple1.apply)).toDF("features")  val pca = new PCA()    .setInputCol("features")    .setOutputCol("pcaFeatures")    .setK(3)    .fit(df)  val pcaDF = pca.transform(df)  val result = pcaDF.select("pcaFeatures")  result.show()復制代碼

由于是spark1.6.2。api有些不能用。

OneHotEncoder

算法介紹:

獨熱編碼將標簽指標映射為二值向量,其中最多一個單值。這種編碼被用于將種類特征使用到需要連續特征的算法,如邏輯回歸等。

scala代碼

復制代碼
import org.apache.spark.ml.feature.{OneHotEncoder, StringIndexer}    val df = spark.createDataFrame(Seq(    (0, "a"),    (1, "b"),    (2, "c"),    (3, "a"),    (4, "a"),    (5, "c")  )).toDF("id", "category")    val indexer = new StringIndexer()    .setInputCol("category")    .setOutputCol("categoryIndex")    .fit(df)  val indexed = indexer.transform(df)    val encoder = new OneHotEncoder()    .setInputCol("categoryIndex")    .setOutputCol("categoryVec")  val encoded = encoder.transform(indexed)  encoded.select("id", "categoryVec").show()復制代碼

Python List

numpy array

numpy數組:元素只有一種類型,否則會轉換成字符串。

不同的類型,不同的行為

numpy的構造子集

二維numpy數組

ndarray=n維數組


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 铜陵市| 石景山区| 密云县| 错那县| 图们市| 东兴市| 潮州市| 大港区| 五河县| 湖北省| 阿图什市| 龙陵县| 桐梓县| 阿克陶县| 温泉县| 崇礼县| 保山市| 剑川县| 长顺县| 双峰县| 西城区| 麻江县| 巴东县| 尚义县| 泰州市| 内江市| 承德市| 乾安县| 普格县| 留坝县| 本溪| 武威市| 时尚| 佛教| 琼结县| 靖安县| 木兰县| 济阳县| 河津市| 张家港市| 珠海市|