国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 開發 > 綜合 > 正文

spark 中 rdd to dataframe 問題

2024-07-21 02:51:31
字體:
來源:轉載
供稿:網友

在spark streaming 過程中遇到數據不對的地方,最有check 到時我們RDD到dataframe 出現了問題

  rowRdd = rdd.flatMap(build_data_row)  statsRdd = rowRdd.map(map_to_id)  dfstats = sqlContext.createDataFrame(statsRdd, schema=docShema)

上面的程序中map_to_id 這個function 盡管return Row(.......) 但是在sqlContext.createDataFrame 中出現數據跟預期的不一樣的情況最后從spark 的文檔發現, RDD ==> DataFrame 中要指定schema, 或者sampleRatio 的, 如果沒有指定的話,可能出現數據的錯亂

尤其是在table 字段很多的情況下.

PS:

data – an RDD of Row/tuple/list/dict, list, or pandas.DataFrameschema – a StructType or list of names of columnssamplingRatio – the sample ratio of rows used for inferring


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 茶陵县| 会东县| 松溪县| 彭泽县| 全南县| 茌平县| 南京市| 女性| 扶风县| 油尖旺区| 巩义市| 安图县| 仪陇县| 新晃| 甘南县| 平利县| 扶风县| 浙江省| 固安县| 太谷县| 颍上县| 台中市| 缙云县| 永昌县| 新营市| 南昌市| 谢通门县| 宁城县| 和龙市| 同仁县| 广宗县| 革吉县| 辉县市| 广平县| 怀集县| 桐庐县| 惠安县| 睢宁县| 正镶白旗| 朝阳市| 盐源县|