spark 从RDD createDataFrame 的坑

Scala：

import org.apache.spark.ml.linalg.Vectors

val data = Seq(
  (7, Vectors.dense(0.0, 0.0, 18.0, 1.0), 1.0),
  (8, Vectors.dense(0.0, 1.0, 12.0, 0.0), 0.0),
  (9, Vectors.dense(1.0, 0.0, 15.0, 0.1), 0.0)
)

val df = spark.createDataset(data).toDF("id", "features", "clicked")

Python：

from pyspark.ml.linalg import Vectors

df = spark.createDataFrame([
    (7, Vectors.dense([0.0, 0.0, 18.0, 1.0]), 1.0,),
    (8, Vectors.dense([0.0, 1.0, 12.0, 0.0]), 0.0,),
    (9, Vectors.dense([1.0, 0.0, 15.0, 0.1]), 0.0,)], ["id", "features", "clicked"])

如果是pair rdd则：

    stratified_CV_data = training_data.union(test_data) #pair rdd
    #schema = StructType([
    #   StructField("label", IntegerType(), True),
    #   StructField("features", VectorUDT(), True)])
    vectorized_CV_data = sqlContext.createDataFrame(stratified_CV_data, ["label", "features"]) #,schema)

因为spark交叉验证的数据集必须是data frame，也是醉了！

查看全文

相关阅读:
[leetcode]40. Combination Sum II
二分法查找，如果找到就返回索引，找不到就返回插入该数后的坐标
 [leetcode]39combinationsum回溯法找几个数的和为目标值
 [leetcode33Search in Rotated Sorted Array]在排序旋转后序列中找目标值
 leetcode Add to List 31. Next Permutation找到数组在它的全排列中的下一个
 3sum
Security and Risk Management(5)
Lawrence HDU
Print Article HDU
Batch Scheduling POJ

原文地址：https://www.cnblogs.com/bonelee/p/7805358.html