Spark中将RDD转换成DataFrame的两种方法

总结下Spark中将RDD转换成DataFrame的两种方法, 代码如下：

方法一：使用createDataFrame方法

//StructType and convert RDD to DataFrame  

val schema = StructType(  
  Seq(  
    StructField("name",StringType,true)            
    ,StructField("age",IntegerType,true)  
  )  
) 
 
val rowRDD = sparkSession.sparkContext  
  .textFile("/tmp/people.txt",2) 
  .map( x => x.split(",")).map( x => Row(x(0),x(1).trim().toInt))    
sparkSession.createDataFrame(rowRDD,schema)  
}  

}

方法二：使用toDF方法

//use case class Person  
case class Person(name:String,age:Int)  

//导入隐饰操作，否则RDD无法调用toDF方法  
import sparkSession.implicits._  
val peopleRDD = sparkSession.sparkContext  
.textFile("/tmp/people.txt",2)  
.map( x => x.split(",")).map( x => Person(x(0),x(1).trim().toInt)).toDF()

注意
请不要将case Class定义在main 方法中与toDF一起使用，或与使用toDF定义在同一函数中

查看全文

相关阅读:
js相关禁止
 单例模式俗称单例3步曲+1曲
 轮廓线重建：二维平行轮廓线重建理论和方法
 一种面向三维地质剖面的形体表面重构算法
 在不使用gluSphere（）的情况下在OpenGL中绘制Sphere
Balabolka
jQuery学习笔记之可见性过滤选择器
 Flask学习之四数据库
 Flask学习之三 web表单
 Flask学习之二模板

原文地址：https://www.cnblogs.com/lestatzhang/p/10883835.html