SparkSQL个人记录 - 走看看

zoukankan html css js c++ java

SparkSQL个人记录

　　SparkSQL将RDD封装成一个DataFrame对象，这个对象类似于关系型数据库中的表。

一、SparkSQL入门

1、创建DataFrame

　　相当于数据库中的一张表，它是一个只读的表，不能在运算过程中再往里加元素。RDD.toDF("列名")

　　

2、创建多列DataFrame对象

1）2列DataFrame

2）3列DataFrame

3、外部文件构造DataFrame

1）txt文件

　　txt文件不能直接转化成DataFrame，先利用RDD转换成tuple，然后toDF()转换为DataFrame

2)json文件

3）jdbc读取

　　实现步骤：

　　　　①将mysql的驱动jar包上传至Spark的jars目录下

　　　　②重启Spark服务

　　　　③进入spark客户端

　　　　④执行代码，比如在mysql的数据库下有一个test_db库，在test_db库下有一张表为cust_info

二、SparkSQL基础语法（方法）

三、SparkSQL基础语法（sql语句）

四、SparkSQL API

1、编写Scala代码

2、打jar包并上传至服务器

3、在spark的bin目录下执行

　　sh spark-submit --class demo01 ./sparksql-demo-1.0.jar ，执行后出现如下结果：

4、查看结果文件

　　

查看全文

相关阅读:
7-4
7-3
第五章例5-2
第五章例5-1
第四章例4-12
第四章例4-11
第四章例4-10
第四章例4-9
第四章例4-8
第四章例4-7

原文地址：https://www.cnblogs.com/rmxd/p/12244191.html

最新文章
例5-6
例5-5
5-9
5-8
5-5
5-7.
5-6
5-4
5-3
5-2

热门文章
5-1
4-12
7-13
7-12
7-11
7-9
7-8
7-7
7-6
7-5

Copyright © 2011-2022 走看看