zoukankan html css js c++ java

spark1.1.0下使用SparkSQL

spark1.1.0的安装参见http://blog.csdn.net/bluejoe2000/article/details/41391407

安装了spark之后，可以在 shell中执行Spark SQL。Spark SQL是支持在Spark中使用Sql、HiveSql、Scaca中的关系型查询表达式。它的核心组件是一个新增的RDD类型SchemaRDD，它把行对象用一个Schema来描述行里面的所有列的数据类型，它就像是关系型数据库里面的一张表。它可以从原有的RDD创建，也可以是Parquet文件，最重要的是它可以支持用HiveQL从hive里面读取数据。

首先查看下数据文件：

cat ./examples/src/main/resources/people.txt
Michael, 29
Andy, 30
Justin, 19

Spark SQL测试：

val sqlContext = new org.apache.spark.sql.SQLContext(sc)
import sqlContext._
case class Person(name: String, age: Int)
val people = sc.textFile("examples/src/main/resources/people.txt").map(_.split(",")).map(p => Person(p(0), p(1).trim.toInt))
people.registerAsTable("people")
val teenagers = sql("SELECT name FROM people WHERE age >= 13 AND age <= 19")
teenagers.map(t => "Name: " + t(0)).collect().foreach(println)

shell将输出：

14/11/23 16:28:07 INFO SparkContext: Job finished: collect at <console>:20, took 0.377845624 s
Name: Justin

HiveQL测试：

val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)
import hiveContext._
hql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING)")
hql("LOAD DATA LOCAL INPATH 'examples/src/main/resources/kv1.txt' INTO TABLE src")
hql("SELECT count(*) FROM src").collect().foreach(println)
hql("SELECT key, value FROM src WHERE key>200 and key<300 order by key asc").collect().foreach(println)

查看全文

相关阅读:
JAVA EE社团管理升级版-项目展示（微信小程序）
JAVA EE社团管理升级版-微信WEB管理端说明文档
 python爬虫19 | 遇到需要的登录的网站怎么办？用这3招轻松搞定！
python爬虫20 | 小帅b教你如何使用python识别图片验证码
 python爬虫16 | 你，快去试试用多进程的方式重新去爬取豆瓣上的电影
 python爬虫17 | 听说你又被封 ip 了，你要学会伪装好自己，这次说说伪装你的头部
 python爬虫18 | 就算你被封了也能继续爬，使用IP代理池伪装你的IP地址，让IP飘一会
 python爬虫15 | 害羞，用多线程秒爬那些万恶的妹纸们，纸巾呢？
python爬虫13 | 秒爬，这多线程爬取速度也太猛了，这次就是要让你的爬虫效率杠杠的
 python爬虫14 | 就这么说吧，如果你不懂python多线程和线程池，那就去河边摸鱼！

原文地址：https://www.cnblogs.com/bluejoe/p/5115913.html