假期学习进度十二

zoukankan html css js c++ java

假期学习进度十二
一、安装Spark
sudo tar -zxf ~/下载/spark-1.6.2-bin-without-hadoop.tgz -C /usr/local/

cd /usr/local

sudo mv ./spark-1.6.2-bin-without-hadoop/ ./spark

sudo chown -R hadoop:hadoop ./spark

Shell 命令
安装后，还需要修改Spark的配置文件spark-env.sh
cd /usr/local/spark

cp ./conf/spark-env.sh.template ./conf/spark-env.sh
编辑spark-env.sh文件(vim ./conf/spark-env.sh)，在第一行添加以下配置信息:
```
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
```
配置完成后就可以直接使用，不需要像Hadoop运行启动命令。
通过运行Spark自带的示例，验证Spark是否安装成功。
cd /usr/local/spark

bin/run-example SparkPi
执行时会输出非常多的运行信息，输出结果不容易找到，可以通过 grep 命令进行过滤（命令中的 2>&1 可以将所有的信息都输出到 stdout 中，否则由于输出日志的性质，还是会输出到屏幕中）:
bin/run-example SparkPi 2>&1 | grep "Pi is"

二、使用 Spark Shell 编写代码

启动Spark Shell

bin/spark-shell

加载text文件

spark创建sc，可以加载本地文件和HDFS文件创建RDD。这里用Spark自带的本地文件README.md文件测试。

val textFile = sc.textFile("file:///usr/local/spark/README.md")

加载HDFS文件和本地文件都是使用textFile，区别是添加前缀(hdfs://和file://)进行标识。

简单的RDD操作：

//获取RDD文件textFile的第一行内容
textFile.first()

//获取RDD文件textFile所有项的计数
textFile.count()

//抽取含有“Spark”的行，返回一个新的RDD
val lineWithSpark = textFile.filter(line => line.contains("Spark"))

//统计新的RDD的行数
lineWithSpark.count()

退出spark shell
查看全文

相关阅读:
express 项目前后台公用样式 /static/js/bootstrap.min.js
判断滚动条是否到了底部
 JS如何判断滚动条是否滚到底部
 移动端touch触屏滑动事件、滑动触屏事件监听！
JS事件监听手机屏幕触摸事件 Touch
nodejs mysql 连接数据库
 nodejs route的简单使用
 nodejs jade 模板引擎的使用方法
 nodejs 模板引擎ejs的简单使用（3）
nodejs 模板引擎ejs的简单使用（2）

原文地址：https://www.cnblogs.com/lover995/p/12299747.html

假期学习进度十二

一、安装Spark

二、使用 Spark Shell 编写代码