zoukankan      html  css  js  c++  java
  • 大三上寒假15天--第1天

    学习于林子雨《大数据技术原理与应用》教材配套大数据软件安装和编程实践指南

    一. 安装spark

    第一步,spark下载(http://spark.apache.org/downloads.html)

     第二步,spark压缩包解压

            sudo tar -zxf ~/下载/spark-1.6.2-bin-without-hadoop.tgz -C /usr/local/

    第三步,解压后文件夹改名为spark

    1. cd /usr/local
    2. sudo mv ./spark-1.6.2-bin-without-hadoop/ ./spark

    第四步,赋予权限

            sudo chown -R hadoop:hadoop ./spark

    第五步,安装后,还需要修改Spark的配置文件spark-env.sh

    1. cd /usr/local/spark
    2. cp ./conf/spark-env.sh.template ./conf/spark-env.sh
    3. vim ./conf/spark-env.sh
    4. 按i进入编辑模式,第一行插入export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath),如图:

    第六步,测试

    1. cd /usr/local/spark
    2. bin/run-example SparkPi
    3. 结果应为,如图:,还有很多信息,这里只截了这么多,但可使用命令bin/run-example SparkPi 2>&1 | grep "Pi is",进行过滤,得到结果如图:

                就算安装成功了

     二.使用 Spark Shell 编写代码

    第一步,启动spark shell

    bin/spark-shell

    成功后如图:

    第二步,加载text文件

    val textFile = sc.textFile("file:///usr/local/spark/README.md")

     如图:

     第三步,简单RDD操作

    1. textFile.first()//获取RDD文件textFile的第一行内容
    2. textFile.count()//获取RDD文件textFile所有项的计数
    3. val lineWithSpark = textFile.filter(line => line.contains("Spark"))//抽取含有“Spark”的行,返回一个新的RDD
    4. lineWithSpark.count()//统计新的RDD的行数
    5. textFile.map(line => line.split(" ").size).reduce((a, b) => if (a > b) a else b)//找出文本中每行的最多单词数(组合操作)

    第四步,退出Spark Shell

    :quit

     

  • 相关阅读:
    给力牛人
    设计模式
    微软真的要放弃Windows品牌吗?
    SQL2005 Express 自动安装之命令行
    SQL where之 in 在变量
    数据库求闭包,求最小函数依赖集,求候选码,判断模式分解是否为无损连接,3NF,BCNF
    别浪费了你的大内存[转]
    QQ空间免费养5级花和拥有人参果
    asp.net2 统一搜索引擎关键字编码[转]
    把网速提高4倍的方法和动画教程
  • 原文地址:https://www.cnblogs.com/my---world/p/12250521.html
Copyright © 2011-2022 走看看