zoukankan      html  css  js  c++  java
  • Spark学习之Spark安装

    Spark安装

    spark运行环境

    • spark是Scala写的,运行在jvm上,运行环境为java7+
    • 如果使用Python的API ,需要使用Python2.6+或者Python3.4+
    • Spark1.6.2  -  Scala 2.10    Spark 2.0.0  -  Scala  2.11

    Spark下载

    • 下载地址:http://spark.apache.org/downloads.html
    • 搭建spark,不需要Hadoop,如有Hadoop集群,可下载对应版本解压

    Spark目录

    • bin包含用来和Spark交互的可执行文件,如spark shell
    • core、streaming、Python,包含主要组件的源代码
    • examples包含一些单机spark job,可以研究和运行这些l例子

    spark的shell

    • spark的shell能够处理分布在集群上的数据
    • spark把数据加载到节点的内存中,因此分布式处理可在秒级完成
    • 快速迭使代式计算,实时查询,分析一般能够在shells中完成
    • spark提供了Python shells和Scala shells

    spark安装步骤

    1. 将下载文件上传到服务器端
    2. 解压,进入bin目录,输入以下命令
      sudo ./spark-shell
    3. 可看到欢迎界面

           4.测试代码如下:

    spark shell 实例
    val lines(变量)=sc.textFile("../../helloSpark") 
    lines.count()
    lines.first()
    把文本文件加载成RDD复制给lines的RDD

  • 相关阅读:
    ETL Pentaho Data Integration (Kettle) 插入/更新 问题 etl
    Value Investment
    sqlserver 2008r2 表分区拆分问题
    HTTP与HTTPS的区别与联系
    别人分享的面经
    饥人谷开放接口(教程)
    java内存泄漏
    单例模式
    Maven项目上有小红叉咋办
    Socket通信1.0
  • 原文地址:https://www.cnblogs.com/longronglang/p/8454184.html
Copyright © 2011-2022 走看看