zoukankan      html  css  js  c++  java
  • 大数据之 Spark

    1 渊源

      于2009由Matei Zaharia创立了spark大数据处理和计算框架,基于内存,用scala编写。

    2 部署

    2.1 需要软件包 下载路径见已有博文

      Jdk ——因为运行环境为jvm

      Python2.7

      Scala2.10.4

      Spark1.0.1

      Hadoop stable version 如果搭建yarn的spark,需要部署yarn版本的hadoop 

    2.2 配置依赖

       <groupId>org.apache.spark</groupId>
       <artifactId>spark-core_2.10</artifactId>
       <version>1.0.1</version>
       <groupId>org.apache.hadoop</groupId>
       <artifactId>hadoop-client</artifactId>

    2.3 在windows下的spark环境搭建

      准备以上包

      其中spark  hadoop包为已经编译好的包,下载直接使用即可,但是需要配置到path中

    3 核心概念

    RDD 只读可分区的分布式数据集

    4 变量配置

    SPARK_HOME  

    PATH新增spark配置,PATH=$SPARK_HOME/bin:$PATH

    spark/spark/conf/spark-env.sh

    HADOOP_HOME HADOOP_CONF SPARK_CLASSPATH

     log4j.properties设置控制台日志级别,设置第三方日志级别,设置sparksql相关配置

    5 启动集群

    spark/spark/sbin/start-all.sh

    6 扩展

    华为FusionInsight大数据平台

    YARN 即Hadoop 2  ,他是一个与hadoop关联的集群计算和资源调度框架。

    HBase

    Kerberos认证

    Sparksql 提供了类sql查询,返回spark-dataframe的数据结构

  • 相关阅读:
    英文哲理短句
    经历的一次诈骗
    英文哲理短句
    反思对待新人的方式
    Java 开源报表制作
    现在开始写字
    关于Visual C++ 6.0的调试技巧和经验总结
    一步一步教你实现CTreeCtrl 自绘
    VC中动态加载ODBC解决方法
    VC++程序编译链接的原理与过程
  • 原文地址:https://www.cnblogs.com/guobm/p/10102790.html
Copyright © 2011-2022 走看看