zoukankan      html  css  js  c++  java
  • 集群搭建问题

    Hadoop 2.6 CDH5.7.0
    下载地址:http://archive.cloudera.com/cdh5/cdh/5
     
    提供的镜像文件也遇到和我自己配置一样的问题
    17/11/23 16:28:20 WARN metastore.ObjectStore: Failed to get database global_temp, returning NoSuchObjectException
     
    JDK:
    其实只需要配置JAVA_HOME
    下载的是Java7的51版本
     
    linux系统本机配置:
    ip映射关系
    ssh免密登陆
     
    Hadoop参数配置:
    etc/hadoop目录下:
    hadoop-env.sh core-site.xml hdfs-site.xml看官方文档修改
     
    Hadoop-env.sh配置JAVA_HOME 
     
    core-site.xml
    配置hadoop端口号。2.0版本为8020
    改tmp保存的位置,不能让其重启后自动删除
     
    hdfs-site.xml
    配置副本系数
    配置tmp路径
     
    格式化HDFS
    只在第一次执行,因为每次执行会清空HDFS的数据
    bin/hdfs namenode -format 
     
    启动HDFS
    sbin/start-dfs.sh
     
     Hadoop目录的相关:
    bin目录是客户端相关的脚本
    etc是配置相关
    sbin是服务器相关
     
    验证是否启动成功:
    jps:
    NN、DN、SNN(Second NameNode)
    浏览器:
    50070端口访问
     
    YARN配置:
    配置yarn-site.xml和mapred-site.xml 
    验证是否启动:
    jps:
    RM、NM
    浏览器:
    8088端口
    启停:
    sbin/start-yarn.sh stop-yarn.sh
     
    Hive配置:
    1.2.1版本
    hive-env.sh 配置HADOOP_HOME路径
    hive-site.xml 配置:
    四个参数:my sql URL(存放元数据的数据库)、jdbc connecter、用户名、密码
    拷贝jdbc driver到lib
     
    启动:
    bin/hive
     
    编译Spark
    scala版本2.11.8
    用Maven编译的前置要求:
    1. 需要的Maven版本(Spark官网上看)
    2. 改Maven的使用内存
    Maven编译Spark的命令(官网都有 )
    对pom.xml要有一定的了解 里面的hadoop、yarn、Hive、Thrift server所对应的参数(注意:yarn若和HDFS不同版本,要在配置时加上yarn的版本)
     
    直接用Spark源码中的dev目录下的make-distribution.sh 底层也是通过Maven语句实现(推荐使用)
     
     编译不成功的原因有很多....
     
    部署Spark
     
    启动Spark 在Spark官网的Programing Guide有介绍:
    local模式:
    spark-shell —master local[n] n为工作线程数 
     
     
    standalone模式:
    Spark-env.sh 配置SPARK_MASTER_HOST SPARK_WORKER_CORES MEMORY INSTANCES 
    启动时可指定core的数目n
    还要指定Master的地址
    在集群上所有机器上都要部署同样的Spark,比较麻烦
     
    配置Spark SQL
    先把hive-site.xml放进spark/conf中
     —jars 当需要访问Hive时一定要加入mysql-connector包
  • 相关阅读:
    VirtualApp
    python安装包遇到问题解决
    NMS_非极大值抑制的作用
    解释残差结构的有效性
    使用tcpdump命令抓取sql
    linux进程绑定cpu内核
    查询表空间占用情况
    数据库表分区
    Windows下如何使用ab命令做并发测试
    TCP协议
  • 原文地址:https://www.cnblogs.com/kinghey-java-ljx/p/8543123.html
Copyright © 2011-2022 走看看