zoukankan      html  css  js  c++  java
  • hadoop+hive+sqoop安装笔记

    Hadoop+hive+sqoop采坑笔记

    1 软件包下载

    我是在hyper-v虚拟机安装centos进行学习的,以下为所需的软件下载地址:

    1. java下载,直接百度java到oracle官网下载即可,我是用的是java1.8
    2. hadoop下载,直接到hadoop下载2.7.1版本的就行了
    3. hive下载,不晓得什么原因,我到apache官网下载速度超级慢,所以选用清华大学镜像下载
    4. sqoop下载,同样是选择清华大学镜像下载的,速度杠杠的
    5. mysql下载,直接到官网下载对应的rpm包,然后安装就行了
      由于文件在windows系统上,将上述文件传输到centos系统
        scp hadoop-2.7.1.tar.gz hive-1.2.2.tar.gz sqoop-1.4.7.tar.gz java1.8.tar.gz root@远程主机:/usr/local
    

    2 安装

    2.1 java安装

    解压缩java包到/usr/local下即可

    tar -zxvf java1.8.tar.gz
    

    通过vim /etc/profile配置环境变量,加入以下内容

    export JAVA_HOME=/usr/local/java
    export PATH=$PATH:$JAVA_HOME/bin
    

    2.2 hadoop安装

    解压缩

    tar -zxvf hadoop-2.7.1.tar.gz
    

    2.3 配置

    配置环境变量(vim /etc/profile)

     export HADOOP_HOME=/usr/local/hadoop
     export PATH=$PATH:$HADOOP/bin:$HADOOP_HOME/sbin
    

    修改/usr/local/hadoop/etc/hadoop/hadoop-env.sh文件中的JAVA_HOME配置想为

    JAVA_HOME=/usr/local/java
    

    以下为四个xml文件的修改

    core-site.xml

    <?xml version="1.0" encoding="UTF-8"?>
    <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
    <configuration>
        <property>
            <name>fs.defaultFS</name>
            <value>hdfs://localhost:9000</value>
        </property>
    </configuration>
    

    hdfs-site.xml

    <?xml version="1.0" encoding="UTF-8"?>
    <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
     <configuration>
        <property>
            <name>dfs.replication</name>
            <value>1</value>
        </property>
    </configuration>
    

    mapreduce-site.xml

    <?xml version="1.0"?>
    <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
    <configuration>
        <property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>
        </property>
    </configuration>
    

    yarn-site.xml

    <?xml version="1.0"?>
    <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
     <configuration>
        <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
        </property>
    </configuration>
    

    2.4 启动hadoop

    格式化并启动hdfs

    hdfs namenode -format
    start-hdfs.sh
    

    使用jps查看是否启动成功

    启动yarn

    start-yarn.sh
    

    同样的使用jps命令查看是否有resourceMnager等进程
    上述验证成功的方式还有:

    2.5 安装hive

    这里先不用mysql作为metadata的存放数据库,就是用内置的derby数据库,先进行如下配置:

    修改conf/hive-env.sh,默认为conf/hive-env.sh.template

    cp hive-env.sh.template hive.env.sh
    

    配置上述文件中的HADOOP_HOME环境变量为hadoop安装目录
    修改conf/hive-site.xml,默认为hive-default.xml.template,复制为hive-site.xml修改为如下内容,不然会在操作hive时候提醒要你schematool --initialize --dbtype之类的异常:

    <property>
        <name>hive.metastore.schema.verification</name>
        <value>false</value>
    </property>
    <property>
        <name>datanucleus.schema.autoCreateAll</name>
        <value>true</value>
    </property>
    

    2.6 验证hive安装成功

    直接在命令行中输入hive命令,然后在hive客户端中

    hive> show databases
    

    显示出但当前默认的default数据库就表示hive安装成功了

    2.7 安装sqoop工具

    解压sqoop到/usr/local目录下,修改配置文件conf/sqoop-env.sh

    # 复制sqoop-env-template.sh
    cp conf/sqoop-env-template.sh conf/sqoop-env.sh
    

    将修改三项设置以下:

    • HADOOP_COMMON_HOME="hadoop安装目录"
    • HADOOP_MAPRED_HOM="hadoop安装目录"
    • HIVE_HOME="Hive安装目录"

    然后将hive/lib下的hive-common.*.jarhive-exec.*.jar复制到sqoop/lib目录下,就搞定了

  • 相关阅读:
    spark[源码]-TaskSchedulerlmpl类源码
    spark[源码]-SparkEnv执行环境创建
    spark[源码]-sparkContext概述
    spark学习(基础篇)--(第三节)Spark几种运行模式
    spark关于join后有重复列的问题(org.apache.spark.sql.AnalysisException: Reference '*' is ambiguous)
    Spark --【宽依赖和窄依赖】
    CURL常用命令
    Foundation框架基本数据类型
    Object-C Categories和Protocols
    Object c 基础知识
  • 原文地址:https://www.cnblogs.com/hwang126/p/10823121.html
Copyright © 2011-2022 走看看