zoukankan      html  css  js  c++  java
  • 大数据开发:(一)Hadoop配置

    大数据开发:hadoop配置

    一、相关知识回顾

    • RPC伪分布式 去中心化

    • zookeeper保证分布式存在

    • HDFS:

      • 主节点namenode,从节点datanodes

      • namenode:

        • 接收用户操作请求

        • 维护文件系统的目录结构

        • 管理文件和block的关系,block与datanodes的关系

      • datanodes:

        • 存储文件

        • 文件被分成block存储在磁盘

        • 为保证文件安全,文件会有多个备份

    分布式文件存储

    • 信息源:

      购买信息元(对海量数据清洗)

      自营提供(限于大公司)

      爬虫、抓包

    • 信息格式:文件、文本、sql、json

    分布式计算

    • 离线批处理

      MapReduce

      spark

    • 实时数据流

      storm

      spark

      Sqoop数据迁移:hdfs-->mysql

      flume数据上传,把本地的数据上传至hafs中


    二、安装hadoop/jdk

    第一步:环境准备

    1. 下载hadooop,jdk压缩包

    2. 安装到usr目录下

    3. 切换到usr目录下(cd)

    4. 分别解压压缩包(tar -zxvf 压缩包名)

    5. 删除压缩包(rm -rf 压缩包名称)

    6. 修改文件名,方便操作(mv 旧名称/ 新名称)

    7. cat /etc/profile查看环境变量

    8. 配置环境变量 nano /etc/profile

      • 在末尾添加(注意: 每行之间不能有空格)
      export JAVA_HOME=/usr/jdk
      export HADOOP_HOME=/usr/hadoop
      export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
      export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
      export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
      
      • ctrl+x 退出并保存,
      • 配置完成后生效: source /etc/profile,若没有提示则生效成功

    第二步:hadoop配置

    1. 切换到hadoop文件目录 /usr/hadoop/etc/hadoop

      • nano hadoop-env.sh

      找到如图image-20200218150234115

      • 改成: JAVA_HOME=/usr/jdk ctrl+x保存退出
    • 生效配置:source hadoop-env.sh

      1. 配置 core-site.xml

        在configuration中添加如下:

        命令:nano core-site.xml

        <property>
        <name>fs.defaultFS</name>
        <value>hdfs://192.168.169.1:8020</value>
        </property>
        <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/hadoop/tmp</value>
        </property>
        

        注意hdfs://虚拟机ip:8020

      2. 配置hdfs-site.xml

        命令:nano hdfs-site.xml

        在configuration中添加如下:

        <property>
        <name>dfs.replication</name>
        <value>1</value>
        </property>
        <property>
        <name>dfs.namenode.name.dir</name>
        <value>/usr/hadoop/tmp/dfs/name</value>
        </property>
        <property>
        <name>dfs.datanode.data.dir</name>
        <value>/usr/hadoop/tmp/dfs/data</value>
        </property>
        
    1. hadoop格式化

      hdfs namenode-format

    2. 启动hadoop:start-dfs.sh

      注意:启动进程可能要输入密码

    3. 检查是否启动成功jps

    4. 关闭hadoop:stop-dfs.sh

  • 相关阅读:
    Oracle条件分支查询
    Oracle分组函数实例
    使用JDK合成照片
    Oracle存储过程记录异常日志
    Emmet Cheat Sheet(Sublime编辑)
    JS中级
    JS中级
    架构师必须知道的架构设计原则
    JS中级
    JS中级
  • 原文地址:https://www.cnblogs.com/dreamzone/p/12329971.html
Copyright © 2011-2022 走看看