zoukankan      html  css  js  c++  java
  • Hadoop概念、安装、使用

    Hadoop学习笔记

    1. Hadoop概念

    1.思想之源

     

    1. HDFS分布式存储

    2.1 HDFS概念

    2.2 HDFS优点

      1. HDFS缺点

     

      1. HDFS架构

      1. HDFS存储单元(block)

     

     

     

      1. HDFS设计思想

     

      1. HDFS核心概念

    1.NameNode概念

     

    2.SecondaryNameNode概念

    3.SNN合并流程

     

    4.DataNode概念

    5.Block副本放置策略

     

     

     

     

     

     

     

    6.HDFS写流程

    7.HDFS读写权限

     

    8.安全模式

     

    2.8下载Hadoop

    地址       http://hadoop.apache.org/

    官方文档

     

    2.9搭建完全分布式HDFS

    前提:安装jdk,下载hodoop

    1.计划服务器搭建(共四台)

     

    2.计划搭建流程

     

    3.配置yum源(可选)

    4.安装ntpdate时间同步

     

    四台都要执行安装

     

    5.设置ntpdate服务器

    后面url可在网上搜到

    (关闭防火墙)

    6.设置免密登录

    查看私钥文件和公钥文件

     

    让node2-node4都进行免密登录

    node3,node4也是一样的操作

     

    7.安装jdk

    上传jdk和hadoop

    把安装版传到node2,node3,node4

    执行安装

    修改etc/profile文件,配置环境变量

    注意:四台都需要有该环境

     

    8.安装Hadoop

    -c  /home

    修改etc/profile

    刷新profile文件

     

    修改hadoop里面的etc

    删除文档

    同步node

    scp –r hadoop-2.5.1/  node3:/home

     

    9.格式化节点

     

    10.启动HDFS

    访问Hadoop,node1需要在host中配置,直接加端口访问即可:50070

     

    11.查看节点

    12.查看是否有DataNode

    显示这个环境搭建成功!

     

    3.0 HDFS的shell命令

    mkdir 

    创建目录

    ls

    查看当前路径下的hdfs文件目录

    put

    上传文件

    get

    下载文件

    rm –f

    删除文件

     

    3.1 安装Eclipse插件

    放到该目录下

    重启eclipse,暂不支持版本高的eclipse

    3.2 eclipse操作

    创建连接

    修改hosts

    改用户名

    3.3 项目的创建

    导入jar包

    还有commons

    3.4 eclipse代码操作

    粘贴配置文件

     

     

     

    1. 创建目录

    1. 上传文件

    1. 查看文件

    1. 上传文件(音频、文档)

     

    1. 下载文件

     

    3.5 HDFS 2.x Federation

    1.概念

    Federation中文:联邦

    具体图示:

     

    2.搭建环境

    图片上配置了两组

     

     

    1. HA

    1. HDFS-HA
    1. 部署ha流程
    1. 安装配置zookeeper

     

    1. 配置hdfs-site.xml

     

     

    1. 配置http请求地址

     

    1. 配置journal集群

     

    1. 配置故障器

     

     

    1. 配置免密钥

     

    1. 修改core-site.xml

     

    1. 部署ha
    1. 具体流程图

    1. 做免密钥

    全部执行下该命令

    测试

     

     

    1. 修改配置文件
    1. 删除masters

    其他几台也一样

    1. 删除hadoop

     

    1. 修改hdfs-site.xml

    1. 修改core-site.xml

    1. 安装zookeeper
    1. 解压zookeeper

     

    1. 修改profile文件

     

    1. 修改zoo.cfg

     

     

     

     

    1. 创建zookeeper目录

     

    1. 创建myid文件

    (在node1)写个1

     

    1. 同步

     

    Copy目录,拷贝到node2,3

     

    1. 创建myid

    在node2,node3中的opt文件中创建zookeeper,里面创建myid文件,写上2和3

     

    1. 启动zookeeper

     

     

     

     

     

     

    1. 配置hdfs-site.xml

     

    1. 配置core-site.xml

     

    1. 同步配置文件

     

    1. 启动journalnode

    在3和4也启动下

    在四里面也配置下前两个

     

    1. MapReduce分布式计算
    1. 概念

     

    例子—统计文本文件

     

     

    1. MapReduce的Split大小

     

    1. Mapper

     

    1. Reducer

     

    1. Shuffler

     

  • 相关阅读:
    2.如何搭建MQTT环境
    1.如何安装maven
    4.线程同步-未使用线程同步的生产者/消费者关系
    3.线程的优先级和线程调度
    2.如何使用matlab拟合曲线
    1.如何安装matlab2016a
    2.线程状态:一个线程的声明周期
    Oracle"TNS监听程序找不到符合协议堆栈要求的可用处理程序"解决方案
    快速登录MySQL数据库
    数据仓库模型建设基础及kimball建模方法总结
  • 原文地址:https://www.cnblogs.com/chengxiaolong/p/10210817.html
Copyright © 2011-2022 走看看