zoukankan      html  css  js  c++  java
  • hadoop初体验

     

    hadoop初体验

    • namnode format操作
      • 首次启动集群需要针对hdfs 操作
      • 操作只需要进行一次 通常在namenode所在节点进行
      • format中主要创建了hadoop运行时依赖的一些文件夹和文件
        Storage directory /export/data/hadoopdata/dfs/name has been successfully formatted.
        -rw-r--r--. 1 root root 321 Jul 18 14:53 fsimage_0000000000000000000
        -rw-r--r--. 1 root root 62 Jul 18 14:53 fsimage_0000000000000000000.md5
        -rw-r--r--. 1 root root   2 Jul 18 14:53 seen_txid
        -rw-r--r--. 1 root root 208 Jul 18 14:53 VERSION
      • Q:如果不小心format多从会如何?怎么解决?
        • 后果:集群中主从角色互相不识别 貌合神离 之前集群的元数据都会丢失
      • 解决:把3台机器上hadoop.tmp.dir 指定文件夹全部删除 重新format一次
    • hadoop集群的启动方式
      • 单节点逐个启动
        • hdfs集群
           hadoop-daemon.sh start|stop  namenode/datanode/secondarynamenode  
        • yarn集群
           yarn-daemon.sh start|stop  reourcemanager/nodemanager
        • 好处:可以精准的控制每个机器上每个进程启停状态 便于后期维护集群
      • 脚本一键启动
        • 前提是必须配置好 ssh免密登录 指定slaves文件
        • hdfs集群
          start-dfs.sh     stop-dfs.sh 
        • yarn集群
          start-yarn.sh    stop-yarn.sh
        • 更狠的命令 一键启动两个集群
          start-all.sh  stop-all.sh
    • hadoop web-ui页面
    • 初体验
      • hdfs 存储文件集群
        • 本质就是用于文件存储的
        • 结构上也是目录树结构 从/根目录开始
        • 文件夹是文件夹 目录是目录
        • 操作起来比较慢?为什么慢? 难道是分布式存储造成?
      • yarn+mr
        • mr程序本质就是一个java程序
        • mr程序第一步去寻找yarn?为什么去?寻找资源。?
        • mr程序分为两个阶段的 先map 再reduce
        • mr输出的结果好像有顺序 字典序(a--z 0--9)



  • 相关阅读:
    pkg_resources.DistributionNotFound: The 'catkin-pkg==0.4.9' distribution was not found
    gsl库安装
    json ubuntu下安装
    系统安装情况以及深度学习环境搭建
    ros 编程习惯
    ubuntu系统ftp连接 以及ssh连接
    redmine问题
    maven仓库私服配置
    SVN配置管理(trunk、branches、tags)
    Gitolite配置管理和GIT基本操作
  • 原文地址:https://www.cnblogs.com/TiePiHeTao/p/11503951.html
Copyright © 2011-2022 走看看