zoukankan      html  css  js  c++  java
  • HDFS详细分析一


    1. Hadoop启动中遇到的问题以及解决办法:

    (1)搭建HDFS集群的时候,NameNode和DataNode这两个进程会挂掉?
    查看logs,查看相关的异常信息
    a.如果是namenode没有正常启动,原因在启动之前没有格式化,我们需要format
    b.如果data没有启动,原因是namespaceID不一样
    正确的步骤是:
    1.rm -rf 本地的存储目录(/tmp/hadoop-<user_name>)
    2.hadoop namenode -format
    3.执行脚本 start-dfs.sh
     
    (2)dfsadmin -setQuota的问题
    dfsadmin -setQuota 限制文件数量
    dfsadmin -setSpaceQuota 限制磁盘空间
     
    (3)什么样的文件算是小文件?在哪里配置?
    数据块的默认大小是64M,如果一个文件大小小雨64M,那么它也要占据一个数据块,使用Archive的方式归并小文件。
    数据块大小可以使用dfs.block.size这个属性进行配置。
     
    (4)start-dfs.sh的告警信息
    Unable to load native-hadoop library for your platform...
    using built-in java classes
    没有找到native库,使用内置的java code
     
    (5)重复运行wordcount,提示output目录存在
    可以使用命令行或者hdfs API 直接删除
    修改源代码,增加强制目录替换功能
     
    (6)默认的hadoop conf路径变成了etc/hadoop
    start-dfs.sh之前它会source一下hadoop-config.sh,然后再去执行hadoop-deamon.sh,接下来执行hadoop脚本,执行java程序。

    2.HDFS架构
    一个组的存储容量是该组机器最小的存储容量决定的。(木桶效应)
    一、常见的分布式文件系统
            
    不同的是MooseFS有一个FUSE,可以将分布式文件系统和本地分布式文件系统结合起来
    以文件为基本存储单位:
    1.难以并行化处理
    一个节点只能处理一个文件
    无法同时处理一个文件
    2.难以实现负载均衡
    文件大小不同,无法实现负载均衡
    用户需要自己控制文件大小
     
    二、HDFS文件系统

    HDFS读过程:

    HDFS写过程:
     


     
     
     





  • 相关阅读:
    【OS_Windows】用微pe制作启动盘安装操作系统
    技术列表
    RPC 的概念模型与实现解析
    asp.net站点阻止某个文件夹或者文件被浏览器访问
    常用插件
    安全相关
    asp.net mvc 请求处理流程,记录一下。
    接口的显示实现和隐式实现
    值类型与引用类型的简单测试,没有太多的理论,一目了然。
    IEnumerable、GetEnumerator、IEnumerator之间的关系。
  • 原文地址:https://www.cnblogs.com/litaiqing/p/4614993.html
Copyright © 2011-2022 走看看