zoukankan      html  css  js  c++  java
  • HDFS数据完整性

    为了保证数据的完整性,一般採用数据校验技术:
    1、奇偶校验技术
    2、md5,sha1等校验技术
    3、CRC-32循环冗余校验技术
    4、ECC内存纠错校验技术

    HDFS数据完整性
    1、HDFS以透明方式校验全部写入的数据。能够通过io.bytes.per.checksum属性设置,字节数默认是512 字节。创建一个单独的校验和。假设节点检測数据错误。就会报CheckSumException异常。
    2、除了在读取数据时进行验证,数据节点也会在后台执行一个线程
    DataBlockscanner(数据块检測程序)周期性的验证存储在数据节点上的全部块。
    3、一旦检測到corruptblock,在heartbeat阶段,DN会收到NN发来的Block Command。从其它数据块中拷贝一份新的replica(备份块)。

    本地文件系统
    假设使用本地文件系统file:///,在写一个文件file的时候。会隐式创建一个file.crc文件。包括每一个数据块的checksum。


    使用FileSystem.setVerifyChecksum(false)来禁用校验和验证,也能够在shell命令中使用-ignoreCrc选项


    禁用校验的方法还能够通过RawLocalFilesystem原生支持校验和。底层文件系统原生支持校验和,这里通过 RawLocalFileSystem来替代LocalFileSystem完毕。
    1、通过设置fs.file.impl的值为org.apache.hadoop.fs,RawLocalFileSystem
    2、建立它的实例

    LocalFileSystem继承于ChecksumFileSystem
    ChecksumFileSystem提供了文件校验的系统功能

    package org.apache.hadoop.fs;
    
    /**********************************************************
    Implement the FileSystem API for the raw local filesystem.
    *************************************************************/
    public class RawLocalFileSystem extends FileSystem {
    }
    
    public abstract class ChecksumFileSystem extends FilterFileSystem {
    }
    
    public class LocalFileSystem extends ChecksumFileSystem {
    }

    验证是否存在file.crc文件

    package Compress;
    
    import java.io.IOException;
    
    import org.apache.hadoop.conf.Configuration;
    import org.apache.hadoop.fs.ChecksumFileSystem;
    import org.apache.hadoop.fs.LocalFileSystem;
    import org.apache.hadoop.fs.Path;
    import org.apache.hadoop.mapreduce.Job;
    
    public class CheckpointFileSystem {
        public static void main(String[] args) throws IOException {
            Configuration conf = new Configuration();
            Job job = Job.getInstance(conf, "DeCodec");  
            //打包执行必须执行的方法
            job.setJarByClass(CheckpointFileSystem.class);
            LocalFileSystem localFileSystem = ChecksumFileSystem.getLocal(conf);
            System.out.println(
                    localFileSystem.getChecksumFile(new Path("/liguodong/data")));      
        }
    }
    [root@master liguodong]# yarn jar checksum.jar
    /liguodong/.data.crc
  • 相关阅读:
    图解插入排序--直接插入排序
    在项目中代替DevExpress(一)
    java web servlet
    一元夺宝项目设计(上)
    一元夺宝项目设计(中)
    一元夺宝项目设计(下)
    ORM之四:调用入口与调用示例
    ORM之三:DbProvider与DbFactory
    ORM之二:核心接口与扩展操作
    ORM之一:适合我的ORM
  • 原文地址:https://www.cnblogs.com/lytwajue/p/7233586.html
Copyright © 2011-2022 走看看