zoukankan      html  css  js  c++  java
  • 笔记:Hadoop权威指南 第4章 Hadoop I/O

    一、HDFS数据完整性保证

    1、DataNode在读取和写入的时候验校验和

    2、后台线程DataBlockScanner 也会检查校验和

    3、若检查到检验和错误,则报告namenode,自动进行删除、复制、恢复操作。


    二、压缩

    1、好处:减少存储的磁盘空间;加速数据在网络和磁盘上的传输。

    2、支持切分的压缩bzip2 (LZO不支持)

    3、Map任务中进行压缩,可以减少数据量,提升性能。


    三、序列化

    1、序列化用途:远程通信、持久存储。

    2、Writable接口:实现 write (DataOutput out), readFields(DataInput in) 方法。

    3、WriteComparable 接口:

    4、Writable 类:IntWritable、VintWritable、LongWritable、VlongWritable、FloatWritable、DoubleWritable、BooleanWritable、Text、BytesWritable、NullWritable、ObjectWritable

    5、Writable集合:ArrayWritable、TwoDArrayWritable、MapWritableSortedMapWritable


    四、基于文件的数据结构

    1、SequenceFile

    用途:(1)、记录二进制类型;(2)、将小文件包装起来,获得更高效率的存储和处理。


    2、MapFile

    MapFile 就是已经排序的SequenceFile,加入了用于搜索键的索引。



  • 相关阅读:
    windows service and process 的关系
    12C expdp issue
    12C dbca silent
    12c 补丁架构 以及opatch 功能
    12C CLONE PDB and config service_listener
    给windows共享 目录付于权限
    zendstudio 安装 手册
    WampServer 下载以及安装问题 以及配置远程连接MYSQL
    Scrapy运行流程
    PyCharm设置Python版本
  • 原文地址:https://www.cnblogs.com/leeeee/p/7276214.html
Copyright © 2011-2022 走看看