zoukankan      html  css  js  c++  java
  • Hadoop-No.1之数据存储选型

    1. 文件格式

      Hadoop支持多种面向数据存储的文件格式,包括纯文本和Hadoop特有的格式,如SequenceFile.还有一些更加复杂但功能更加丰富的格式可供选择,如Avro与Parquet.不同的格式具有不同的优势.任何一种格式都有适合的应用或者数据源类型.也可以在Hadoop中自己定制化文件格式


    1. 压缩格式

      Hadoop上常用的压缩编解码格式具有不同的特点,比如,一些编解码格式压缩和解压的速度较快,但是压缩效果不好,而有些编解码格式能将文件压缩的更小,但是压缩和解压的时间都比较长,这种情况下 ,CPU的负担加重.在Hadoop上存储数据时,要考虑的另一个重要因素是压缩后的数据是否支持切片.


    1. 数据存储系统

      尽管Hadoop中的所有数据最终存储在HSFD上,但是仍然需要选择实际的存储管理器(Storage Manager),比如你可以选择Hbase,也可以直接用HDFS存储数据.另外,Hive和Impala这样的工具能够为Hadoop中 的数据定义额外的结构信息

  • 相关阅读:
    rabbitmq使用
    redis
    IO模型与IO复用介绍
    事件驱动与异步IO使用
    协程
    进程
    线程、锁
    paramiko模块与 StringIO模块
    socketserver 编程
    随记
  • 原文地址:https://www.cnblogs.com/bilaisheng/p/10211006.html
Copyright © 2011-2022 走看看