zoukankan      html  css  js  c++  java
  • Cheetah:A High Performance, Custom Data Warehouse on Top of MapReduce

    特点:

    类似hive,存储unstructured data.

    Virtual View就是一些fact table,存储所有信息,维信息体现在row的属性上

    schema版本变化体现在fact table中,每一行包含schema version ID,元数据记录哪些列可用不可用

    元数据信息存储在每个节点,由主节点同步。

    表数据存储方式:1。text(in CSV)  2.serialized java objects 3.row-based binary array 4. columnar binary array.

    贡献:fact table 自己设计的columnar 存储,提供压缩,分日期和维存储,为查询提供关键字

    对mapreduce 查询job的优化:

     a reduce numbwe 设置 启发式法

     b 采用shared scaner 一次性处理多个相同表处理的查询

     c 小数据直接从HDF本地读取,不mapreduce scan

  • 相关阅读:
    双击返回 退出程序
    读取InputStream 中的内容
    wsgi服务器
    python 中的GIL
    json
    __getattr__
    错误类型
    __slot__用法
    获取属性以及基本方法
    linux IO
  • 原文地址:https://www.cnblogs.com/HomeGIS/p/2953367.html
Copyright © 2011-2022 走看看