zoukankan      html  css  js  c++  java
  • 大数据--循序渐进的大数据(2)

    一、Hdfs 架构

     
     访问   (1)  ----nameNode
       (2) 
        |
        |
        |
    dataNode
     
    每隔一段时间secondaryNameNode会将fsimage和edits进行合并产生心得fsimage;
     
    1、Hdfs 适用场景
     
            数据密集型并行计算
     
            计算密集并行计算
     
    2、不适合的场景
            HDFS不合适大量小文件的储存
            HDFS适用于高吞吐量,不适合低时间延迟的访问
            流式读取的方式、不适合多用户写入一个文件(一个文件同时只能被一个客户端写),以及任意位置写入(不支持随机写);
            不适合用mapreduce方式进行计算的场景;

                  
    二、MapReduce    编程
    MapReduce借用的函数式编程的概念,google发明的一种分布式的数据处理模型。Hadoop的坐着Doug Cutting 根据这篇论文复制了google的分布式文件系统gfs和mapReduce,
    对应的hadoop的hdfs和mapreduce。
     
    MapReduce模型是整个大数据技术的核心思想,hdfs的架构是为了方便mapreduce而设计,hive、pig等软件最后总是通过调用mapreduce运行
     
     
     
    三、Hive体系结构
     
    Hive不是数据库、仅仅是数据仓库。是建立在hadoop上的数据仓库基础框架,它提供了一系列的工具,可以用来进行数据提取转化加载(ETL)
  • 相关阅读:
    HDU 5441 离线处理 + 并查集
    [转载]HDU 3478 判断奇环
    POJ 1637 混合图的欧拉回路判定
    [转载] 一些图论、网络流入门题总结、汇总
    UVA 820 --- POJ 1273 最大流
    [转载 ]POJ 1273 最大流模板
    POJ 3041 -- 二分图匹配
    2014西安现场赛F题 UVALA 7040
    UVA 12549
    割点、桥(一点点更新)
  • 原文地址:https://www.cnblogs.com/wuyuxiang/p/5166768.html
Copyright © 2011-2022 走看看