zoukankan      html  css  js  c++  java
  • Hadoop learning

    1.Hadoop1.0和2.0的区别

    1.0 = hdfs + mapreduce 

    2.0 = hdfs + yarn + mapreduce + other dataprocess 

    2.软件层次

    1. 分布式存储层 HDFS

    a,良好的扩展性

    b,高容错性

    c,适合PB以上的数据

    组成: master name node + standby name node

            datanode存储实际的数据

            namenode建立数据的索引

    缺点:1,不适合低延迟的访问(毫秒级)

            2,master slave 结构不适合小文件存储 

             3,不支持并发写入,随机修改

    2.集群资源管理层 YARN

    使得多个计算框架运行在一个集群里

    以前只有一个mapreduce,后来又有了storm, spark计算框架

    组成:Resource Manager + NodeManager(每一个节点)

    1.提高资源利用率,避免多个计算框架使用不同的集群

    2.引入中间层,来管理资源的分配(资源管理层)

    3.可以减少集群运维人员

    4.有利于数据共享,多个计算框架共享数据资源,避免数据在多个集群中移动

    3.分步式计算层 spark storm等分布式计算框架

    应用程序的多样性需要用到不同的计算框架

    4.HIVE

    直接写MapReduce程序是比较麻烦的,因此引入HIVE,它提供了HQL语句到MR的翻译,所以我们直接写HQL就好

    5.Pig与HIVE解决的问题基本上是一致的,pig是一种新的语言,很多传统公司建议用HIVE即可

  • 相关阅读:
    web常用自动化库——selenium总结(转)
    前端框架面试题
    SpringBoot整合Knife4j展示更美观的API文档
    JUC- ThreadLocal学习笔记
    JUC-ThreadPool线程池的使用与学习
    Java8 新特性
    SpringBoot 整合FreeMarker进行邮件发送
    IDEA 打开别人的项目的是Maevn插件依赖出错问题处理
    Liunx常用指令备查
    第四次作业
  • 原文地址:https://www.cnblogs.com/zhengchunhao/p/5615013.html
Copyright © 2011-2022 走看看