zoukankan      html  css  js  c++  java
  • hadoop_note1

    ==========hadoop 理论===============
    1.hadoop包括以下几个方面:
      mapreduce 代码
      hdfs hadoop的文件系统,为分布式存储
      pig  语言,插件
      hbase 
      hive 关系型数据库的sql,也成为sql like 
      sqoop  插件,可以实现hadoop与关系型数据库之间的数据传输
     
    2.google的核心算法,用于给每个网页价值评分,是google的“在垃圾中找黄金”;

      每一行代表一个网页,1/3就是网页1分别对网页234有一个箭头;一列加起来总数是1;
     
    3.google的核心技术:
      GFS  google file system;map-reduce 分布式计算;bigtable  hbase
     
    4.hadoop的起源lucene,nutch是一个微缩版;
     
    5.namenode 名称节点是HDFS的守护进程,记录文件如何分割成数据块,数据块被存储到哪个节点,存在单点故障;
     
    6.Secondary Namenode 辅助名称节点,作用是辅助后台程序,每个集群中有一个,定期保存HDFS元数据快照,不能自动切换;
     
    7.DataNode  每个服务器运行一个,负责把HDFS读写到本地文件;
     
    8.jobTracker  作业跟踪器,用于处理作业的后台程序,每个集群唯一,单点,master节点;    tasktracker 每个节点只有一个,可以启动多个JVM(java虚拟机)与jobtracker交互;
     
     
    ==推荐书籍:==
      实战Hadop:开启通向云计算的捷径(刘鹏)
      注意:该书中有些实践的步骤有漏掉一些核心的,可能会导致安装失败
  • 相关阅读:
    new一个对象的时候,实际做了些什么
    ES6 class——getter setter音乐播放器
    vue中引入公用过滤器?
    this详解下
    012天this详解上
    011天之跨域资源共享CORS
    010天JSON.stringify()详解
    009天之跨浏览器的事件处理程序
    使用XHR上传文件要不要了解一下?
    简单化最小化语句数
  • 原文地址:https://www.cnblogs.com/Kid-Zhou/p/8521265.html
Copyright © 2011-2022 走看看