zoukankan      html  css  js  c++  java
  • hadoop_note1

    ==========hadoop 理论===============
    1.hadoop包括以下几个方面:
      mapreduce 代码
      hdfs hadoop的文件系统,为分布式存储
      pig  语言,插件
      hbase 
      hive 关系型数据库的sql,也成为sql like 
      sqoop  插件,可以实现hadoop与关系型数据库之间的数据传输
     
    2.google的核心算法,用于给每个网页价值评分,是google的“在垃圾中找黄金”;

      每一行代表一个网页,1/3就是网页1分别对网页234有一个箭头;一列加起来总数是1;
     
    3.google的核心技术:
      GFS  google file system;map-reduce 分布式计算;bigtable  hbase
     
    4.hadoop的起源lucene,nutch是一个微缩版;
     
    5.namenode 名称节点是HDFS的守护进程,记录文件如何分割成数据块,数据块被存储到哪个节点,存在单点故障;
     
    6.Secondary Namenode 辅助名称节点,作用是辅助后台程序,每个集群中有一个,定期保存HDFS元数据快照,不能自动切换;
     
    7.DataNode  每个服务器运行一个,负责把HDFS读写到本地文件;
     
    8.jobTracker  作业跟踪器,用于处理作业的后台程序,每个集群唯一,单点,master节点;    tasktracker 每个节点只有一个,可以启动多个JVM(java虚拟机)与jobtracker交互;
     
     
    ==推荐书籍:==
      实战Hadop:开启通向云计算的捷径(刘鹏)
      注意:该书中有些实践的步骤有漏掉一些核心的,可能会导致安装失败
  • 相关阅读:
    Codeforces Round #541 (Div. 2) D 并查集 + 拓扑排序
    Educational Codeforces Round 60 D dp + 矩阵快速幂
    Educational Codeforces Round 60 C 思维 + 二分
    Codeforces Round #544 (Div. 3) dp + 双指针
    Codeforces Round #542(Div. 2) CDE 思维场
    UVA
    UVA
    UVA
    UVA
    UVA
  • 原文地址:https://www.cnblogs.com/Kid-Zhou/p/8521265.html
Copyright © 2011-2022 走看看