zoukankan      html  css  js  c++  java
  • Hadoop初步学习

    我们老板理解的大数据是,从数据到知识的转化。大数据目前的应用如 支付宝金融大数据、腾讯出行大数据等。

    大数据的工作就是从海量数据源中筛选,梳理对自己有用的数据,整合成合适的数据结构,存储并进行可视化。

    大数据目前的代表框架是Hadoop和spark

    大数据涉及到的技包括数据分布式存储、数据分布式计算和数据可视化。

    Hadoop包含两方面的知识:HDFS和MapReduce

    一、HDFS是分布式文件存储系统,目的是将大文件分片存储,存储是大数据的基础。

      HDFS存储系统的原理:HDFS会构建两个模块,nameNode和很多dataNode,模块之间的控制关系为主从模式,nameNode记录所有dataNode的元信息,负责存时指定读时查找相应的dataNode,dataNode专门负责存储数据,以64M为单位存储,备份3份,这样就实现了大文件的分布式存储,利用分布式解决一次性存储需要很大磁盘空间的问题。

      HDFS如何使用:HDFS提供了一些接口,可以帮我们实现文件存取。

              1.通过shell命令调用 如mkdir  copyFromLocal ; 

              2.使用pathon读写,编写pathon代码,调用HDFS API实现读写。

       

    二、MapReduce 是一个编程模型,是大数据应用的解决方案。

      编程模型:将文件分片,对每个分片进行处理,将每个机器的处理结果进行汇总。

      实现demo:读取某一个文件,将文件中的单词按照字符进行map输出,reduce方法进行字符出现次数的统计。

      YARN概念:2.0之后的资源管理器,支持多种计算框架,模块包含ResourceManger、ApplicationMaster、NodeManger。

      ResourceManger用于分配和调度资源,启动监控applicationMaster。

     继续学习。。。。。。。。

      

      

      

    --------学习 交流 提升-----------
  • 相关阅读:
    nowcoderD Xieldy And His Password
    Codeforces681D Gifts by the List
    nowcoder80D applese的生日
    Codeforces961E Tufurama
    Codeforces957 Mahmoud and Ehab and yet another xor task
    nowcoder82E 无向图中的最短距离
    nowcoder82B 区间的连续段
    Codeforces903E Swapping Characters
    Codeforces614C Peter and Snow Blower
    Codeforces614D Skills
  • 原文地址:https://www.cnblogs.com/blogNYGJ/p/10459773.html
Copyright © 2011-2022 走看看