zoukankan      html  css  js  c++  java
  • Hadoop初步学习

    我们老板理解的大数据是,从数据到知识的转化。大数据目前的应用如 支付宝金融大数据、腾讯出行大数据等。

    大数据的工作就是从海量数据源中筛选,梳理对自己有用的数据,整合成合适的数据结构,存储并进行可视化。

    大数据目前的代表框架是Hadoop和spark

    大数据涉及到的技包括数据分布式存储、数据分布式计算和数据可视化。

    Hadoop包含两方面的知识:HDFS和MapReduce

    一、HDFS是分布式文件存储系统,目的是将大文件分片存储,存储是大数据的基础。

      HDFS存储系统的原理:HDFS会构建两个模块,nameNode和很多dataNode,模块之间的控制关系为主从模式,nameNode记录所有dataNode的元信息,负责存时指定读时查找相应的dataNode,dataNode专门负责存储数据,以64M为单位存储,备份3份,这样就实现了大文件的分布式存储,利用分布式解决一次性存储需要很大磁盘空间的问题。

      HDFS如何使用:HDFS提供了一些接口,可以帮我们实现文件存取。

              1.通过shell命令调用 如mkdir  copyFromLocal ; 

              2.使用pathon读写,编写pathon代码,调用HDFS API实现读写。

       

    二、MapReduce 是一个编程模型,是大数据应用的解决方案。

      编程模型:将文件分片,对每个分片进行处理,将每个机器的处理结果进行汇总。

      实现demo:读取某一个文件,将文件中的单词按照字符进行map输出,reduce方法进行字符出现次数的统计。

      YARN概念:2.0之后的资源管理器,支持多种计算框架,模块包含ResourceManger、ApplicationMaster、NodeManger。

      ResourceManger用于分配和调度资源,启动监控applicationMaster。

     继续学习。。。。。。。。

      

      

      

    --------学习 交流 提升-----------
  • 相关阅读:
    Informatica_(6)性能调优
    Informatica_(5)高级应用
    Informatica_(4)工作流
    Informatica_(3)组件
    Informatica_(2)第一个例子
    Informatica_(1)安装
    Linux_(4)Shell编程(下)
    Linux_(3)Shell编程(上)
    Linux_(2)基本命令(下)
    B
  • 原文地址:https://www.cnblogs.com/blogNYGJ/p/10459773.html
Copyright © 2011-2022 走看看