zoukankan      html  css  js  c++  java
  • Hadoop初步学习

    我们老板理解的大数据是,从数据到知识的转化。大数据目前的应用如 支付宝金融大数据、腾讯出行大数据等。

    大数据的工作就是从海量数据源中筛选,梳理对自己有用的数据,整合成合适的数据结构,存储并进行可视化。

    大数据目前的代表框架是Hadoop和spark

    大数据涉及到的技包括数据分布式存储、数据分布式计算和数据可视化。

    Hadoop包含两方面的知识:HDFS和MapReduce

    一、HDFS是分布式文件存储系统,目的是将大文件分片存储,存储是大数据的基础。

      HDFS存储系统的原理:HDFS会构建两个模块,nameNode和很多dataNode,模块之间的控制关系为主从模式,nameNode记录所有dataNode的元信息,负责存时指定读时查找相应的dataNode,dataNode专门负责存储数据,以64M为单位存储,备份3份,这样就实现了大文件的分布式存储,利用分布式解决一次性存储需要很大磁盘空间的问题。

      HDFS如何使用:HDFS提供了一些接口,可以帮我们实现文件存取。

              1.通过shell命令调用 如mkdir  copyFromLocal ; 

              2.使用pathon读写,编写pathon代码,调用HDFS API实现读写。

       

    二、MapReduce 是一个编程模型,是大数据应用的解决方案。

      编程模型:将文件分片,对每个分片进行处理,将每个机器的处理结果进行汇总。

      实现demo:读取某一个文件,将文件中的单词按照字符进行map输出,reduce方法进行字符出现次数的统计。

      YARN概念:2.0之后的资源管理器,支持多种计算框架,模块包含ResourceManger、ApplicationMaster、NodeManger。

      ResourceManger用于分配和调度资源,启动监控applicationMaster。

     继续学习。。。。。。。。

      

      

      

    --------学习 交流 提升-----------
  • 相关阅读:
    软件定义网络(SDN)研究进展
    第四章:地址解析协议
    Open vSwitch流表应用实战
    Open vSwitch使用案例扩展实验
    mininet实验 脚本实现控制交换机行为
    mininet实验 动态改变转发规则实验
    websocket
    mongodb增删改查常用命令总结
    Mongo简介
    Redis数据库常用命令总结
  • 原文地址:https://www.cnblogs.com/blogNYGJ/p/10459773.html
Copyright © 2011-2022 走看看