zoukankan      html  css  js  c++  java
  • Hadoop 学习笔记(一)大数据概论

    一、什么是大数据?

    大数据(Big Data) :在一定时间范围内无法通过常规软件进行捕捉,处理和管理的一系列数据集合,大数据主要解决的是海量数据的存储分析计算问题。

    二、大数据特点

     大量  多样 高速 低价值密度

    三、Hadoop  是什么?

      1、Hadoop 狭义上就是 Apache Hadoop,一个顶级的分布式系统基础架构,主要用于解决海量数据的存储和分析计算问题;

      2、广义上来讲:Hadoop  指更广泛的概念—— Hadoop 生态圈;

     Hadoop 生态圈常用的项目:

    • HBase™:可扩展的分布式数据库,支持大型表格的结构化数据存储;
    • Hive™:提供数据汇总和即席查询的数据仓库基础架构;
    • Spark™:用于Hadoop数据的快速和通用计算引擎。Spark提供了一个简单而富有表现力的编程模型,它支持广泛的应用程序,包括ETL,机器学习,流处理和图计算;
    • ZooKeeper™:分布式应用程序的高性能协调服务;
    • Sqoop:数据迁入迁出工具;
    • Flume:日志采集工具;

     四、Hadoop 发展简史

    2003年开始谷歌陆续发表的三篇论文为该问题提供了可行的解决方案

    ——分布式文件系统(GFS),可用于处理海量网页的存储;

    ——分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题;

    ——BigTable 数据库:OLTP 联机事务处理 Online Transaction Processing 增删改;
              OLAP 联机分析处理 Online Analysis Processing 查询;
              真正的作用:提供了一种可以在超大数据集中进行实时CRUD操作的功能

    2008年1月,HADOOP成为Apache顶级项目,迎来了它的快速发展期。

    五、Hadoop 组成

    Hadoop 2.x 版本主要有以下部分组成

    MapReduce 主要用于 基于 HDFS 存储数据的分析计算;

    Yarn : 用于 Hadoop 资源调度和作业间的管理;

    HDFS:Haddop 分布式文件系统,解决了对海量数据的存储问题;

    Common:支持其他Hadoop模块的常用工具

    说明:Hadoop 1.x 和 Hadoop2.x 组成上的区别在于:Hadoop2.x 增加了组件 Yarn 用户资源调度,而在 Haddop1.X中 Map reduce 负责资源调度和分析计算两项工作;

     六、Hadoop 发展前景

    党的十八大提出 “实施国家大数据战略”,当前正处于大数据行业发展的黄金期; 

    党的十九大提出 "推动互联网,大数据,人工智能和实体经济深度融合发展";

    国内二线及以上城市推出智慧城市建设,而智慧城市的根基就是大数据综合治理平台;

    国内相对于 Java 方向从业者来说,大数据从业者缺口较大;

    七、Hadoop 从业要求 

    • Hadoop 分布式集群的平台搭建;
    • Hadoop 分布式文件系统HDFS的原理理解及使用;
    • Hadoop  分布式运算框架MAPREDUCE的原理理解及编程;
    • Hive 数据仓库工具的熟练应用;
    • Flume、sqoop、oozie等辅助工具的熟练使用;
    • Shell/python等脚本语言的开发能力;
    • Oracle/Mysql 数据库的使用,熟练的 SQL 功底;
  • 相关阅读:
    Caused by: com.mysql.cj.core.exceptions.InvalidConnectionAttributeException: The server time zone value '�й���׼ʱ��' is unrecognized or represents more than one time zone. You must configure either the
    Caused by: java.lang.IllegalArgumentException: @EnableAsync annotation metadata was not injected
    jpa单向一对一关系外键映射
    jpa关联映射
    svn 插件去除已经保存的密码方法
    【前端】less学习
    【CodeForces 520E】Pluses everywhere
    费马小定理证明
    【前端】纯前端的一个‘喜欢我吗?’
    Sublime text3 插件HTML/CSS/JS prettify 格式化代码
  • 原文地址:https://www.cnblogs.com/wdh01/p/13788180.html
Copyright © 2011-2022 走看看